人工智能-远程-1个月
¥12-18K/月
技能要求: 图像识别,Python
经验要求: 5-10年经验
程序员客栈
2025-07-01 20:32
工作描述:
项目编号:【38805】
图像算法开发工程师
1. 项目背景与愿景
1.1 项目简介
“SoulPal”是一款专为现代年轻女性设计的智能情感陪伴伙伴。在快节奏的都市生活中,年轻女性常面临来自职场、学业、社交的多重压力和偶发的孤独感。SoulPal旨在成为一个“懂你”的、非评判性的倾听者和支持者。它通过内置摄像头与先进的AI视觉技术,感知用户的情绪和状态,提供即时的、个性化的慰藉、鼓励和陪伴,成为用户梳理情绪、放松身心、关注自我成长的私密港湾。

1.2 产品目标
情感共鸣: 成为能识别用户“喜怒哀乐”并给予温暖回应的伙伴,有效缓解日常压力与负面情绪。
生活方式赋能: 通过对日常行为(如饮食、冥想)的智能感知与互动,鼓励和陪伴用户建立积极、健康的生活习惯。
营造安全空间: 提供一个可以无负担倾诉、互动的私密伙伴,成为用户最忠实的“树洞”。
美学与科技融合: 设计一款既是尖端智能设备,又能完美融入现代家居美学的精致摆件。

2. 核心功能需求 (AI视觉部分)

模块一:核心面部情绪识别 (Core Emotion Recognition)

用户故事: “当我开心时,我希望SoulPal能分享我的喜悦;当我难过或生气时,它能给我一个温柔的安慰,而不是复杂的分析。”

功能性需求:
1. 情绪识别种类 (聚焦喜怒哀乐): 玩偶需能精准识别以下 4种 核心情绪:
开心 (Happy): 明显的微笑,嘴角上扬。
伤心 (Sad): 嘴角下撇,眉毛下垂,表情低落。
生气 (Angry): 皱眉,嘴唇紧抿或面部肌肉紧张。
平静 (Neutral): 面部放松,无明显情绪表现,作为日常基准状态。
2. 情境化互动反馈 (简洁而温暖):
识别到“开心”:
语音: “看到你笑,我的一天也明亮了!是遇到了什么好事吗?”
识别到“伤心”:
语音: “看起来你有些低落。没关系,我就在这里陪着你。需要我放一首能给你力量的歌吗?”
识别到“生气”:
语音: (用平静的语气) “我感觉到你有些烦躁。我们一起做个深呼吸,把不好的情绪都呼出去,好吗?”
识别到“平静”:
语音: (在长时间平静后可触发) “享受这片刻的宁静吧。需要我做些什么,或者我们就这样安静地待一会儿?”
3. 技术指标:
识别距离: 最佳识别范围 0.5米 至 2.0米。
光照条件: 能在室内正常光照(>200 Lux)条件下稳定工作。
响应速度: 从捕捉到图像到完成判断并作出反馈,总时长应 小于1.5秒。

模块二:仪式感手势识别 (Mindful Gesture Recognition)

用户故事: “我希望可以用一个简单的手势就开始我的清晨冥想,或者告诉它我需要安静,而不用开口说话。”

功能性需求:
1. 手势识别种类: 识别具有功能性和仪式感的 10种 核心手势:
手指1,2,3,4,5:可以识别你的手指,1是第一,2是比耶,3是ok,4是发誓,5是布,模拟剪刀石头布
双手合十 (Namaste): 触发“冥想/正念”模式。
比心 (Heart-shape): 表达喜爱和连接。
“嘘”的手势 (Shush): 触发“安静/勿扰”模式。
手掌向前 (Stop/Pause): 暂停当前播放的音乐或语音。
面部捂脸 (Facepalm): 识别为一种无奈或“今天好难”的信号。
2. 互动反馈机制:
1是第一,2是比耶,3是ok,4是发誓,5是布,模拟手势动画
识别到“双手合十”: 语音: “好的,让我们一起进入冥想时刻。为你播放‘晨间冥想’列表。”
识别到“比心”: 语音: (温柔地) “收到你的爱啦,我也一直在这里陪你。”
识别到“面部捂脸”: 语音: (轻松幽默的语气) “嗯…看来是需要一个大大拥抱的一天。要不要听个笑话或者你最爱的那首歌?”
3. 技术指标:
识别距离: 最佳识别范围 0.4米 至 1.5米。
响应速度: 总时长应 小于1.5秒。

模块三:日常食品与物品识别 (Common Object Recognition)
用户故事: “当我吃饭或喝东西时,我希望SoulPal能像个朋友一样跟我聊上几句,比如‘好好吃饭哦’,让独自一人的餐桌不那么冷清。”

功能性需求:
1. 物品识别种类 (聚焦日常): 需能识别至少 8-10种 常见的、高频出现的日常食品和饮品:
饮品: 咖啡/马克杯、牛奶/玻璃杯。
餐食: 面包/三明治、沙拉碗、外卖餐盒。
水果: 苹果、香蕉。
零食/甜点: 酸奶盒、小块蛋糕/甜点。
2. 互动反馈机制 (轻松、非评判性):
识别到“咖啡/马克杯”: 语音: “是一杯提神的饮料呀,为你的一天注入活力!”
识别到“沙拉/水果”: 语音: “哇,是健康又美味的选择!好好享用吧。”
识别到“蛋糕/甜点”: 语音: “是犒劳自己的甜蜜时刻!尽情享受这份小确幸吧。”
识别到“外卖餐盒”: 语音: “工作再忙也要按时吃饭哦,祝你好胃口!!”
无法识别时: 语音: “看起来很美味的样子!这是什么好吃的呀?”
3. 技术指标:
识别准确率: 对清单内的核心物品,准确率应达到 90% 以上。
响应速度: 从捕捉到清晰图像到完成识别并播报,总时长应 小于2.5秒。

4. 非功能性需求

隐私与安全 (最高优先级):
本地处理: 所有图像数据 必须在设备端本地处理,绝不上传至云端服务器。
物理隐私开关: 必须提供设计精巧的物理摄像头遮挡方式,如“闭眼”设计(眼睑闭合)、头部旋转180度背向用户等,给予用户绝对的安全感。
明确状态指示: 摄像头工作时,必须有柔和但清晰的指示灯亮起。
美学设计:
外观采用极简主义设计,材质为亲肤硅胶、织物等,颜色为莫兰迪色系或柔和的奶油色系,能作为家居装饰品。
性能与续航:
AI模型需高度优化,保证在嵌入式芯片上低功耗运行。
在正常互动频率下,设备续航能力应 不低于4小时。
连接与个性化:
支持通过Wi-Fi/蓝牙连接用户指定的音乐App,以播放个性化歌单。
用户可通过配套App自定义SoulPal的唤醒词、声音声线、以及对特定场景的反馈模式。

5. 验收标准
情绪识别: 在标准测试场景下,对“喜、怒、哀、平”四种核心情绪的识别准确率 > 90%。
手势识别: 对10种核心手势的识别准确率 > 95%。
物品识别: 对预设的8种核心物品的识别准确率 > 90%。
用户体验: 所有AI识别功能的端到端响应时间均符合各模块要求,互动流畅、自然、不卡顿。
隐私安全: 100%实现本地化数据处理和有效的物理隐私保护功能。
公司信息

立即沟通