【人工智能招聘】_杭州势然网络科技有限公司招聘-程序员客栈

人工智能-远程-1个月

￥12-18K/月

技能要求: 图像识别，Python

经验要求: 5-10年经验

程序员客栈

2025-07-01 20:32

工作描述:

项目编号：【38805】
图像算法开发工程师
1. 项目背景与愿景
1.1 项目简介
“SoulPal”是一款专为现代年轻女性设计的智能情感陪伴伙伴。在快节奏的都市生活中，年轻女性常面临来自职场、学业、社交的多重压力和偶发的孤独感。SoulPal旨在成为一个“懂你”的、非评判性的倾听者和支持者。它通过内置摄像头与先进的AI视觉技术，感知用户的情绪和状态，提供即时的、个性化的慰藉、鼓励和陪伴，成为用户梳理情绪、放松身心、关注自我成长的私密港湾。

1.2 产品目标
情感共鸣: 成为能识别用户“喜怒哀乐”并给予温暖回应的伙伴，有效缓解日常压力与负面情绪。
生活方式赋能: 通过对日常行为（如饮食、冥想）的智能感知与互动，鼓励和陪伴用户建立积极、健康的生活习惯。
营造安全空间: 提供一个可以无负担倾诉、互动的私密伙伴，成为用户最忠实的“树洞”。
美学与科技融合: 设计一款既是尖端智能设备，又能完美融入现代家居美学的精致摆件。

2. 核心功能需求 (AI视觉部分)

模块一：核心面部情绪识别 (Core Emotion Recognition)

用户故事: “当我开心时，我希望SoulPal能分享我的喜悦；当我难过或生气时，它能给我一个温柔的安慰，而不是复杂的分析。”

功能性需求:
1. 情绪识别种类 (聚焦喜怒哀乐): 玩偶需能精准识别以下 4种核心情绪：
开心 (Happy): 明显的微笑，嘴角上扬。
伤心 (Sad): 嘴角下撇，眉毛下垂，表情低落。
生气 (Angry): 皱眉，嘴唇紧抿或面部肌肉紧张。
平静 (Neutral): 面部放松，无明显情绪表现，作为日常基准状态。
2. 情境化互动反馈 (简洁而温暖):
识别到“开心”:
语音: “看到你笑，我的一天也明亮了！是遇到了什么好事吗？”
识别到“伤心”:
语音: “看起来你有些低落。没关系，我就在这里陪着你。需要我放一首能给你力量的歌吗？”
识别到“生气”:
语音: (用平静的语气) “我感觉到你有些烦躁。我们一起做个深呼吸，把不好的情绪都呼出去，好吗？”
识别到“平静”:
语音: (在长时间平静后可触发) “享受这片刻的宁静吧。需要我做些什么，或者我们就这样安静地待一会儿？”
3. 技术指标:
识别距离: 最佳识别范围 0.5米至 2.0米。
光照条件: 能在室内正常光照（>200 Lux）条件下稳定工作。
响应速度: 从捕捉到图像到完成判断并作出反馈，总时长应小于1.5秒。

模块二：仪式感手势识别 (Mindful Gesture Recognition)

用户故事: “我希望可以用一个简单的手势就开始我的清晨冥想，或者告诉它我需要安静，而不用开口说话。”

功能性需求:
1. 手势识别种类: 识别具有功能性和仪式感的 10种核心手势：
手指1，2，3，4，5：可以识别你的手指，1是第一，2是比耶，3是ok，4是发誓，5是布，模拟剪刀石头布
双手合十 (Namaste): 触发“冥想/正念”模式。
比心 (Heart-shape): 表达喜爱和连接。
“嘘”的手势 (Shush): 触发“安静/勿扰”模式。
手掌向前 (Stop/Pause): 暂停当前播放的音乐或语音。
面部捂脸 (Facepalm): 识别为一种无奈或“今天好难”的信号。
2. 互动反馈机制:
1是第一，2是比耶，3是ok，4是发誓，5是布，模拟手势动画
识别到“双手合十”: 语音: “好的，让我们一起进入冥想时刻。为你播放‘晨间冥想’列表。”
识别到“比心”: 语音: (温柔地) “收到你的爱啦，我也一直在这里陪你。”
识别到“面部捂脸”: 语音: (轻松幽默的语气) “嗯…看来是需要一个大大拥抱的一天。要不要听个笑话或者你最爱的那首歌？”
3. 技术指标:
识别距离: 最佳识别范围 0.4米至 1.5米。
响应速度: 总时长应小于1.5秒。

模块三：日常食品与物品识别 (Common Object Recognition)
用户故事: “当我吃饭或喝东西时，我希望SoulPal能像个朋友一样跟我聊上几句，比如‘好好吃饭哦’，让独自一人的餐桌不那么冷清。”

功能性需求:
1. 物品识别种类 (聚焦日常): 需能识别至少 8-10种常见的、高频出现的日常食品和饮品：
饮品: 咖啡/马克杯、牛奶/玻璃杯。
餐食: 面包/三明治、沙拉碗、外卖餐盒。
水果: 苹果、香蕉。
零食/甜点: 酸奶盒、小块蛋糕/甜点。
2. 互动反馈机制 (轻松、非评判性):
识别到“咖啡/马克杯”: 语音: “是一杯提神的饮料呀，为你的一天注入活力！”
识别到“沙拉/水果”: 语音: “哇，是健康又美味的选择！好好享用吧。”
识别到“蛋糕/甜点”: 语音: “是犒劳自己的甜蜜时刻！尽情享受这份小确幸吧。”
识别到“外卖餐盒”: 语音: “工作再忙也要按时吃饭哦，祝你好胃口！!”
无法识别时: 语音: “看起来很美味的样子！这是什么好吃的呀？”
3. 技术指标:
识别准确率: 对清单内的核心物品，准确率应达到 90% 以上。
响应速度: 从捕捉到清晰图像到完成识别并播报，总时长应小于2.5秒。

4. 非功能性需求

隐私与安全 (最高优先级):
本地处理: 所有图像数据必须在设备端本地处理，绝不上传至云端服务器。
物理隐私开关: 必须提供设计精巧的物理摄像头遮挡方式，如“闭眼”设计（眼睑闭合）、头部旋转180度背向用户等，给予用户绝对的安全感。
明确状态指示: 摄像头工作时，必须有柔和但清晰的指示灯亮起。
美学设计:
外观采用极简主义设计，材质为亲肤硅胶、织物等，颜色为莫兰迪色系或柔和的奶油色系，能作为家居装饰品。
性能与续航:
AI模型需高度优化，保证在嵌入式芯片上低功耗运行。
在正常互动频率下，设备续航能力应不低于4小时。
连接与个性化:
支持通过Wi-Fi/蓝牙连接用户指定的音乐App，以播放个性化歌单。
用户可通过配套App自定义SoulPal的唤醒词、声音声线、以及对特定场景的反馈模式。

5. 验收标准
情绪识别: 在标准测试场景下，对“喜、怒、哀、平”四种核心情绪的识别准确率 > 90%。
手势识别: 对10种核心手势的识别准确率 > 95%。
物品识别: 对预设的8种核心物品的识别准确率 > 90%。
用户体验: 所有AI识别功能的端到端响应时间均符合各模块要求，互动流畅、自然、不卡顿。
隐私安全: 100%实现本地化数据处理和有效的物理隐私保护功能。

公司信息

程序员客栈

立即沟通