技能要求:
Python,语音识别
经验要求:
5-10年经验
工作描述:
项目编号:【41938】
【项目背景】
我们正在开发一款面向博物馆场景的 AI 讲解设备,需要搭建 AI 语音问答的后端服务。用户对着设备提问,系统基于博物馆知识库检索后由大模型生成回答,并以语音形式播报。
【核心工作内容】
1. 搭建 RAG 检索服务:将博物馆资料(文档/文本)向量化,存入向量数据库,支持语义检索
2. 对接大模型 API(DeepSeek 或通义千问),实现基于检索结果的问答生成,支持流式输出
3. 对接语音识别 API(阿里云 Paraformer),实现语音转文字
4. 对接语音合成 API(火山引擎或阿里云 CosyVoice),实现流式语音合成
5. 提供 RESTful API 接口供设备端 App 调用
【技术要求】
- 熟悉 Python 后端开发(FastAPI 或 Flask)
- 有 LLM API 对接和 RAG 架构实际项目经验(必须)
- 熟悉向量数据库(Milvus / Chroma / DashVector 均可)
- 有语音识别/语音合成 API 对接经验优先
【工期与交付】
- 工期约 3-4 周
- 交付可部署的后端服务 + API 接口文档
- 要求每日提交代码至指定 Git 仓库
【合作方式】
远程协作,按周验收里程碑,每周 2-3 次线上简短沟通(15分钟)。