项目编号:【41838】
「物屿然 (ISLERAN)」AI 自动化内容工厂:架构师/合作者招募说明书(修订版)
1. 项目概况
品牌定位:国内首个基于全球顶级垂直健康专家语料库的 AI 超级食物品牌。
核心任务:针对全球范围内(包括但不限于柏格医生等)的顶级健康视频资源,建立**大规模(5,000+ 起步,不设上限)**的高精度中文 RAG 知识库,并打通微信小程序与跨境电商(有赞)的商业闭环。
开发模式:项目制(Remote),里程碑交付。
2. 目标架构 (Tech Stack) —— 强调高并发与扩展性
要求使用工业级 AI 编排工具,构建具备海量吞吐能力的生产线:
调度引擎:n8n (Self-hosted) —— 需支持多频道、多来源的自动化监控与抓取,具备强健的任务排队与容错机制。
知识库引擎:Dify (Self-hosted) —— 需针对海量数据(10,000 级以上文档)优化向量检索性能,支持多知识库隔离与联合搜索。
模型处理:Deepgram Nova-2 (ASR 校准) + OpenAI Batch API —— 必须利用批处理机制应对海量任务,确保在大规模数据处理下成本结构的最优化。
前端终端:微信小程序 —— 实现流式(Streaming)响应、全局知识检索及有赞商城的静默关联。
商业接口:有赞云 API (SBBC 跨境模式)。
3. 核心开发模块与交付物
模块 A:高扩展性自动化生产线 (Massive Data Pipeline)
交付要求:实现“指定频道/列表 -> 自动增量抓取 -> 字幕处理 -> ASR 精准校准 -> Batch 批量洗数 -> Dify 向量化”的全自动闭环。
关键点:架构必须支持横向扩展。需处理海量数据量下的 API 限流策略,具备完善的日志监控与断点续传功能。
模块 B:工业级 RAG 专家系统 (Expert Knowledge RAG)
交付要求:完成至少 5,000+ 视频的高质量结构化入库,实现「向量 + 关键词」混合检索。针对不同专家内容建立索引,并完成语义重排序 (Rerank) 以保证复杂医学背景下的回复准确率。
关键点:Prompt 需适配“老张”健康伙伴人设,具备人话沟通能力及引用溯源能力。
模块 C:智能应用端与电商闭环
交付要求:完成小程序前端开发。实现用户意图识别,自动触发匹配医学逻辑的有赞商品导购卡片。
关键点:需实现针对海量内容的毫秒级全局搜索。
4. 合作者资质要求
实战经验:有 10,000 级以上 数据清洗或大规模 Data Pipeline 搭建经验。
工具深度:精通 n8n 节点编排(擅长处理复杂逻辑分支与错误重试)和 Dify 的架构优化。
工程化能力:具备服务器运维能力,能针对海量请求优化数据库读写性能。
业务理解:理解跨境电商逻辑及内容驱动交易的商业闭环。
5. 合作方式与报酬
预估周期:8-10 周(第一阶段)。
报酬范围:¥35,000 - ¥50,000(视方案的扩展性与稳定性定价)。
付费里程碑:
M1:环境部署与高并发采集流水线跑通 (20%)。
M2:首批 5,000+ 视频全量 Batch 处理与 Dify 生产环境上线 (30%)。
M3:小程序全功能(对话、检索、提醒)交付 (40%)。
M4:有赞支付闭环及系统稳定性验收 (10%)。
6. 申请需提供
你处理过最大规模数据量的 AI 自动化方案案例。
针对本项目“海量内容(5000+ 且持续增长)”下的检索精度与系统稳定性优化建议。
GitHub 个人主页或技术博客。