Python-远程-1个月
¥6-12K/月
技能要求:
经验要求: 5-10年经验
程序员客栈
2024-07-30 15:00
工作描述:
项目编号:【34417】
Bert vits2需求
1. 模型训练
1.1 音频克隆api
a.稳定性:提供一个稳定的克隆api。
i.16G显存下面能够长时间稳定跑音色克隆。(会有专门的音色克隆服务器,可能存在克隆效果试听)
ii.克隆限制:为了避免爆显存导致的程序崩溃。告知该接口的使用限制。(原始音频时长等。)

b.便捷性:提供模板音频文件、音色名字即可克隆。
i.自动选择一个训练较好的模型,作为生成的模型。
ii.克隆接口需返回该模型的文件名称、文件路径。

1.2 兜底:如果复杂度较高,短期内无法实现,采用预预训练模型的模式
a.训练多个优质模型。
b.后续用户需要复刻模型的情况,协助训练。


2. 流式推理
2.1 项目包
a.项目包:需要将整个项目打包成绿色包。(整合cuda环境)
b.稳定性:需要项目能稳定运行,常规使用的时候不存在崩溃闪退的情况。(可能会连续推理十几个小时)
c.更新:后续bert vits2项目迭代后,可能会存在升级,需要你方协助。

2.2 模型调优
a.推理速度:需要对模型量化处理(减小显存占用)
b.推理速度:基于4060(8G),如果推理速度不理想,需要优化推理速度。(更改推理框架或者其他调优)
c.推理(暂定):需要多路推理。(多路推理可能需要更高显存的配置)


2.3 模型优化
a.文本支持:模型对部分文本支持不佳的情况下进行调优。(好像bert vit2对纯数字支持不佳?及其他异常情况)
b.推理衔接:两段文本之间,推理间隙是否存在过长的情况。
c.性能相关:推理时间过长,是否存在爆显存等异常情况,期望能够一直保持稳定显存占用。(双方协助一起测试)

2.4 推理相关
a.排队机制:需要和你方商议如何实现。
b.音质相关:流式推理确保音质较高,别出现破音、失真、机械音等情况。
c.稳定性:确保能够稳定推理七八个小时,不出现卡顿。
d.模型支持:新的声音模型,放入指定目录后,无需重启程序即可在推理接口内调用该模型。
e.sdk:出一份简单的接口调用文档,对接的过程出现异常,需协助我们研发接入sdk。

2.5 进阶功能
a.插队机制:二期考虑增加同用户的互动,要考虑如何优雅的插队。


备注:
1、还需要解决该项目上面其他未考虑到的问题。
2、该项目运行的时候,如果出现了异常情况,白天需要半小时内响应并尽快修复。
公司信息

立即沟通