技能要求:
经验要求:
5-10年经验
工作描述:
项目编号:【182576】
- 只做中文音乐平台上的歌曲(这里面当然主要是中文的,混进来其他语言的不要紧)
- 优先做中文平台上最流行的歌曲
- 数据要求:
1. 必选一一对应:音频(最好为无损 wav/flac, 高质量mp3也可以接受),歌词,详细信息(时长,类别,等),歌手(如果不止一人要特别标注)
2. 可选--不需要每个数据点都有:midi,旋律的谱子,乐评,对应纯音乐版,歌手的评价描述(比如这个人的声音特点)
要求:不允许使用AI在无根据的情况下生成内容,比如:
不允许:乐评,歌手评价等文字内容不允许使用大语言模型生成
允许:使用语音转文字提取视频中的乐评,然后进一步净化数据
3. 看能不能做到:除了整曲,另外提供仅高潮/副歌部分的音频歌词一一对应
- 数据量:几十万首起
- 数据交付:
1. 裸数据放到一个可靠成本低的(估计主要需要进出带宽便宜),s3兼容的云盘,按照歌手分
2. 所有metadata放到一个大table(如sql),方便检索--到云盘里面取
整体数据质量要有保障+