Python-远程-1个月
¥18-30K/月
技能要求:
经验要求: 5-10年经验
程序员客栈
2026-03-05 11:29
工作描述:
项目编号:【184269】
一、 任务标题
【高价值/可长期合作】为AI数据分析产品寻找并定制多领域公开数据集

二、 公司与项目背景
我们是一款领先的AI数据分析与可视化SaaS产品,致力于帮助各行业用户轻松洞察数据价值。为筹备即将上线的“数据市场 (Data Market)”功能,我们现需寻找并整理一批高质量、真实、可商用且具有行业代表性的公开数据集。
我们寻找的不是简单的“数据搬运工”,而是专业的**“数据猎人”或数据分析师**,能够理解数据价值,并按照我们的高标准完成数据集的搜集、整理与交付。本次项目表现优秀的服务商,将有机会成为我们的长期数据合作伙伴。

三、 核心任务与目标
在一个月内,根据我们指定的领域和数据字段要求,搜集、清洗并整理 [请在此填写您期望的数据集数量,例如:《副业类型与实际收入数据》,《全国岗位薪资与职业发展数据》,《城市生活成本与压力指数数据》,《行业增长与就业趋势数据》 ] 不同主题的高质量数据集。
三大硬性要求(无法满足请勿投标):
数据真实可溯源:所有数据必须来自公开、权威、可信的渠道,并提供明确的来源链接和采集方法说明。
数据字段定制化:您需要根据我们为每个数据集定义的字段要求,对原始数据进行提取、清洗、转换和格式化。
一个月内交付:整个项目需在合同签订后的30天内完成所有数据集的最终交付。

四、 任务详细流程与要求
第一阶段:数据集主题与来源确认 (项目启动后3天内)
服务商需根据此清单,反向提供一份详细的“数据搜集方案”。方案需针对每个主题,列出您计划搜集的具体数据源(如:XX政府数据开放平台、XX行业协会官网、XX上市公司年报、XX学术研究报告等),并评估其数据量、时效性、可行性和使用许可。
双方共同审核并确认最终要执行的数据集主题和来源后,签订正式合同并进入下一阶段。
第二阶段:数据采集与定制化整理 (项目启动后4-25天)
数据采集:通过合法、合规的方式(如公开数据下载、API调用、编写网络爬虫等)获取原始数据。
数据定制化处理(核心工作):
字段提取/生成:根据我们为每个数据集定义的字段(列)要求,从原始数据中提取或通过计算生成相应字段。
数据清洗:处理缺失值(明确标注或按规则填充)、异常值和重复值,确保数据整洁可用。
格式统一:统一日期格式(如 YYYY-MM-DD)、地理位置信息、文本格式(如去除多余空格和特殊字符)、数值单位等。
数据量要求:为保证分析价值,每个数据集的记录(行)数原则上应不少于 [请填写最小行数要求,例如:5,000条],具体视主题而定。
第三阶段:交付与验收 (项目启动后26-30天)
详见下面的“交付要求”。我们将对每一份数据集进行严格的审核。
公司信息

立即沟通