技能要求:
经验要求:
5-10年经验
工作描述:
项目编号:【183954】
项目描述:
我需要开发一个定向、自动化的数据采集系统,专门用于从中国四大AMC(华融、信达、东方、长城),阿里资产、京东拍卖等官方网站上,抓取“资产处置”或“债权转让”相关的公告信息。
核心需求与已准备工作:
目标明确:我已整理好需要抓取的所有数据字段清单(Excel格式),例如债务人、本金、抵押物等。
样本齐全:我已手动下载保存了四大官网的多个代表性网页(HTML完整页),作为开发解析规则的依据。
系统框架清晰:系统需包含以下模块:
多网站爬虫引擎:能同时适配四个不同结构的网站。
代理IP池集成:解决反爬问题,确保稳定运行。
智能解析规则:针对每个网站单独配置,从HTML中提取目标数据。
数据存储:将清洗后的结构化数据存入数据库(如SQLite或MySQL)。
定时任务:支持每日自动运行。
交付要求:
完整的可运行源代码。
详细的本地部署与运行说明书。
所有解析规则的配置文件。
合作方式:希望寻找一位有Python爬虫经验的开发者,采用分阶段付费的方式合作。我本人非技术背景,但需求明确,沟通顺畅。