技能要求:
Python,Go,MySQL
经验要求:
5-10年经验
工作描述:
项目编号:【41869】
开发一套基于 Python 的高效网页数据采集系统,实现日产 3 万条海外(主美)结构化画像数据,并具备 iOS 系统属性判定功能。
1. 核心开发任务 (Job Tasks)
• 多源引擎开发: 针对指定的 3-5 个海外目标站(如美国 Whitepages、黄页等)编写解析脚本。
• 动态环境模拟: 集成 Playwright/Scrapy,实现浏览器指纹(User-Agent, Canvas, WebRTC)随机化,绕过目标站反爬。
• 智能 IP 调度: 对接 IPRoyal 动态住宅代理接口,实现“一请求一换 IP”,并建立请求失败自动重试逻辑。
• 流量极致优化: (核心指标) 必须在代码层面屏蔽图片、视频、CSS 加载及第三方广告脚本,确保 1GB 流量采集量 > 1万条。
• 系统属性探测: 集成第三方 API 或私有协议接口,自动判定采集号码是否激活 iMessage/FaceTime。
• 数据库存储: 使用 MySQL/PostgreSQL 存储数据,并建立唯一索引(Unique Index)实现手机号自动去重。
2. 交付物标准 (Deliverables)
• 完整源码: 包含详细注释的 Python 源代码,托管于指定的 GitHub/GitLab 私有仓库。
• Web 管理后台: 一个简单的可视化界面,支持:开始/停止任务、选择国家、查看采集速度、一键导出 CSV/TXT。
• 部署文档: 能够让非技术人员在 15 分钟内在新服务器上完成环境搭建的操作手册。