技能要求:
经验要求:
5-10年经验
工作描述:
项目编号:【187169】
本项目需要长期跟踪山西省大同市古城区域(一个历史旅游区)的商业与舆情数据,为市场分析提供持续的数据支持。采集周期计划为1-2年,网站改版风险由开发方案承担。目标数据分为以下三类,需做进同一个系统:
第一类:酒店房价与订单数据
· 目标平台:携程、去哪儿 等主流 OTA(需指定“大同古城”区域)
· 采集字段:酒店名称、地址(或经纬度)、房型(如大床/双床/套房)、参考价格(含日历价)、可订状态、评分、评论数量、入住退房日期
· 采集频率:每天一次
第二类:古城内商铺住宅租售数据
· 目标平台:58同城、安居客(聚焦“大同古城”区域)
· 采集字段:房源标题、房源类型(商铺/住宅/写字楼)、面积、户型(住宅)、价格(租金或售价)、联系方式可选
· 采集频率:每周一次
第三类:社交媒体评价舆情数据
· 目标平台:小红书、抖音(两者优先)、朋友圈
· 采集方式:通过搜索关键词关联相关笔记/视频/帖子,直接抓取公开的评论与内容,无需登录个人账号
· 关键词参考:大同古城、鼓楼附近、华严寺周边、大同民宿 等(最多10个关键词)
· 采集字段:发布时间、作者昵称、正文内容、互动数(点赞/评论/转发)、附带的图片URL(如有)
· 采集频率:每周一次
【技术实现要求】
1. 运行与部署
· 脚本必须部署在我指定的云服务器(如阿里云ECS)上,能在无人工值守下定时运行
· 使用 Linux(Ubuntu / CentOS)环境,最终交付需附详细部署手册
2. 数据存储
· 采集数据必须存入数据库,推荐 MySQL(8.0+)或 PostgreSQL
· 数据库需设计独立、清晰的表结构(需求方无数据库基础但可找人帮忙操作)
· 要求增量更新:每次运行时新增数据追加,重复数据不覆盖、不重复添加
· 提供数据导出功能(导出为 CSV/Excel,周期可选近7天/本月/全部)
3. 反爬与稳定性
· 面对目标网站的反爬机制(如IP封禁、验证码、动态加载、参数加密),需提供有效的应对策略,确保数据持续可采集
· 需有防封策略:代理IP轮换或请求延迟、随机User-Agent等
· 抓取频率必须控制在合理范围,避免对目标服务器造成压力
4. 异常处理与通知
· 遇到网站改版、字段变化等采集失败时:①自动重试(最多3次)→②若仍失败,自动使用备用采集方式(如备用CSS选择器)→③所有尝试均失效时,通过钉钉/飞书/Email 发送报警通知(包含具体错误信息和时间戳)
· 程序运行日志必须完整保存(含运行时间、采集条数、成功/失败状态等)。日志按天轮转,保留最近90天,自动清理旧日志
5. 任务调度
· 任务调度由系统内置定时模块自行管理,无需外部依赖(如crontab需写入交付文档)
· 支持手动触发(一键运行全部或指定模块)
· 支持灵活配置采集频率(可随时调整天数/频率)
6. 交付物要求
· 完整的源代码(Python),风格清晰、关键逻辑附中文注释
· 数据库设计文档(ER图或表结构说明)
· 部署手册(含环境搭建、依赖安装、配置文件修改、启动运行、日志查看等步骤,图文或步骤化)
· 使用手册(含如何手动运行、修改采集关键词/频率、导出数据)
· 提供1次完整的远程部署协助(直到系统在我服务器上稳定运行)
7. 维护与售后服务
· 交付后提供90天免费维护期,期间因网站页面改版导致采集失效,由开发者负责修复(紧急修复时效:24小时内响应)
· 90天后,若再出现网站改版失效,可按次付费修复(单次 500-1000 元,或按年收取运维费,具体可商谈)
【加分项(非必须,优先选择)】
· 有携程/小红书/抖音等复杂网站爬取经验者加分
· 交付时提供 Docker 打包,便于快速部署者加分
· 使用 Playwright / Selenium 框架者加分(因小红书/抖音内容多为动态渲染)
【如何竞标】
请开发者竞标时附上:
1. 简要介绍您过往的爬虫项目经验(尤其是与上述目标平台相关的)
2. 针对上述需求,您预估的开发周期(天)
3. 您打算采用的技术栈方案(如 requests+BeautifulSoup/Playwright/Scrapy/...)
4. 您的总报价及维护期承诺
5. (可选)您早期做过的类似爬虫项目的展示链接或截图
【补充说明】
· 本次脚本仅用于个人公开数据分析,不涉及商业牟利,需求方会严格遵守网站 robots.txt 协议及相关法律法规,爬取过程造成的法律风险由需求方承担
· 代码所有权归需求方所有,但开发者可将该项目经验放入个人作品集中