技能要求:
Python
经验要求:
5-10年经验
工作描述:
项目编号:【174769】
一、用crawl4ai 做爬虫,爬取https://www.moonstatistics.com/ 网站的亚马逊商品信息
(1)用crawl4ai docker部署成一个服务
(2)写python代码调用crawl4ai的docker服务进行页面产品信息的爬取,每页1000条数据,一共有100页,100万条数据,爬取到的数据json格式写入txt文件里面
(3)使用神龙动态代理进行网页爬取,避免ip反扒
(4)以上在craw4ai官方文档上都有对应的描述,写好代码以后只需要跑通10页的数据即可,交付后我们自己来爬
二、用crawl4ai 做爬虫,爬取淘宝和京东上的产品信息
(1)根据关键字和产品描述,例如 杯子关键字 在淘宝和京东上搜索出来很多产品
(2)用crawl4ai爬取搜索出来的产品列表,启用ai大模型能力,把符合产品描述的产品爬下来,不符合的就不爬,最后形成json格式写入txt文件里面