Python-远程-1个月
¥6-12K/月
技能要求:
经验要求: 5-10年经验
程序员客栈
2025-10-11 14:18
工作描述:
项目编号:【179758】
工作职责
1. 数据采集:
• 编写爬虫脚本,爬取以下平台的数据:
• G2、Capterra、TrustRadius
• App Store、Google Play
• 主要采集内容包括:
• 产品名称与描述
• 用户评论与评分

2. 数据处理与结构化:
• 对采集到的文本进行清洗、切块(chunking)与格式化;
• 对文本片段进行语义打标(如情感、主题、实体类别等),为后续嵌入生成做准备;
• 将结果整理为可直接导入 Milvus 向量数据库 的格式。
3. 数据质量保障:
• 定义并执行基本的数据校验规则(去重、空值、异常字符过滤);
• 输出简单的统计或日志报告(采集量、成功率、异常比例等)。

? 任职要求
• 熟悉 Python 爬虫框架(如 Scrapy、Requests、BeautifulSoup、Playwright 等);
• 具备 反爬机制应对能力(代理池、Headers、Cookie维护等);
• 熟悉基础的 NLP 文本处理(分句、分词、embedding 概念等);
• 有 JSON/CSV 数据清洗 经验,能编写结构化脚本输出;
• 有使用向量数据库(如 Milvus、Pinecone、FAISS 等)经验者优先;
• 每周可投入 10-20 小时,具备良好的沟通与交付意识。
公司信息

立即沟通