技能要求:
Python
经验要求:
5-10年经验
工作描述:
项目编号:【145155】
目前已有数据为约35万篇外文文献的doi列表,可通过此加上网址前缀进入出版社中该篇文献的主页。
部分文献在网页底部具有附录文件(PDF,word或excel格式)下载的选项,需要使用爬虫对35万篇文献中主页链接内的附录文件下载,若没有则跳过给出NA标记即可。
35篇文献来自超过10-20个的不同出版社,故爬虫规则具有差异,需要分别进行优化。
同时,几乎所有网站都具有加密,需要破解实现批量下载。
预算可谈