技能要求:
Python
经验要求:
5-10年经验
工作描述:
项目编号:【145251】
爬取巨潮网上面一些上市公司的年报数据(格式基本上为pdf),下载到本地,然后将年报里面指定文字或者表格的部分指标提取出来(比如公司研发人员情况、无形资产情况、商誉账面原值等)。
1、要求提供程序源码,使用python语言实现。
2、要求提供指定4家上市公司近10年的年报对应的pdf文件,以及提取出来相应的表格和指标,结果文件为excel。这四家上市公司股票代码分别为:002524.SZ(光正眼科)、600812.SH(华北制药)、002118.SZ(紫鑫药业)、603259.SH(药明康德),要提取的内容为公司研发人员情况、公司研发投入情况、无形资产情况、商誉账面原值、商誉减值准备。pdf和对应表格的示例参考见附件。
3、要求程序架构设计合理,可复用性和可扩展性强,爬取模块支持参数灵活配置,解析模块支持规则配置和自定义,实现快速提取pdf的表格内容,程序代码注释详细。