技能要求:
Python
经验要求:
5-10年经验
工作描述:
项目编号:【167134】
程序要求:
1. 保持PDF文件中文字阅读的次序,段落连续;当一个段落被分到两页时,将他们合并到一个段落后输出;
2. 保持各级标题的样式(同级的内容用同一个class包裹);若原始的PDF是分栏的样式,输出的HTML不要分栏,只要保持段落分割即可;
3. 输出PDF文件中的表格和图(包含表头,图示等),若属于图片,则将图片输出到images文件夹,然后在HTML中插入这个图片;
4. 提取完整的参考文献,给每个参考文献设定一个锚;识别PDF正文中的参考文献标记,加上这篇参考文献对应的锚(点击调转到对应的参考文献)
交付形式:
- Python脚本及安装配置方法
典型PDF样本
https://hd-probot.oss-cn-hangzhou.aliyuncs.com/xanda/cfecdb7692674dc3c6b0a8df55f3a71d.pdf
https://hd-probot.oss-cn-hangzhou.aliyuncs.com/xanda/fc36e092329e08768e6ee8376cd3e8dc.pdf
https://pdf.hres.ca/dpd_pm/00043879.PDF
https://pdf.hres.ca/dpd_pm/00065186.PDF
https://pdf.hres.ca/dpd_pm/00077491.PDF
https://hd-probot.oss-cn-hangzhou.aliyuncs.com/xanda/669a0a5385512f5bff372d79ecfaa867.pdf
https://hd-probot.oss-cn-hangzhou.aliyuncs.com/xanda/e1a27e5e05e597db0e98487e6d75c519.pdf
https://xanda.oss-cn-shenzhen.aliyuncs.com/xanda/a15beb426c25bc865d5aee8169c64109.pdf