Python-远程-1个月
¥6-12K/月
技能要求: Python
经验要求: 5-10年经验
程序员客栈
2024-11-06 14:05
工作描述:
项目编号:【167134】
程序要求:
1. 保持PDF文件中文字阅读的次序,段落连续;当一个段落被分到两页时,将他们合并到一个段落后输出;
2. 保持各级标题的样式(同级的内容用同一个class包裹);若原始的PDF是分栏的样式,输出的HTML不要分栏,只要保持段落分割即可;
3. 输出PDF文件中的表格和图(包含表头,图示等),若属于图片,则将图片输出到images文件夹,然后在HTML中插入这个图片;
4. 提取完整的参考文献,给每个参考文献设定一个锚;识别PDF正文中的参考文献标记,加上这篇参考文献对应的锚(点击调转到对应的参考文献)

交付形式:
- Python脚本及安装配置方法

典型PDF样本
https://hd-probot.oss-cn-hangzhou.aliyuncs.com/xanda/cfecdb7692674dc3c6b0a8df55f3a71d.pdf
https://hd-probot.oss-cn-hangzhou.aliyuncs.com/xanda/fc36e092329e08768e6ee8376cd3e8dc.pdf
https://pdf.hres.ca/dpd_pm/00043879.PDF
https://pdf.hres.ca/dpd_pm/00065186.PDF
https://pdf.hres.ca/dpd_pm/00077491.PDF
https://hd-probot.oss-cn-hangzhou.aliyuncs.com/xanda/669a0a5385512f5bff372d79ecfaa867.pdf
https://hd-probot.oss-cn-hangzhou.aliyuncs.com/xanda/e1a27e5e05e597db0e98487e6d75c519.pdf
https://xanda.oss-cn-shenzhen.aliyuncs.com/xanda/a15beb426c25bc865d5aee8169c64109.pdf
公司信息

立即沟通