WeHack BBS
利用poppler-utils或LibreOffice处理PDF的问题 - 可打印的版本

+- WeHack BBS (https://bbs.wehack.space)
+-- 版块: 计算机技术 (https://bbs.wehack.space/forum-5.html)
+--- 版块: GNU/Linux 讨论区 (https://bbs.wehack.space/forum-6.html)
+--- 主题: 利用poppler-utils或LibreOffice处理PDF的问题 (/thread-297.html)



利用poppler-utils或LibreOffice处理PDF的问题 - nadebula - 09-14-2021

如果poppler-utils(pdfimages)不能正确处理某些格式的图片(比如TIFF),用LibreOffice Draw打开PDF然后导出图片(在相应页面中选中图片)的方式相对可靠一些,常见的图片格式一般都能正确显示。在“打开”对话框中的“文件类型”下拉列表中以PDF - Portable Document Format (Writer)方式打开比较复杂的PDF可能会造成Writer崩溃。
本人发现用pdfimages -all方式处理PDF时,JPEG和PNG一般都能正确提取,TIFF不能正确提取的几率较大。因此本人一般会用Draw导出之前未能正确提取的TIFF图片。
关于PDF的一些探讨参见Bruce Byfield的Designing ebooks一书:https://github.com/nadebula/designing_ebooks


RE: 利用poppler-utils或LibreOffice处理PDF的问题 - nadebula - 11-10-2021

我目前采用的大致处理流程:
1,使用poppler-utils的pdfimages提取一遍
2,如不能正确提取,用LibreOffice Draw导入PDF,选定范围并且导出,注意选中仅导出选定内容的复选框。
3,如果由于缺少字体(主要是私有字体,或者特殊符号字体),Draw不能正确显示图片,则将PDF导入到GIMP进行处理。
导出图片(栅格图)时,首选JPG,由于TIF或者PNG有时会遇到透明色的问题,尤其对于从幻灯片生成的PDF。
最后,如果在使用Draw打开时缺少私有字体,但是存在与之格律兼容的自由字体,使得排版不会变形,则利用Draw导出。总之,PDF仍是我最不愿意碰的自由格式。