WeHack BBS
处理若干电子书的LaTeX/Texinfo源文件以便于翻译整理 - 可打印的版本

+- WeHack BBS (https://bbs.wehack.space)
+-- 版块: 计算机技术 (https://bbs.wehack.space/forum-5.html)
+--- 版块: GNU/Linux 讨论区 (https://bbs.wehack.space/forum-6.html)
+--- 主题: 处理若干电子书的LaTeX/Texinfo源文件以便于翻译整理 (/thread-312.html)



处理若干电子书的LaTeX/Texinfo源文件以便于翻译整理 - nadebula - 10-15-2021

本人近日完成了《自由软件,自由社会》第三版的修复工作并上传至自己的版本库(不是beijinglug的版本库),正在处理该书第二版中并未包含于第三版中的部分文章。
同样是在近日,本人在海外网友协助下从Wayback Machine得到了Free Software, Free Society第二版以及Free as in Freedom 2.0版的源文件,分别为Texinfo和LaTeX格式。
Debian中有将这些格式转换为HTML的工具,texi2html和latex2html。不过得到的HTML文件仍然不是非常适合于翻译整理。
搜索HTML转换为markdown相关内容,找到了若干种名为html2md的工具。pypi上有名为html2md的脚本,不过已经很久没有更新并且经本人尝试效果很不理想。
然后本人从github上找了一个最新的名为html2md的版本库,clone下来之后根据readme自行编译,用它生成了一组比较易于翻译工作的md文件。
这样的好处是无需处理PDF(我在翻译文献时最不愿意碰的自由/开放格式)。之前处理“LibreOffice Writer自出版”一书时没有找到可编辑的ODT,同时对于从PDF中提取文本的各种方法都不满意,这迫使我改变思路。
最后说一句,对于更早时候完成的“利用LibreOffice设计”一书,我也想将其HTML化(由于PDF或ODT均属面向打印的格式,灵活性远逊于HTML),不过不是在最近。


RE: 处理若干电子书的LaTeX/Texinfo源文件以便于翻译整理 - vimacs - 10-15-2021

pandoc应该可以直接转texinfo为各种类markdown.
另外可以参考一下GCC社区把文档迁移到Sphinx的提议,我暂时还不清楚他们是怎么做的。 https://gcc.gnu.org/pipermail/gcc/2021-August/237078.html


RE: 处理若干电子书的LaTeX/Texinfo源文件以便于翻译整理 - nadebula - 10-15-2021

pandoc的功能有待深入挖掘。关于HTML,文档基金会也在积极将其文档HTML化,使其不只适合于页面排版(打印)。
利用层叠样式表,也能把HTML做得很精美,并且保留自动适配屏面大小的优势(为台式机、笔记本、手机等具有不同DPI的介质设置不同的CSS)。


RE: 处理若干电子书的LaTeX/Texinfo源文件以便于翻译整理 - nadebula - 10-31-2021

补充:如果LibreOffice Draw也不能正确处理PDF中的图形,或者不需要导出为矢量图,也可直接用GIMP导入PDF相关页面并导出为栅格图。


RE: 处理若干电子书的LaTeX/Texinfo源文件以便于翻译整理 - vimacs - 11-01-2021

(10-31-2021, 09:51 PM)nadebula 提到: 补充:如果LibreOffice Draw也不能正确处理PDF中的图形,或者不需要导出为矢量图,也可直接用GIMP导入PDF相关页面并导出为栅格图。

我以前写毕业论文的时候就是这样提取图片做插图的。


RE: 处理若干电子书的LaTeX/Texinfo源文件以便于翻译整理 - nadebula - 11-01-2021

(11-01-2021, 08:06 AM)vimacs 提到:
(10-31-2021, 09:51 PM)nadebula 提到: 补充:如果LibreOffice Draw也不能正确处理PDF中的图形,或者不需要导出为矢量图,也可直接用GIMP导入PDF相关页面并导出为栅格图。

我以前写毕业论文的时候就是这样提取图片做插图的。

我近期处理一份带有复杂格式、字体和符号的PDF,发现以LibreOffice Draw作为可编辑的矢量图打开的时候会由于缺少必要的符号字体而不能正常显示。由于我并不想在自己的系统上安装除此场景以外完全用不到的字体,于是退而求其次,按照栅格图处理(并不需要无限可缩放)。