10-15-2021, 01:49 AM
本人近日完成了《自由软件,自由社会》第三版的修复工作并上传至自己的版本库(不是beijinglug的版本库),正在处理该书第二版中并未包含于第三版中的部分文章。
同样是在近日,本人在海外网友协助下从Wayback Machine得到了Free Software, Free Society第二版以及Free as in Freedom 2.0版的源文件,分别为Texinfo和LaTeX格式。
Debian中有将这些格式转换为HTML的工具,texi2html和latex2html。不过得到的HTML文件仍然不是非常适合于翻译整理。
搜索HTML转换为markdown相关内容,找到了若干种名为html2md的工具。pypi上有名为html2md的脚本,不过已经很久没有更新并且经本人尝试效果很不理想。
然后本人从github上找了一个最新的名为html2md的版本库,clone下来之后根据readme自行编译,用它生成了一组比较易于翻译工作的md文件。
这样的好处是无需处理PDF(我在翻译文献时最不愿意碰的自由/开放格式)。之前处理“LibreOffice Writer自出版”一书时没有找到可编辑的ODT,同时对于从PDF中提取文本的各种方法都不满意,这迫使我改变思路。
最后说一句,对于更早时候完成的“利用LibreOffice设计”一书,我也想将其HTML化(由于PDF或ODT均属面向打印的格式,灵活性远逊于HTML),不过不是在最近。
同样是在近日,本人在海外网友协助下从Wayback Machine得到了Free Software, Free Society第二版以及Free as in Freedom 2.0版的源文件,分别为Texinfo和LaTeX格式。
Debian中有将这些格式转换为HTML的工具,texi2html和latex2html。不过得到的HTML文件仍然不是非常适合于翻译整理。
搜索HTML转换为markdown相关内容,找到了若干种名为html2md的工具。pypi上有名为html2md的脚本,不过已经很久没有更新并且经本人尝试效果很不理想。
然后本人从github上找了一个最新的名为html2md的版本库,clone下来之后根据readme自行编译,用它生成了一组比较易于翻译工作的md文件。
这样的好处是无需处理PDF(我在翻译文献时最不愿意碰的自由/开放格式)。之前处理“LibreOffice Writer自出版”一书时没有找到可编辑的ODT,同时对于从PDF中提取文本的各种方法都不满意,这迫使我改变思路。
最后说一句,对于更早时候完成的“利用LibreOffice设计”一书,我也想将其HTML化(由于PDF或ODT均属面向打印的格式,灵活性远逊于HTML),不过不是在最近。