本文中提到的部分为付费软件,请悉知。

网龄比较长的朋友们会有一种经历,就是把整个网页离线保存到电脑里,防止「互联网的记忆」随着网站关闭、内容过期或其他原因「gone with the wind」。当年的互联网还没有现在这么多便捷的云端笔记应用或者知识管理平台,所以喜欢的内容我一般就习惯下载保存到本地。

而时至今日,一方面,互联网的分享难度大大降低,另一方面,有道云笔记、Evernote、OneNote、为知笔记等笔记应用次第兴起,也带来了丰富的方式来保存你所感兴趣的内容,当然也不得不提后起之秀 Notion 和主打本地知识管理的 DEVONthink。

所以为了统一管理以前的文件、简化阅读和查找的难度,我准备将以前的网页文件保存到相应的知识管理软件当中,所以这篇笔记就记录了我是如何将几百个离线网页收藏进 DEVONthink 中的。

目的效果

我希望的整理之后:

  1. 能够批量进行,毕竟几百个网页;
  2. 能够保留原网页的内容和格式;
  3. 能够进行内容的检索;
  4. 内容合并为一个文件,不要产生冗余的信息;

直接导入 HTML 文件

我首先想到的当然就是直接把每个网页的 HTML 文件直接拖进 DEVONthink 当中,可是实际的效果却无法令人满意。

HTML 网页直接拖入 DEVONthink 的效果

上图是我拿我派的一篇文章作为示例,可见网页附带文件夹中的图片、脚本和样式全部没有加载,所以最简单的方法宣告失败。

当然,我可以把 HTML 文件连同附带的文件夹一起拖到资料库里,就能正常加载。不过这样操作,就会导致数据库里有会有大量的碎片文件,比如网页贴图、各种小图标等等,对于将来搜索会有负面影响,所以就直接排除了。

然后我就想到了在浏览器里打开网页文件,通过 DEVONthink 的插件进行收藏,结果很完美!可是……我有好几百个网页要弄,这种方式太耗时,不可取。

转化为 PDF 文件

于是我想到了将所有的网页文件先批量转化成 PDF,之后导入就能满足预设的三个目标了,甚至等我入手了新的 iPad 还能用 Apple Pencil 进行标注,所以开始了下面的尝试。

使用 Adobe Acrobat

这个软件自带的「创建 PDF」是可以直接将所以文件带格式正确转化为一个 PDF 文件的,我的个人观察是它会模拟浏览器打开网页文件,渲染后转换成 PDF 文件,所以转换效果和它自带的浏览器渲染效果相关。当然这是我个人的看法,不一定准确。

Adobe Acrobat 界面

另一项「合并文件」功能可以批量将文件转化为 PDF,且可以自动合并多个转化后的文件,很适合系列文章的转换,可以满足需求。

使用 Prince XML 批量转换为 PDF

在搜索解决方法的时候,看到 Prince XML 这个软件也可同样可以批量转换网页文件为 PDF 格式,是 Windows 系统下的软件。

所以我就使用虚拟机内 Windows 10 安装 Prince XML 尝试了一下,因为是专用软件,所以转换速度更快,而且排版比 Adobe Acrobat 更好。不过请注意,免费版会加水印。

Prince XML 界面

可以看到这个软件还可以自定义样式和脚本。对于离线保存的网页,一般都自带 CSS 文件,所以省缺也不影响最终的效果,可以同样实现需要的结果。

转化为其他格式

当然其实到了上面我们已经得到了自己想要的结果,不过在寻找思路的时候,我也同样找到了下面的两种方法,也可以从其他格式满足我们的要求。记录如下:

使用 Sigil 将网页批量合并为 epub 电子书文件

Sigil 是一个 Windows、Linux 和 macOS 全平台的开源软件1,尝试了一下,可以将网页正常转换为 epub 文件,如果是很长的文字类网页应该非常适合。

而且 Sigil 支持将多个网页合并转换,所以对于批量下载的小说里网页,转换后放到阅读器中应该很棒。不过,因为格式的限制,不太适合用来标注或者多平台分享,所以有兴趣可以下载了试试,文末有链接。

改变思路,使用 HTML to MHT 软件

之前其实有说主要目的是为了把文件合成一个,今天我在保存网页的时候才发现,原来 Chrome 现在有 MHTML2 这种保存格式,会把所有的网页内容保存为一个文件。然后就搜索了一下,果然有 HTML 和 MHTML 批量互转的软件,而且大多是开源免费的软件。

正在我庆幸的时候,我发现 DEVONthink 是不能正确识别 MHTML 文件的,只能导入 Safari 保存的 webarchive 单文件格式网页,而网上只能找到 webarchive 批量转换为 HTML 的方法或软件,并没有反向的方法,故此路只通了一半。

如果各位有 HTML 批量转换为 webarchive 的方法,请不吝赐教。

结论

对于一个上世纪九十年代初出生的「初老人群」来说,我的移动硬盘里的文件时间跨度大到很多格式都开始掩埋在互联网更新迭代里,不过还是有一些至今仍有价值的内容,偶尔翻出来晒晒也是不错的。(写这一段笔者甚至想用繁体字。)

其实之前有读到一篇文章,其作者的观点大致为:笔记类或知识管理类软件一直会推陈出新,有了新的更符合自己需求的工具,不一定需要将以前的资料一股脑全部转移过去,只要以前的资料也能方便搜索和管理,那么新的资料分开管理是最节省精力的方式。

意思可能有不同,主旨差不多,我也深以为然。不过 HTML 确实不能算作方便管理和搜索的格式,于是还是有了这篇文章。

经过一连串的摸索,最终成功的完成了自己的预定目标,而且也感受到了平台之间的细微差异,也希望这个记录能成为后来人过河路上的一块石头。