2023年10月23日对语雀来说不是平凡的一天,那一天语雀发生了P0级故障,在长达8小时的时间里,所有用户都无法访问自己的文档。不过好在语雀团队很快就修复了故障,并且全过程没有任何数据丢失。

那一天我正在试图写一个短综述,然后我就发现我那些写在语雀上面关于「模糊理论」和「证据理论」的笔记无法访问了。由于当时ddl已经逐渐迫近,笔记丢失属实给我造成了一个不小的麻烦。后来服务恢复之后,我找回了所有数据的同时,感叹还好10月23日并不是一个非常着急的时间点;否则到了ddl的时候我那些作业报告突然访问不了的话那麻烦就大了。

处理完故障之后,语雀仍然是一个优秀的云笔记软件。由于其既做到了支持各种各样的格式(比如数学公式、复杂列表),又十分方便分享,所以我至今也还在用语雀写一些共享文档。但是这件事之后我不由得开始注意一些问题:

  • 我们该如何保护笔记这样的数字资产永远牢牢地被掌握在自己手里、可以时刻访问到呢?
  • 如果灾难性的故障再次出现,我们怎么做才能避免不可逆损失发生?

掌握「数字主权」

每个大国都会强调掌握「数字主权」的重要性,每个人其实也一样。在劳动不断贬值的今天,我们身上最有价值的其实是塑造了我们个体的那些知识。不过如今大多数人对于保障这些东西始终为自己所掌握非常不在意。以我自己的资料为例:

  • 中学时期的日记本:有助于了解青春期塑造了自己性格的那些因素,可以大大帮助如今的自己分析自身的心理以及情绪问题;但是由于写在了纸质日记本上,毕业之后已经全部丢失;
  • 大学时期的日记本:写在了手机便笺上;由于手机偶然遭遇了毁灭性损伤,数据已经无法恢复;
  • 中学以及本科的几乎全部笔记:高中和本科知识属于大众共识,在高中知识的基础上写文章介绍新概念能轻易做到「深入浅出」,很有价值。但是一样由于是纸质笔记本,这些内容也慢慢丢失了。

意识到这些不知不觉的损失之后,我推进了各种笔记记录的数字化,来解决纸质资料容易散佚的问题。而这个过程中就不可避免地接触到了许多笔记软件,并且引出了一个问题:

  • 你在各种笔记软件中写作的内容,真正属于你自己吗?

按照普遍共识和大多数国家的法律来说,用户创作的内容是无可置疑地属于用户本人的。但是实际上,用户能够多大程度上掌控自己所有的数据却是一个问题。其中最典型的例子就是大多数笔记软件的笔记导出功能不如人意。

大多数商业化的笔记软件都希望增加用户粘度,尽可能让用户留在自己的平台,因此即使主观上并没有通过阻止用户迁移笔记来提高留存率的企图,它们也必然没有动力花费大量成本优化笔记导出这样的功能,这就导致了各种笔记软件普遍上存在「导入容易,导出难」的情况。有用户给这种特点的笔记软件取了个名字叫「电子貔貅」,很形象地展现了当前现状。

「电子貔貅」本身不是问题,问题在于笔记软件的经营状况无法预测。对于云笔记用户来说,没有人知道下一次大故障会不会发生在自己很需要这些资料的某个关键节点;也没有人知道如果数十年后还需要这些笔记,那么自己用的软件能不能经营到那个时候。而不巧的是,知识库以及知识管理就是一个长线投资,需要按年计数的积累之后才会产生效益。而知识复利的前提,是你的知识库不会突然归零。没有人能忍受自己数年心血面临一朝毁于一旦的风险,因此掌握完整的「数字主权」,避免自己的内容被软件垄断,是知识管理的必选项。而掌握完整的「数字主权」,就意味着:

  • 数据不被软件产品绑定:不能出现「离开了某个软件的服务,数据就无法使用」的情况;
  • 数据不被硬件绑定:不能由于硬盘等设备损毁就导致数据永远丢失;
  • 用户使用数据的方式不受限制。

在文章接下来的部分,我会从笔记数据安全与利用两个方面讲述我在掌握自身数字主权方面的探索以及经验。如果你有相关的见解或者经历,欢迎在评论区探讨。

笔记数据安全:开源格式+多端备份

保证笔记数据安全,首先需要保证笔记数据存在。设想一个最坏的情况:一个笔记软件会将你的笔记以独特加密格式保存且不支持导出,那么用户不仅会丧失和笔记软件公司议价的筹码,还会承担软件公司破产、故障导致笔记数据完全丢失的风险。我们要做的就是反其道而行之:

  • 加密格式👉开源格式;
  • 不支持导出👉可以完美导出为受广泛支持的格式。

大多数开源格式本就属于受广泛支持的格式,比如docx、pdf都是这样的格式。考察完这两点之后,我们接着考察「生存率」,既笔记在若干年后仍然可以正常使用的概率。作为个人而言,我无法预测30年后还有哪些笔记产品在持续运营,也不知道那时候还有哪些数据格式常用。但是我们有一个众所周知的普遍公理:

一个在50年前就存在,而且现在存在的事物,大概率50年后也存在。

从现在开始,把时间往前推50年,那时候是1975年。当时的计算机几乎唯一能处理的格式就是纯文本。反过来,我们可以大胆地假设50年后的2075年,纯文本大概率也仍然是广受支持的格式。因此同样是开源格式,以markdown、asciidoc为代表的资料的生存率就要高于PDF资料;PDF资料的生存率会高于和软件绑定的私有格式资料。这可能也就是为什么arXiv不仅要求作者提供PDF论文文件,还要求LaTeX源码的理由之一。

我个人则选择拥抱了markdown纯文本笔记作为我知识库的基本载体,理由之一便是markdown可以在无需渲染的情况下直接作为纯文本阅读,并且是受广泛支持的文件格式。这样的话我的笔记可以在保持高生存率的同时最小化笔记对软件产品的依赖,保持其作为数字资产的独立性。

使用开源格式书写笔记可以帮助你摆脱软件产品的限制,但是比软件限制更加致命的是硬件损坏这类小概率突发事件导致的损失。如今主流使用的SSD固态硬盘虽然存取速度快,但是其损坏后数据极难恢复。如果你费心写了几年的笔记都存储在一块固态硬盘上,结果却意外损坏了固态硬盘导致所有付出毁于一旦,这会比被软件限制导出更加令人难以接受。因此我建议每个人都务必好好考虑一下数据备份的问题,千万不要因为省小工夫而承担大风险。

我在这方面犯过的最大错误是因为手机损坏而失去了我的密码本,导致我大量互联网账号无法登录。我当时至少花了一整天时间不断收发验证码来找回密码。即使如此,有很多账号还是遗漏了,我还是会在很多着急的时候发现找不到登录用密码,被迫按着性子现场找回密码。

云笔记用户有云笔记公司为他们考虑备份方案,代价是要接受云笔记软件对笔记的限制;本地笔记用户则需要自己考虑备份问题。我比较建议使用多端同步实现备份,即在每台设备上都维护一个副本,然后在彼此之间同步所有的修改。这不仅解决了备份问题,还一石二鸟地完成了同步配置。

我的做法是使用Git将笔记数据在电脑、手机以及Git服务器之间三端同步的同时实现备份。每一台设备发生损坏导致数据丢失都是小概率事件,三端同步则意味着数据丢失的概率降低到了小概率的三次方水平。在工程学上,导致工程出现问题的小概率事件是必须防范的;但是需要两个小概率事件同时发生才会出现的问题则不会浪费资源去防范。因此,内外各有一台设备存储一个笔记副本即可认为安全,其他更多的措施(比如本地备份)就可以不必做了。

笔记数据利用:纯文本的创新优势

「数据主权」除了要确保用户的数据始终无法被剥夺之外,还需要确保用户可以按自己的想法不受限制地使用数据。这是经常被忽视的一个点,让许多人不知不觉就被软件功能限制了使用方式。

当前笔记流行的趋势是块编辑,既将文本分为若干块进行编辑。为了实现这一功能,许多笔记软件放弃了长期坚持的开源纯文本格式而转而使用私有数据格式。我个人而言并不喜欢这样的改进,因为这样会限制我们操作笔记,导致笔记的可玩性大大减小,不利于我们尝试新技术以及在知识复利方面的探索。

由于处理能力有限,过去所谓「知识复利」其实包含的内容并不多;但是在2022年大语言模型横空出世之后这一缺点迎来了改善。借助RAG系统(增强检索生成),大语言模型可以对知识库进行总结,充当你的「秘书」,通过检索笔记库的知识为你解决问题。这不仅极大的解决了过去旧笔记吃灰的问题,提高了笔记利用率;而且笔记越多其效果越好,前所未有地发挥出来了「知识复利」的力量。当前而言,比较火热的RAG笔记库系统是Google NotebookLM、腾讯ima;如果你喜欢自己部署开源模型,那么网易QAnything也是一个很好的选择。这些RAG系统的使用方法已经有许多文章介绍过了,在此不再赘述。下图是上传了我的软件工程笔记后使用QAnything实现知识问答的效果:

AI的进化毫无疑问会带来生产力上的革新,而个人笔记数据毫无疑问是能够大大增强问答效果以及保证个性化的高质量数据。然而,所有这些新兴知识库问答应用都只支持解析公开格式。这意味着如果你使用一些不开放格式的笔记软件,你将无法尝试上述这些新鲜东西。使用受限制毫无疑问是「数字主权」受损的标志。而随着技术爆发,在可见的未来内,不掌握数字主权的用户仍然会继续丧失越来越多吃螃蟹的机会。

在所有开源格式中,纯文本仍然是最适合AI解析、检索的格式。大多数RAG知识库问答系统都支持使用OCR解析将图像、PDF、表格等文件转为纯文本。但是这些数据和原生纯文本相比毫无疑问是要有一定损失的。因此在所有开源格式中,我仍然首推markdown、asciidoc、orgmode等纯文本格式,这样可以保证我们会是最先享受新技术带来进步的那批用户。

如果你和我一样,有一定的技术背景以及条件,也可以自己尝试从笔记数据中挖掘价值。比如尝试处理自己的笔记数据,构建一个监督微调数据集,训练专属于自己的大模型AI: 

处理过后的数据: 

通过知识库训练专属AI仍然属于一个在探索的项目,还需要时间去推进完成,故在此不过多着墨。如果你对这个项目感兴趣可以关注我的账号持续获取进展。

结语

数字时代已经开启,数据开始成为重要的生产要素;AI技术的爆发更是把用户的个人知识库变成了一笔可观的数字资产。在这种情况下,保证自己的数据被自己掌控,维护自己的数字主权就成了一件必须重视的事情。

维护自己的数字主权不仅要保证自己的数据不被平台垄断,还要保证自己对私有数据对使用不受限制。为满足这两个要求,我首推知识库使用开源纯文本格式+本地多端同步存储的方式。这样不仅可以保证数据安全,还能让我们在AI时代率先体验新技术带来的进步。

我是@西郊次生林,一个致力于通过更好的管理实现个人进步的SE研究生。希望我的分享能对你有所帮助。