最近正逢各种职业资格考试,有读者熬夜备考,从 PDF 文献里拷贝出大段文字,没成想格式错乱,通篇都是重复的空行、多余的空格以及中英混用的标点。这位仁兄也是坚毅过人,连续几个晚上没睡,手动把所有格式错误修正了过来。事后他才知道,原来用自动化工具可以一键清理错误的文字格式

为当事人惋惜的同时,我也反思了自己的工作流,其中同样有过这些繁琐操作:

  • 手动在中英文之间插入空格
  • 手动帮挤成一团的文字换行
  • 手动把普通引号 " 换成直角引号
  • ……
从 PDF 复制出来的文本往往格式错乱

这些事情,其实都可以、也应该通过自动化工具瞬间完成。具体来说,我们主要有这些清理文字格式需求:

  • 添加符号:如 Markdown 符号
  • 添加空格:在中英文之间加入空格
  • 文本替换:有普通文本替换和正则文本替换
  • 文本去重:去掉多余的文字或者空格、空行
  • ……

这篇文章我主要以 TextExpander 为例,它同时支持 macOS、iOS 和 Windows 等多个平台,而且其所用的 JavaScript 脚本通用性强,可以轻松移植到其他自动化工具中。

文中每个案例中都会提供现成的自动化动作下载,绝大部分动作稍作修改后可用于任何支持 JavaScript 的文字处理工具(参考《iOS 文本处理中的 JavaScript》)。