null

比如,在看类似上面的扫描版 PDF 时,想要复制其中的文字,怎么办?手打?太累。试试我新开发的工具 iText 吧。

null

iText 是 macOS 平台的 OCR 工具,自带截图功能,选择屏幕任意区域,即可识别其中的文字,又爽又酷。

null

识别后的文字已经复制到系统剪贴板,直接粘贴即可。

配合 ⇧⌘1 快捷键,使用体验更佳。当然,你也可以选择图片文件,或者将图片拖拽至 iText 的菜单栏图标进行识别。

文字识别精准

你有没有这种印象:OCR 识别出来的文字有很多问题,还不如自己打字来得快。可见,识别的准确性非常重要,也是我非常在意的一点。

腾讯、Google 双引擎

首先,我排除了离线的识别库,因为离线注定了这些库的识别能力是死的,不会自己增强。接下来,在一票在线 OCR 服务中,我对比了百度、腾讯、微软、Google 等大厂的产品,最后选择了国内使用腾讯、国外使用 Google 的组合。判断依据是什么?少量测试 + 主观倾向,比如不测。我就觉得 Google 比微软牛。

null

那么,到底识别准不准呢?这么说吧:

  • 对于一般的自然语言,比如书中的一段话、新闻稿,识别效果是惊人的准确,甚至可以达到 100%
  • 对于排版复杂、尤其有特殊字符的文字,比如程序代码、选择题,识别效果就不太理想,需要手动对识别后的结果进行修正
    • 比如,单纯地给一个竖线,机器是无法区分到底是小写的 l、还是大写的 I(顺便问一下,你看出二者的区别了吗?);与之相对,机器是需要根据上下文进行判断和优化的。而像程序代码这种非自然语言,机器目前是很难进行语义识别的

到底准不准?你不妨一试。

独创算法,进一步优化识别结果

OCR 服务还有一些欠缺,iText 针对性地做了这些优化:

  • 自动识别段落
  • 中文环境使用全角标点符号
  • 中文与英文字母、数字间增加空格
  • 删除中文字符间、英文字符与标点符号间的多余空格
  • 英文首字母大写

如果你发现识别不好的地方,欢迎把图发给我,我会相应地优化算法,毕竟算法是需要数据喂养的,先谢。

预览原图,方便校对

在目前 OCR 技术不能始终达到 100% 的情况下,预览原图、并进行修正,还是有必要的。在 iText 中,你可以这样:

  • 将识别后的窗口拖到图片附近
  • 调用 iText 识别结果的 双栏模式:左侧展示图片、右侧展示识别后的文字

null

这样,就可以很方便地对照原图进行手动优化识别后的文字。

下载与付费

其实,很多场景都会用到 iText,比如 识别快递单上的号码、图片中的联系人信息、需要登录才能复制的网页 等等,欢迎 下载 iText 试试。

每月可免费识别 20 次,订阅 iText 高级版即可无限次识别。首发期间,高级版限时 6 折优惠:¥3/月、¥30/年。关于收费模式,我很是纠结了一番。如果你准备吐槽,请先看下这篇文章再次纠结付费模式,这次是 iText

有任何想说的,都欢迎在这里留言讨论,5 枚高级版兑换码 等着你哦。