本文总字数约9000字,结构如下,你可以根据需求跳转阅读:

  • 🌟 前言
  • 🔍 传统OCR工具大盘点:介绍了一下现有的较为成熟的传统OCR工具。
  • 📊 AI多模态能力大评测:「主观」评测了现有AI大模型的多模态能力,里面有些干货。
  • 📀 我的DIY-「万能识别」Quicker动作:分享给你我自己写的「AI大模型加持下的万能识别工具」
  • 🔗 结语

叠个甲先:❗❗❗本文无任何利益相关,均从个人工作场景需求出发,从个人体验的视角给予评价!仅供参考!


前言

作为一个外行,AI(下文AI特指大语言模型)的革命性的确让我震惊。看到国内外大模型竞相涌现、持续激烈竞争,但互动形式却始终围绕着「对话」窗口这种形式,除了少数文字工作者,大部分人们对于AI总是用之即弃。这也让我思考,除了文字,AI还能做些什么?

作为一个数字劳动者、文字工作者,我每天打交道最多的信息形式,就是文字了。从输入的视角看,如果按照每分钟能够接收的信息量来评判信息密度,文本的信息密度无疑是最高的,还可以通过细读、泛读、略读等方式实现自我调整,输入效率整体最高。从输出的视角看,如果按照修改原信息的难易程度来评判信息处理效率,文字的信息处理效率无疑也是最高的,而想要处理一个音频或图片中的信息,则需要经过专业软件,还需要专业能力的支持,这对普通用户来说显然并非易事。因此,大部分普通用户往往选择最普通的方式——人工转换,就是把音频边听边记或手动把图片中的文字打出来,我那个年过五旬的老师就是这样干的(😂)。

数据形态定义应用场景示例信息密度信息处理效率
文本以字符编码表示的信息,包括文字、符号、数字等。新闻文章、书籍、代码、电子邮件、社交媒体帖子高(200-500不等)较较高
音频以波形数据表示的声音信息。音乐、语音、音效、播客低低(100-300字)
图像以像素点阵或矢量图形表示的视觉信息。照片、插图、图表、扫描文档一般情况下较低
视频结合图像和音频的动态视觉和听觉信息。电影、电视节目、在线课程、视频会议一般情况下较低

回顾上文案例:输入一张图片,判断人流量大小,输出决策信息——AI就是这样提高了生产效率。而背后的核心能力,就是通过将图片信息精确转化为文本信息,即多模态能力。我隐隐感觉,多模态能力仿佛才是AI的大招,但现在好像被大多数普通用户忽视了。

在我近期的工作中,有大量需要从纯图片PDF中识别文字的工作,当我无数次点击鼠标敲击键盘,使用传统OCR工具进行这项枯燥无味的工作时,一个想法冒了出来:为啥不试试AI大模型呢?在这一需求的驱动下,这篇文章就此诞生。

传统OCR工具大盘点

近年来,从我个人的体验和感受出发, OCR好像凭借“火箭般”的速度迅速普及,几乎成了我们生活中“随处可用”的存在。无论是扫描文件、识别快递单号、识别车牌,还是在日常翻译、识别票据中,OCR工具的存在为我们提供了极大的便利。深度学习技术的出现和发展可能发挥了功不可没的作用。以下是我常用的一些OCR工具:

问题在于:尽管现有的OCR工具几乎满足了我学习和工作中的大部分需求,但其中仍然存在一个“致命缺陷”——格式和排版。大多数传统OCR程序在识别文本时会忽略掉换行、空格、序号、表格结构、缩进、加粗、下划线等关键信息,导致输出结果往往是纯文本或仅含少量排版信息。这种情况不仅降低了信息密度,还增加了后续处理的工作量。这一需求的存在导致了本文的诞生。

AI 多模态能力大评测

评测之前:传统与AI之争

毫无疑问,传统OCR和AI多模态各有优劣,AI大模型的发展解决了许多未曾解决的问题,但并不意味着能解决好以往已经解决的问题,AI大模型并不完美(或许到AGI的时刻会变得接近完美吧)。因此,面对这两种截然不同、各有优劣的技术,作为一个工具使用者、一个用户,理性选择一定是:谁好用谁,效能第一。传统OCR能高效解决的场景,就不用AI多模态;反之亦然。最后,在AI的帮助下,我想从用户使用体验的视角出发,来看看传统OCR和AI多模态到底谁更强(更能实现效率提升)。

 传统OCRAI多模态大模型谁赢谁输
原理基于预定义的字符模板和图像处理算法基于深度学习模型,从多个模态数据中提取特征并融合/
使用便利性普遍易用,操作简单,已有大量效率工具操作较为复杂,大都需要网页对话传统
识别精度较好依照模型能力,一般较好AI
复杂识别对复杂场景识别效果较差对复杂场景识别效果好AI
识别范围仅限于识别图像中的文字可以识别图像中的文字,并理解图像内容,进行多模态信息检索AI
功能扩展性功能相对固定,扩展性有限可扩展性强,可结合其他功能,例如图像生成、语音识别等AI
速度速度快依赖模型生成速度,一般较慢传统
费用基础功能大都免费,复杂功能收费暂时免费平局
输出长度依照图片内容而定依赖于模型输出长度,可能不完整传统
稳定性每次输出内容基本一致依赖于模型能力和模型参数传统
用户体验简单易用,满足基础需求功能强大,但操作可能更复杂传统

(❗❗❗以上内容纯主观,欢迎补充讨论~)

好吧,这样看的话打了个4比4,算是平局了,看样子AI对于我们用户来说也没那么强。可以看到,AI多模态模型的关键词是:复杂,但慢且不方便,现在的 AI 多模态模型就像个爱思考、爱琢磨的小助手,对待图片总是要仔细端详,然后娓娓道来,效率嘛……确实有点慢。而传统OCR的关键词是:快、方便,但只能做简单题,就像是一个不管三七二十一按固定公式走的机器人。因此,下文的评测数据也将围绕着「复杂」展开,请看。

评测说明

评测内容

为了评测现有AI大模型的多模态能力,我在ChatGPT老师的协助下编写了一个「OCR识别助手」的Prompt,作为所有参赛选手的初始任务要求。请注意,本次评测的重点并不在于多模态模型对图像内容的理解能力,例如物体识别的精度或场景识别的准确度等视觉识别指标。相反,我们更关注的是模型在OCR方面的表现,包括对文本内容的准确识别、文本排版结构的重构,以及各种格式特征(如字体、字号、分段等)的识别和呈现能力,我想这也是大多数文字工作者会遇到的场景和需求。Prompt如下:

请充当万能识别OCR助手,将图片中的所有文字、排版、图片内容信息完整输出,严格使用Markdown格式,100%忠实于图片内容与结构,无任何内容缺失或更改。保留所有文字、标点、空格、标题、分段、列表、引用、字体样式(如加粗、斜体、下划线)、字体大小等。数学公式使用LaTeX语法,代码按Markdown代码块格式输出,表格使用Markdown表格格式并完整呈现所有列与行。严格还原所有缩进、对齐、图标、分割线等布局。如果图片无文字信息,则简洁输出这个图片中的内容、场景、细节等信息。请严格遵循:输出的第一个字符即为图片内容,不得添加任何说明、解释、前缀、后缀内容。绝对禁止省略任何字符、符号或内容,忠实呈现原始内容和结构,不得生成主观信息,禁止生成解释或扩展性描述。不得省略任何内容,不得使用省略号代替内容。

评测指标与数据

还是在ChatGPT老师的帮助下,我将使用以下三个指标作为量分标准,分别是:

  • 识别准确性:文本内容的识别精度,重点关注不同语言、字符样式(如手写体、加粗、斜体、下划线等)下的准确率。
  • 格式排版对应性:模型在重构图像排版(如段落、表格、标题、图例等)时的还原程度。
  • 识别速度:模型在不同图像输入中的响应速度,评估其在大规模处理时的适应性。
  • 使用便利性:从用户体验角度评估模型的使用难易度和麻烦度。

考题类型分为以下5类:

  1. 复杂文字识别:提供包含多段复杂文字段落的文档图像,带有标题、正文和注释等多种文本层次以及表格等结构,包含特殊字符、符号以及不同字体的文本图像,如引号、破折号和斜体,以测试模型在识别不同内容结构和在多样化文本排版时的准确性。
  2. 复杂表格识别:提供带有多行多列、合并单元格以及不同数据类型(如日期、数字)、包含多级标题和注释信息的复杂表格图像,测试模型对表格结构和内容的准确识别和对表头和内容单元的正确解析。
  3. 图文混合识别:提供含有嵌入文字的图片,如海报或名片,测试模型对图中文字的提取能力。
  4. 混合信息识别(多国文字、数学符号公式、图片、手写):提供包含多种语言、带有数学符号、手写标注和插图的图像(如中英日三种文字),评估模型在多语言文本识别、复杂信息场景中的表现。

❗❗❗请注意:评测纯主观,仅是我站在用户体验的视角给出的主观判断,同时,由于模型输出并不完全绝对,此次评测仅供参考。各位可以按照自己的需求自行判断,欢迎讨论~

参赛选手介绍

出题者及阅卷者:ChatGPT、我;

参赛选手:Claude(Poe-3.5 Sonnet)、Gemini(1.5 Pro 002)、Reka Chat、智谱、KIMI、通义千问、豆包、文心一言、海螺AI、零一万物、腾讯元宝。(以上均为已推出多模态大模型的厂商,除Claude、Gemini外,均采用网页端)

考题速览和精彩场面

考题速览

❗❗❗以下内容纯主观,欢迎补充讨论~

❗❗❗本文无任何利益相关,均从个人工作场景需求出发,从个人体验的视角给予评价!仅供参考!

❗❗❗请注意:以下均是个人娱乐化的主观表达,各大模型可能擅长不同方面,在此种任务表现不佳并不代表其整体能力的不足,仅供参考。

黑马?

面对复杂表格识别、混合信息识别等任务,腾讯元宝不畏艰难,敢于奋斗,最后一个出场,但却拿下了完美的成绩,所有数据均识别正确,且每行每列数据均对齐,格式完美复现,已经能与Claude战得平分秋色,当属「黑马」无疑。

最乖的选手

Kimi作为大模型界最先出圈的选手,在此次考试中,严格按照考试要求和题目内容做大,绝不乱写乱画,表现出来典型的「好学生」品格,在各方面都表现优异。比如:在第四题的作答中,Kimi是一个忠实听话的助手,完美呈现图中的文字信息,不让干的事儿坚决不干。

Kimi第四题表现:完全按图片信息来,绝不多说

摆烂大王,不听话请离开考场

「Reka大模型是由Reka AI公司开发的先进多模态大型语言模型,具备强大的多模态理解和生成能力,支持多种语言,并拥有128K的上下文窗口和卓越的推理能力。它在图像识别、多语言翻译和自动内容生成等领域展现出广泛应用潜力。」第一次用的确还挺惊艳,但这次评测证明,这伙计太不听话了,而且不愧是外国血统,对中文的识别和支持简直一塌糊涂。我愿称它为已读乱回选手、摆烂大王、宕机分子、胡编乱造第一名…..(纯主观,可能该模型更擅长图像理解而非文字识别)请看:

 

不懂装懂选手

文心一言作为国内大模型“领路人”,说是有【具备强大的语言理解和生成能力,能够处理多种语言,并在多个领域展现出应用潜力。它在多轮对话、文本生成、翻译等方面表现出色,尤其在中文处理和中国文化理解上具有明显优势。】但这次评测下来,技术实力硬不硬不知道,反正嘴挺硬,每次识别不出来就给自己找补、瞎编,是一名不懂装懂选手。奇怪的是,不给Prompt的效果反而更好,搞不明白🙂(纯主观)请看:

蜜汁自信的文心一言

空有一身美丽的外表,最佳偷懒者

海螺AI:海螺AI的页面更新后,确实变得好好看!但是一考试就显原形了。每道题都不认真审题、不听话,也不认真答题,胡编乱造,用省略来偷懒。

更多有意思的完整版考试过程请看:「报告」-AI纪元大评测:OCR技术哪家强

考试成绩(依据我的主观判断)

❗❗❗本文无任何利益相关,评分均从个人工作场景需求出发,从个人体验的视角给予评价!仅供参考!

颁奖

激动人心的时刻!可以看到,腾讯的元宝竟然排在了第一位,妥妥的黑马!Kimi一如既往的稳定,Claude毕竟是国外的,对中文的识别的确不及预期;通义和Gemini也基本能满足需求,排名靠前。以下还有具体报道!(分数计算是根据上述4个评价指标、4个考试类型计算得出,满分80分。)

🏆 排名模型总分 📊荣誉称号🫡
🥇 第一名腾讯元宝64.5最佳黑马:免费又好用
🥈 第二名KIMI60.5稳如老狗:忠诚助手
🥉 第三名Claude59.5不愧是最强大模型(之一)
🌟 第四名通义千问57.5综合王者(但没有很强的点)
🌟 第四名Gemini57.5能看出来它真的想对你好
🔹 第六名豆包56.5有亿点自己的想法
🔸 第七名智谱55比通义弱一点点的综合王者
📉 第八名海螺AI43.5表面看着强,实际菜还爱玩
⚠️ 第九名文心一言29.5还是算了吧
🔻 第十名Reka Chat25狗都不用

干货:📀不同的待识别数据,用什么AI?

  • 这一部分为你展示不同AI在不同题目(不同类型的数据结构)下的表现,你可以针对你的数据结构(复杂文字、复杂表格、图文混合、混合信息)来选择表现更好的模型。
  • 复杂文字识别:大部分模型在这一类别的评分都在13到16之间,但文心一言和Reka Chat的评分明显偏低(9.5和5.5),表明在复杂文字识别方面表现较弱。
  • 复杂表格识别:在这方面,腾讯元宝得分最高(17),KIMI和Claude得分也较高(分别为15.5和17)。而Gemini、海螺AI、文心一言和Reka Chat的得分偏低,尤其是Reka Chat仅为4.0,表明复杂表格识别能力较弱。
  • 图文识别:所有模型的得分都在15左右,表现相对均衡。
  • 混合内容识别:在识别多种数据内容的能力上,腾讯元宝和KIMI的得分较高(17.0和15.5),但文心一言和Reka Chat得分明显偏低(7.0和5.0),表明在多种类型内容(如文字、图像、数学公式等)混合识别方面表现不足。
  • 干货如下:
    • 复杂文字处理选择优先序:通义千问>Gemini=腾讯元宝;
    • 复杂表格处理选择优先序:腾讯元宝==Claude>Kimi;
    • 图文混合处理选择优先序:Gemini>除了文心一言和Reka的其他大模型;
    • 混合信息处理选择优先序:腾讯元宝>Kim>豆包;
AI模型能力热力图1-按数据结构划分
AI模型雷达图1-按数据结构划分

干货:📊每个AI擅长什么能力?

  • 在上文的评测说明中,我把AI多模态能力分为:识别准确性、格式排版对应性、识别速度、使用便利性四大指标。可以看到:
  • 识别准确性:大多数模型的评分在15到19.5之间,腾讯元宝表现最好(19.5分),而文心一言和Reka Chat的得分较低(分别为4.0和3.0),显示出在识别准确性上较为薄弱。
  • 格式排版还原性:腾讯元宝、KIMI、Claude等模型得分较高(在15左右),而海luoAI、文心一言和Reka Chat的得分偏低(分别为8.0、4.0和3.0),表明它们在还原原始文档格式和排版方面存在不足。
  • 识别速度:腾讯元宝得分最高(17.0分),而文心一言和Reka Chat较低(9.5和7.0)。总体来看,各模型在识别速度上的差异相对较大,说明一些模型在处理速度方面有明显优势。
  • 使用便利性:在这一项能力上,所有模型的评分都相同(均为12.0),表示在使用的易用性方面,这些模型表现差异不大。
  • 干货如下:
    • 准确性选择优先序:腾讯元宝>Kimi>Gemini
    • 格式排版选择优先序:腾讯元宝>Kimi=Claude=通义千问=Gemini
    • 识别速度选择优先序:腾讯元宝>豆包=Claude
    • 使用便捷性:均是网页对话形式,便捷性并无太大差别。
    • 最后,还要考虑到AI的输出长度,尽管官方给出了各家大模型的输出长度,但有些时候模型就是不听话,就爱省略…..按照经验数据,Gemini、通义千问、腾讯元宝的输出能力较强。
AI模型能力热力图2-按能力划分
AI模型雷达图2-按能力划分

AI多模态应用的痛点

无论是在实际工作使用AI的过程中,还是在与传统OCR工具的比拼、在多模态能力的评测里,我都深深感到:这种网页对话形式使得AI使用便捷性大大降低,成为了AI融入生活的一大阻碍。每次调用AI多模态能力往往需要进行打开网页、输入Prompt、输入图片等等复杂操作,这极大影响了原本的工作进程,发生效率损耗。幸好,AI大模型的API接口,让提高使用便捷性的憧憬成为可能。因此,在我的一通折腾下,我的DIY -「万能识别」Quicker动作诞生了!在这个动作的加持下,AI多模态模型的使用便捷性至少能与传统OCR工具媲美了!请继续往下看。

我的DIY-「万能识别」Quicker动作

动作链接:点击进入「万能识别」- Quicker页面

「万能识别」的诞生

从实际体验中我深刻感受到,AI多模态能力对于处理复杂图片信息具有革命性的优势,能够精确识别文字,并最大化地保留格式、字体样式、排版等信息,这极大提高了工作效率。但是,目前使用AI多模态能力的方式,大多是通过一系列【进入大模型官网、点击上传图片、选择文件夹图片、等待模型回复、自行复制输出结果】这种使用便捷性极差的方式,这对于一个懒人来说可以说是麻烦至极了。因此,能否像传统OCR工具一样,实现AI多模态能力无缝融入我的工作过程呢?这就是「万能识别」的诞生。

功能简介

  • 一键「万能识别」,AI无缝融入,点击动作触发截图,等待AI返回,无需打开AI对话页面。
  • 万能识别:本动作支持识别图片中的一切信息,包括文字、结构化文字、图片、表格、混合信息(比如文字+表格)。识别结果将最大程度保留图片中的文字信息、格式信息、排版信息、文字样式信息等,可直接复制为Markdown格式。与传统OCR助手相比,具有以下优势:
    • 充分保留排版、格式、文字样式等信息,极大节省时间⏱️;
    • 得益于多模态大模型的加持,准确精度更高💯;
    • 无需复杂设置,在混合信息场景(如文字+表格、文字+公式等)、复杂表格场景下,依然表现优异💪;
    • AI无缝融入,快速启动,生产力UP!
  • 大模型支持:本动作通过调用智谱、通义千问、混元三个多模态大模型的API实现图片识别,可自行切换。只需填写API Key,即可实现「万能识别」。根据上文的测试和实测结果,这三个模型的优劣见下表,大家可以根据需求选择:
模型优点缺点免费额度
智谱速度较快、准确度高单次输出长度较短(最多约1600字)多模态模型可领取的免费tokens大于2000万,但有效期1个月
通义千问单次输出长度较长(最多约3000字),某些场景很准确,连续对话性能较好容易识别错误、识别不稳定、准确性差多模态模型免费赠送100万tokens,有效期6个月
混元速度快、准确性高、单次输出长度较长(最多约4000字)模型输入较少、连续对话性能差、模型有时候不听话多模态模型免费赠送100万tokens,有效期1年
  • 两次输出:支持两次输出,如果大模型第一次输出不完整,可支持再次输出,并最终输出格式一致的完整识别结果。

使用手册

适用场景

在使用这个动作之前,我想回到上一部分的讨论中,再次强调,如果你有「复杂」场景需求(复杂表格场景、复杂结构化文字场景、混合信息场景、图片解读场景),那么这个动作会很适合你。同样,对于部分简单识别任务,AI的低效率可能会让人崩溃,更推荐传统OCR工具。

前置条件

模型API Key获取网址简要教程免费额度查询
智谱智谱AI开放平台注册登录,进入网站后点击右上角API密钥,进入页面后创建即可获取资源包管理-智谱AI开放平台
通义千问阿里云百炼注册登陆,右上角头像点击API-KEY,进入页面后点击【创建我的API-KEY】即可获取模型免费额度
混元立即接入 - 腾讯混元大模型 - 控制台注册登录,进入网站后点击【使用OpenAI SDK方式接入】中的API KEY,进入页面后点击创建即可获取资源包管理 - 腾讯混元大模型 - 控制台

设置「万能识别」动作

  • 填写API Key:获取API Key之后,右键动作,选择“编辑API Key”,将相应的API Key填入即可。
  • 选择模型:右键点击「万能识别」动作,选择“模型选择”,可以切换使用的AI模型。建议只选择一个模型使用。默认选择为智谱AI。
  • 设置Prompt(可选):右键点击动作,选择"Prompt",可以自定义发送给AI模型的提示语。
  • 设置继续输出(可选):右键点击动作,选择“继续输出”,可以设置是否在第一次输出完成后询问是否继续输出。
  • 查看教程(可选):如对此动作使用有疑问,右键点击动作,选择”教程“,即可查看完整教程。教程也可点击:「万能识别」动作教程

使用示例

文字教程请点击:「万能识别」动作教程

基本流程是:

  • 未开启「继续输出」功能:点击动作—》触发截图—》截图完成后发送给AI大模型—》蹦出大模型回复预览弹窗—》Markdown结果自动复制到剪贴板;
  • 开启「继续输出」功能:点击动作—》触发截图—》截图完成后发送给AI大模型—》蹦出大模型回复预览弹窗—》Markdown结果自动复制到剪贴板—》蹦出是否继续输出弹窗—》点击是—》蹦出大模型再次输出后的全部输出弹窗(自动合并),并自动复制到剪贴板。

具体演示请看视频:「万能识别」- Quicker动作教程_哔哩哔哩_bilibili

更新计划

  • 支持更多大模型;
  • 优化功能逻辑和页面设计;
  • 支持连续截图、混合取图、本地上传、多文件上传、剪贴板识别;
  • 支持excel输出;

其他

  • Copyright ©Jamel (SUPERSWEET), All rights reserved;
  • 各位可自己使用或修改。
  • 本文无任何利益相关。
  • 给大家推荐一些强大好用的OCR工具:

结语:AI的革命

这篇文章前前后后折腾了十几二十天,从在科研工作中感受到对AI多模态的强烈需求开始,我就思考着如何让AI多模态提高工作效率。这一通折腾下来,「万能识别」这个Quicker动作已经把我的这个需求完美地满足了,在我的调试和实践中,的确感受了AI的强大能力,尤其是有些模型突然蹦出几句很有道理的话,让我为之一惊。回顾这段时间,我突然想起来之前看过的文章,Kimi的杨植麟在采访中说:

“如果能被更底层的东西解释,就不应该在上层过度雕花。有一句重要的话我很认同:如果你能用Scale解决的问题,就不要用新的算法解决。新算法最大价值是让它怎么更好的Scale。当你把自己从雕花的事中释放出来,可以看到更多。”

——来自:月之暗面杨植麟复盘大模型创业这一年:向延绵而未知的雪山前进

这是「第一性原理」的强有力证明。传统OCR工具仿佛就是在上层过度雕花的代表,而AI多模态则代表着Scale Law的强大作用。在可预见的未来,Scale Law或者说第一性原理可能成为解决很多复杂问题的可选项,过度雕花可能成为一个万不得已的备选。对我来说,作为一个用户,传统OCR并不是比AI多模态低一等的工具,他们都能实现我的需求,满足我的需要,本质上并无差别。 毋庸置疑,我们已身处AI时代,这场革命正席卷全球,深刻地改变着各行各业。然而,AI对日常生活的影响看似强大却又有限,对占世界绝大多数的普罗大众来说,它或许只是个聊天工具或者娱乐消遣的新方式。我想,只有等到AI真正普惠大众之时,才能算是「第一性原理」的最终胜利吧。

感谢阅读!希望能帮到你!如果帮到你一点点,可以点个赞点个充电评个论哦~