记录自己在阅读文章书籍、观看音视频内容时,利用AI进行摘要总结的方法与思考

包括对一些AI总结产品的体验感受,以及自己手动创建AI总结工具的过程,并由此引发对于AI内容总结的思考

一、为什么需要AI总结

每天都有无数的信息涌现,我们的注意力很容易被吸引走,好像了解了很多,但真的认真回头去想,获取到有价值的信息实在太少了

注意力是有限的,而高质量的内容永远是稀缺,如何获得高质量的信息一直是我思考关注的命题。除了主动订阅一些优质信息,还有一部分是从各种推荐的信息流中,快速获取到对自己有帮助的信息

所以,快速获取高质量的信息,成为了我对信息消费的核心诉求

每天听和看到的内容,主要途径就是文章、播客、视频。而我看文章更多,所以最高优的诉求就是用AI帮我提前阅读一遍,给出核心观点和全文摘要,按结构化输出,我通过看这些摘要和总结再决定是否有必要去细看

为此,我开始体验和寻找当前市面上的AI工具,看哪个是可以满足我诉求的

二、AI总结产品体验

我挑选并使用了市面上几款AI总结类产品,同时也自己手动去构建了自己的AI总结bot,在这个过程中对自己的需求和当前的AI产品产生一些思考

2.1、现有产品体验

  • 通义智文

最开始尝试体验的是通义智文,丢给他网页链接、PDF文件、专业论文、电子书,它都可以帮你总结

但是很快发现它只能满足我很小的一部分诉求,不是很契合。原因是它只提供了概述和摘要两点,且总结的质量比较低,部分我关注的内容并不在它的总结范围内,这个时候就需要我主动去提问,它才能给出相关内容

而我期望的,是给我一个完整的结构化信息,让我基于自己的关注点去展开提问,而不是一开始就总结不全,让我去找信息再去问

当然它也有做的好的地方,比如它支持对阅读内容做笔记、支持翻译原文等,只是不是我需要的

  • Podwise

偶然看到了一款AI总结播客内容的产品让我眼前一亮,名字叫做Podwise。产品的slogan是也与我的理念不谋而合:Read,before Listen 

它不仅支持找播客、订阅播客、文字转播客、内容摘要、关键词总结、精彩语录、分享到笔记软件等,最让我中意的是它可以直接用脑图总结播客内容,这个就非常清晰了。有了框架,然后对感兴趣的内容进行展开深入

试用了产品之后,我觉得还是非常不错的,但是毕竟是有免费次数限制(每个月免费使用4次),于是我转向了国内的音频总结类产品,阿里的通义听悟

  • 通义听悟

语音写成文字之后,内容更容易被索引,摄取效率也更高,我能够更容易地找到自己感兴趣的内容。通义听悟使用下来不如预期,全文摘要、章节速览、发言总结这几个总结功能,总结的都比较生硬。再者就是需要我主动再从文本中找信息,而不是将整理好的内容呈现给我

尤其是实在是不理解,这个通义智文和通义听悟,为什么都这么重视笔记功能,反而不好好做好总结。想来想去只有一个原因,那就是底层模型还不够强,只能做些视觉层的功能来弥补模型的欠缺,想到这里我也释怀了。毕竟Podwise用的是Chat-gpt4

 

这里吐槽一下,截止我写这篇内容时,发现“通义三杰”被合并了。通义智文、通义听悟、通义千问,合并为通义了。。

 

Podwise给我的启发是,AI总结的内容可以通过更加结构化的方式表达出来,尤其是通过脑图的方式十分击中我,让我可以快速的看清楚内容的结构信息

由此再结合我的出发点,我的诉求变成了AI帮我总结内容并按照脑图的结构输出,或者Markdown结构输出

  • Kimi

后来再到Kimi的出圈,我发现我前面折腾这一气,Kimi都可以直接支持,而且表现的相当出色

无论是长文档、文字网页、还是播客链接、视频链接,它都是可以解析并总结,然后按照自己想要的方式展示出来,如展示为Markdown或者Mermaid

它内容的详细程度都可以按照自己的Prompt进行定义,当你想要就其中某个知识点展开了解时,可以直接和它继续对话,它的回答质量也不会太差。再次有了一种如获至宝的感觉

Kimi的能力不仅仅是总结,联网搜索、翻译这些都处理的很不错,在内容总结这个场景下模型能力肉眼可见的比通义要强不少

2.2、自己创造

在不断的寻找和尝试过程中,我同时在想为什么不自己动手做一个AI应用?想想现在可以通过Prompt的方式快速做个AI产品出来还是很兴奋的,而不是必须会写代码做程序才行

  • Kimi

尽管kimi本身就支持通过Prompt的方式,解析网页文字链接和音频链接、识别长文档,对内容的提炼总结、结构化输出。但是每次都让它按自己的指定要求去执行比较麻烦

Kimi通过预设Prompt的方式,可以把常用的Prompt设置为常用语,一键呼出使用,十分贴心

所以想要大模型输出什么样的总结,不断去优化自己的Prompt即可

  • Coze

Coze支持用户快速、低门槛地搭建自己的Chatbot,并且可以将这些机器人一键发布到不同的平台进行应用

我可以在这里选择底层的模型(免费使用Chatgpt4),输入自己的Prompt(AI可以帮助优化Prompt),然后选择对应的插件(AI可以帮助选择),基本就可以运转起来了

如果有进一步的要求,可以引用自己的知识库数据,甚至可以通过关联多个bot搭建一个Agent完成一系列事项(学习摸索中)

我的bot叫做"阅读先锋"

然后通过预览查看总结的效果,不断的调整Prompt来达到自己想要的效果

 

可以免费使用Chatgpt4 Turbo,结合它越来越丰富的插件系统,我还是打算后面多实操和研究下Coze,搭建一个自己更加个性化的机器人出来,辅助阅读和学习

2.3、使用感受总结

AI总结的质量很难评,相同的内容在不同的模型上表现有差异,想知道哪个模型总结是相对高质量的(当然当前阶段对比下来明显还是Chatgpt4和Claude更强一些),必须自己先去阅读完原内容,再回头去看AI总结的做对比才知道。。

具体怎么评价总结效果,我最看重以下几个点:

  1. 内容不能偏离核心主题,不能大量遗漏
  2. 输出的内容结构清晰,配合一些图表最好
  3. 输出的文字可读性强,表述方式别太生硬

 

另一方面,从Prompt构建的角度去看,步骤可以拆解为:

  1. 将音视频转成文字
  2. 基于文字内容进行总结
  3. 按照结构化要求进行输出

上述的步骤,在执行层面存在两种实现方式:

  1. 使用大模型进行总结,那总结效果取决于模型能力+自己的Prompt+自己的知识库+平台插件
  2. 如果是使用现成的AI产品进行总结,那其实是模型能力+别人的Prompt+别人微调

三、思考与疑惑

在上述寻找、创造、折腾的过程中,尤其是使用AI总结的过程中我愈发止不住思考:AI总结的内容是"准确"的吗?

 

相同的内容,可能AI认为是重要的、核心的内容,但是每个人的想法差异导致每个人对内容的价值点是不一致的。这样如果我基于AI的总结结果去判断是否进行下一步阅读时,无疑会存在偏差,而且它可能还会漏掉我认为的关键信息

 

“准确”这个问题有点泛,可以进一步拆解为几个问题:

  1. 它总结的内容有遗漏或者重复吗?
  2. 它总结的内容是否存在偏见与误差?
  3. 它总结的内容与原文真正想表达一致吗?

AI现阶段是无法像人类那样深入理解文本或视频内容的深层含义和上下文联系,它的表现受限于训练的数据源与模型推理能力,从实现原理角度看当做是在玩文字游戏也不为过

 

开始怀疑之后,又产生了几个相关问题:

  1. 从价值角度看,AI总结帮我提高了多少效率?真的提高了吗?
  2. 会不会反而让我舍弃了一些自主思考判断的机会?
  3. 那我就真的放心把总结的任务交给它吗?

带着这些疑问,我开始慢慢寻找答案。在Twitter上看到了不同博主的观点,让我有从另一个视角的启发。原文如下:

憋了很久,但最终还是决定说出来的一个看法:最没有意义的AI应用就是那些“总结类产品”。原因:

1.它不能代替你阅读。总结的意义在于阅读后,而不是阅读前;

2.在“节省”时间的同时,它也让你离“一手信息源”越远。我们现在接触的很多已经是二手信息,这种没有阅读的“总结”是三手,四手,五手知识;通过”总结“学到的不是知识,是以为自己学到知识的幻觉(或虚荣心)。

3.总结的本质是对具象知识的吸收和高度抽象。总结的最大获益者是做出总结的人,而不是阅读总结的人。跳过具象知识,就像猪八戒吃人参果:”你不知道有籽没籽儿,有核没核,它到底是个什么味儿啊”-一个80后西游记迷控制不住的reference.

4.试图通过阅读总结学知识,是很多人“懂得很多道理,却依然过不好这一生”的原因。学知识,获得智慧,没有捷径。

5.一个更加现实的问题:你无法确定AI总结的是准确的。想要确定它是准确的,你需要去读一下。所以,why even bother? (如果是读书,人家已经有了一个准确的summary: 目录。如果是读论文,人家已经有了摘要。而书籍和论文是最好的信息源)

6.这种AI summary甚至都不是可靠的内容筛选器。即使它总结的准确,这种高度抽象会导致那些越是正确的内容,被总结出来的越是那些“老生常谈”的大道理。看起来都千篇一律。你会pass掉很多好的内容。


来自Twitter “一口新饭”

GPT类的语言模型本身就是一道有损压缩了,再被良莠不齐的套壳软件继续有损压缩一遍,还能剩下个啥,读这类总结就是看个热闹。所以总结类应用最大的用途就是帮助在视频中定位,比如大约在7分钟的时候开始讲什么了


来自Twitter “Axton”

并不是任何内容都适合AI总结,比如闲聊访谈类的播客就不适合,内容太过分散;或者短视频或者 vlog,很多都是只有画面,没有说话内容,这些都没法总结。

这些内容会更加适合AI总结:

主题较为明确的播客或视频,如:Ted 视频

手机或者数码产品分享视频,如各种评测

新闻或者时事类播客或视频


来自Twitter “JimmyWong”

四、我的结论

结合这些观点,我的判断是自己还是需要一款AI内容总结工具的,只是需要区分内容去使用:

  1. 主体明确但内容比较长,或者是英文内容,先用AI去总结或翻译
  2. 基于总结的框架,再去判断是否需要进一步精读
  3. 精读的过程去探索更一手的信息,去主动思考,去记录笔记
  4. 阅读完成之后,再整体人工总结一遍,吸收消化

前2步,是让AI帮自己筛选过滤内容,然后进入主动阅读环节。后2步对优质内容进行学习思考。切勿太依赖AI工具什么都丢给它去阅读总结。记住自己的出发点:在信息洪流中,更好地聚焦与思考

 

最后,不得不说,AI内容总结在当前阶段并不完美,但还是有它的价值,随着AI能力的提升,我相信这些问题大部分会得到解决。AI切实能帮到我们,让生活更加方便和智能