大语言模型 (LLM)，就是数据库2.0？

所谓数据库2.0，并不仅仅是要讨论大语言模型(LLM)之于传统数据库的延伸意义，而是借数据处理范式迭代的视角，一瞥大语言模型(LLM)未来发展的走向。

1 LLM: 传统数据库在非结构化数据领域的延伸和补充

首先，我们不难从一些基础属性层面，看出LLM与数据库的相似性。

一方面，与作为“商品”(commodity)的数据库一样，LLM也越来越像commodity，最终其价格会趋近于成本。从技术属性来看，像llama 3这样的开源LLM正在快速成为一种“商品”(commodity)。

commodity是在技术商业当中用得比较多的一个词，是说一个东西一旦变成commodity，很多人就都能生产，所以它就无法卖出一个极高的溢价，也就是说最终它的价格就会变得跟成本相关。越来越多的企业和个人有能力利用这些LLM来构建应用，其价格也会逐渐接近成本。

另一方面，与数据库一样，今天的LLM更像是一种基础设施，离AGI尚远。OpenAI与StackOverflow的合作恰恰说明，连OpenAI也没有一个secret weapon来解决编程数据的问题。

这么看，两者都是commodity，都是主要用于处理数据的基础设施，且接口都相对简单。不同之处在于，数据库主要处理结构化数据，而LLM则专注于非结构化数据。所以从这个角度，LLM其实可以看作是传统数据库在非结构化数据领域的延伸和补充。

未来十年，LLM会像数据库一样，成为各类软件系统的标配。这意味着几乎所有的程序、所有的应用和所有信息化组织结构的核心都会改变。就像现在几乎每一个稍微复杂一点的程序都会有一个数据库，以后稍微复杂一点的信息系统都会有一个大语言模型。

今天所有使用数据库的企业未来都可能会采用LLM。那些还没有使用数据库的企业，也很可能会在这个发展过程中逐渐采用LLM。因为这个事情本身还在发展中，也就是说数据库的发展并没有停止。正如数据库在二三十年前软件行业的崛起中发挥了关键作用，未来的软件创新可能同样离不开LLM。

有人会问，LLM是否已经达到了AGI的水平，能够胜任绝大部分具有经济意义的工作？软件工程师、数据处理师、设计师等与物理世界关联度较低的职业是否都可以被LLM取代？

事实上，除非进化到AGI的水平，在绝大多数认知任务上超越人类，否则LLM取代人类还有很长的路要走。LLM可以处理非结构化数据，根据你的prompt在一个巨大的非结构化数据当中，生成一个非结构化的反馈。

今天业务逻辑不在数据库里，工程师需要跟数据库打交道来实现业务逻辑，用类似SQL的语言来查询数据库，获取所需的数据，然后再进行处理和展示。未来业务逻辑也不会在LLM里，还是需要工程师来利用LLM以实现更智能的业务逻辑。

在这个过程中，行业的人才结构和创新模式可能会发生变化。

一方面，掌握提示词工程(prompt engineering)将成为职场新的必备技能。类比一下，prompt engineering就是新的SQL。

另一方面，单打独斗的“超级个体”创新模式反倒可能会逐渐减少，因为一旦形成了成熟的范式，团队协作的效率往往会超过单兵作战。

虽然将大型语言模型直接类比为“数据库2.0”可能并不完全准确，但它们之间的相似性以及由此带来的行业变革，确实值得我们深入思考。本文仅作为此系列的第一篇，思考尚不成熟，期待与各位一同交流，欢迎批评指正。

注：本文题图及配图均由作者使用 ideogram app 生成。