所谓数据库2.0,并不仅仅是要讨论大语言模型(LLM)之于传统数据库的延伸意义,而是借数据处理范式迭代的视角,一瞥大语言模型(LLM)未来发展的走向。
1 LLM: 传统数据库在非结构化数据领域的延伸和补充
首先,我们不难从一些基础属性层面,看出LLM与数据库的相似性。
一方面,与作为“商品”(commodity)的数据库一样,LLM也越来越像commodity,最终其价格会趋近于成本。从技术属性来看,像llama 3这样的开源LLM正在快速成为一种“商品”(commodity)。
commodity是在技术商业当中用得比较多的一个词,是说一个东西一旦变成commodity,很多人就都能生产,所以它就无法卖出一个极高的溢价,也就是说最终它的价格就会变得跟成本相关。越来越多的企业和个人有能力利用这些LLM来构建应用,其价格也会逐渐接近成本。
另一方面,与数据库一样,今天的LLM更像是一种基础设施,离AGI尚远。OpenAI与StackOverflow的合作恰恰说明,连OpenAI也没有一个secret weapon来解决编程数据的问题。
这么看,两者都是commodity,都是主要用于处理数据的基础设施,且接口都相对简单。不同之处在于,数据库主要处理结构化数据,而LLM则专注于非结构化数据。所以从这个角度,LLM其实可以看作是传统数据库在非结构化数据领域的延伸和补充。
2 LLM将催生新的产业范式:LLM成为软件标配
未来十年,LLM会像数据库一样,成为各类软件系统的标配。这意味着几乎所有的程序、所有的应用和所有信息化组织结构的核心都会改变。就像现在几乎每一个稍微复杂一点的程序都会有一个数据库,以后稍微复杂一点的信息系统都会有一个大语言模型。
今天所有使用数据库的企业未来都可能会采用LLM。那些还没有使用数据库的企业,也很可能会在这个发展过程中逐渐采用LLM。因为这个事情本身还在发展中,也就是说数据库的发展并没有停止。正如数据库在二三十年前软件行业的崛起中发挥了关键作用,未来的软件创新可能同样离不开LLM。
3 LLM对人才结构的影响:谁将被取代?
有人会问,LLM是否已经达到了AGI的水平,能够胜任绝大部分具有经济意义的工作?软件工程师、数据处理师、设计师等与物理世界关联度较低的职业是否都可以被LLM取代?
事实上,除非进化到AGI的水平,在绝大多数认知任务上超越人类,否则LLM取代人类还有很长的路要走。LLM可以处理非结构化数据,根据你的prompt在一个巨大的非结构化数据当中,生成一个非结构化的反馈。
今天业务逻辑不在数据库里,工程师需要跟数据库打交道来实现业务逻辑,用类似SQL的语言来查询数据库,获取所需的数据,然后再进行处理和展示。未来业务逻辑也不会在LLM里,还是需要工程师来利用LLM以实现更智能的业务逻辑。
在这个过程中,行业的人才结构和创新模式可能会发生变化。
一方面,掌握提示词工程(prompt engineering)将成为职场新的必备技能。类比一下,prompt engineering就是新的SQL。
另一方面,单打独斗的“超级个体”创新模式反倒可能会逐渐减少,因为一旦形成了成熟的范式,团队协作的效率往往会超过单兵作战。
总结
虽然将大型语言模型直接类比为“数据库2.0”可能并不完全准确,但它们之间的相似性以及由此带来的行业变革,确实值得我们深入思考。本文仅作为此系列的第一篇,思考尚不成熟,期待与各位一同交流,欢迎批评指正。
注:本文题图及配图均由作者使用 ideogram app 生成。