背景
过去一年逐步教会了父母使用字节跳动的「豆包」APP,过年回家已经能够发现豆包也已取代他们部分刷抖音和头条的时间。父母年龄渐大,起初只是想让他们能够询问一些健康相关问题,没想到豆包现在已经成为他们日常生活中不可或缺的小助手:咨询心理问题,了解阅读书单,甚至询问如何劝我节约生活开支。对于并不算太熟悉智能手机操作的父母来说,这样的帮助既贴心又实用。
与此同时,今年春节期间,深度求索的「DeepSeek R1」模型通过其出众且免费的推理能力和深度的中文表述几乎在一夜之间被不同社会圈层的人所接受和追捧,深度和广度前所未有。
作为 AI Infra 产品的从业者,最近和身边亲友们交流最多的话题也成为了人工智能(Artificial Intelligence,直接翻译的意思就是人类制造出的智能)。那么,人工智能究竟是什么?大语言模型(LLM)为什么能引发如此广泛的讨论?还有人常问的 AGI(通用人工智能)又是怎么回事?我希望把这些问题的答案,用尽量通俗的语言,结合一些真实案例,分享给像我父母这样对技术并不熟悉、却对新事物抱有好奇心的读者,并希望从这篇文章开始,让身边更多能理解并享受到人工智能时代带来的便利与机遇。
01|什么是人工智能——从“黑灯工厂”到图像识别,再到围棋对决
1. 永不停工的黑灯工厂

最早听到「人工智能」这个词时,很多人会联想到自动化生产线。十几年前就有一个概念叫「黑灯工厂」:工厂里的机械臂和传送带在无须开灯的环境下 24 小时运转。它看上去非常“智能”,但背后的逻辑更多是机械化和自动化:通过事先编程和传感器,让机器在固定条件下重复同一种动作。
这种模式虽然提升了工业效率,却缺乏「自我学习」和「独立思考」的成分。如果把这种自动化模式比作一个擅长反复做某件事的工人,它可以不知疲倦地工作,却不会和你聊天,更谈不上理解你的问题、推理出对应的解决方案。它离我们现在所说的能够「理解语言和语境」、会思考的 AI,还是有不小的差距。
2. 处理海量违章照片的图像识别

再往后,人工智能在图像、语音领域有了进一步发展。例如,交管部门每天会收到海量的违章照片,需要人工逐一检查车牌、车型、违规动作,效率低且容易出错。基于计算机视觉的图像识别让这一过程变得更高效:在庞大的图像数据库里「学」出对车牌字符、车型特征、甚至驾驶员车内具体行为的识别能力,自动标记违规场景。
这类技术为各种场景带来了实际的生产力提升,但它毕竟只是在特定的任务中运转:你要它识别车牌,它就识别车牌;让它去写篇文章、分析一段对话,它就无能为力。仍然是专门化而非通用的「智能」。
3. 人工智能大战顶级围棋选手

再往前走一步,2016 年 AlphaGo 战胜了世界顶尖围棋冠军李世石。这个事件为人工智能的强大能力正名:在围棋这样规则固定但变化极为复杂的博弈中,通过海量对局数据、自主训练和深度神经网络,AI 能够在棋盘上展现惊人的策略创意。这让许多人第一次意识到:原来 AI 不仅能计算和识别,还能够在一定范围内做“推理”和“决策”。
然而,AlphaGo 依然是“专用型 AI”:在围棋方面高屋建瓴,可一旦让它去做别的任务,比如给你设计一份旅行攻略或回答生活常识问题,就完全不知所措。传统人工智能很擅长针对某个特定任务进行训练,但缺乏举一反三的通用能力,这就是它一直以来的最大瓶颈。
02|大语言模型(LLM)从何而来——为什么对话式应用率先出
1. LLM 的诞生:从背诵文本到理解和推理

最近两年,人工智能领域最大的热点莫过于大语言模型(Large Language Models)。它与之前「专用型 AI」相比,最大的不同在于「语言理解和生成」的通用能力。想象一下:如果一个人从小学到大学,把图书馆中几乎所有的书都读过,并且拥有一种跨学科快速关联融会贯通的,当你问他一个问题时,他可以迅速将你的问题精准拆解并在记忆里筛选出所有相关信息,然后进行有条理的思考和组合,最终给出逻辑连贯且清晰的答复。
表面上看,LLM像是在「思考」,可在更深层上,它其实是把我们日常语言中潜在的统计规律“挖掘”到极致。有人甚至感叹:它也许无意间「碰触」了造物主设计人脑的某些原理,但它在语言细节的理解与生成上已经超过了人类所具备的顶级能力。
2. 对话式应用先火:人类最自然的交流方式

ChatGPT、DeepSeek 等对话式应用之所以一夜爆红,很大程度上是因为对话是人类最简单直接的交流方式。过去,想在网络上获取信息需要懂一点搜索技巧或操作流程。现在,你只要把想问的问题用自然语言问出来,AI 就能给出一段如同「聊天」般的答案。
对父母辈用户来说,这种体验门槛更低、亲切感更强:
• “觉得胃不舒服,症状 A、B、C 是怎么回事?”
• “我想看些和「大明王朝 1566」类似的电视剧,有哪些推荐?”
• “下个月去阿勒泰玩 5 天怎么安排?”
在他们看来,这是一位懂得聊天、能给出实用建议的“朋友”。因为门槛低,需求广,再加上背后技术的飞跃式进步,对话式应用才在短期内广泛走红。
3. DeepSeek:开源深度推理、中文哲学表达的「降维打击」

在众多对话式应用中,DeepSeek今年春节期间突然“爆火”,被人们称作“降维打击”。原因在于:
- 免费开源了国外模型才有的深度思考能力
相比国外一些领先的付费、闭源模型(如 OpenAI 的 GPT 系列),DeepSeek 不仅免费面向公众,还在开源社区提供了相当成熟的技术文档与模型权重。它整合了原本只有付费闭源模型才可能具备的深度推理能力,让更多开发者和普通用户都能使用到高水平的自然语言理解与推理工具。
- 对提示词工程(Prompt Engineering)依赖更低
在 OpenAI 发布 o3 之前,大部分海外模型需要非常精准的「提示词」,简单讲也就是用户要掌握一套复杂的提问技巧,才能得到理想答案。但 DeepSeek 更侧重在中文语义理解与上下文关联上做了深度优化,即使用户没有精确描述,依然能推断出问题核心并给出较高质量回答。对普通人来说,这无疑门槛更低,体验更佳。
- 中文的哲学与人文表达力突出
DeepSeek 的训练材料相比国外模型依赖了海量的中文内容,还展现出更具哲学色彩与人文深度的中文表达方式,擅长在回答中结合古诗文、成语典故或传统中国哲学。很多人惊讶地发现,DeepSeek 回复中不仅体现了科学的逻辑推理,还带有独特的「东方韵味」哲学与思辨。
正是因为在深度推理、开源共享以及中文语言能力上进行了这些创新和优化,DeepSeek 实现了相当程度的“降维打击”,成为春节期间被社交网络刷屏的现象级 AI 应用。
4. 通用 LLM 和专业 LLM 的区别

经过大量通用数据训练的 LLM(比如 GPT、Claude 系列)可以回答五花八门的问题,涵盖历史、地理、文学、科学常识等等。但随着训练所需的网络文本数据日渐「枯竭」,加之各大公司对 LLM 底层技术的了解逐渐雷同,通用 LLM 未来会出现「大同化」的趋势。
然而,每家公司、每个行业都有独家的专业数据。如果在此基础上对通用 LLM 进行专业训练或微调,就能打造出专门针对医疗、金融、教育、法律甚至制造业的「专业版 LLM」,在这些领域展现出更高的准确性和专业度。这也意味着,专业 LLM 则凭借领域数据的深度与质量,会成为企业进行 AI 商业化应用的核心壁垒。
03|除了对话问答,大语言模型还在哪些非对话场景落地
大语言模型的应用远不止于聊天咨询,它还能在文本、内容创作与信息分析等方面创造巨大价值,让我们看看一些其他的已落地场景——其中很多我们都已经在不知不觉中体验过。

1. 企业智能客服
过去想打客服电话,需要长时间等待,还要根据提示一层层按键。如今,企业若采用 LLM 驱动的智能客服,用户能像跟真人一样对话,客服系统可以多轮交互、理解上下文,更快定位问题、解决诉求。这在银行、电信、航空等服务行业已经逐步推广。
2. 会议纪要与新闻稿生成
在公司会议上,大家七嘴八舌,没人在做详细记录时容易漏掉关键信息。LLM 可将会议内容自动整理成条理清晰的纪要,提炼出负责人、时间节点、重要待办事项等,大大节省人力。部分媒体也已开始尝试用 AI 编写一些基础新闻通稿,速度快、成本低。
3. 图片、视频生成
图像和视频生成更多涉及多模态大模型,但文字依旧是重要的输入方式。只要简单描述画面内容,如“在春天的樱花树下,放着一把古琴”,AI 就能迅速生成逼真的图片或视频。对设计、广告和文创领域,极具潜力。
4. 合同审核
对律师或法务人员而言,审阅一大堆合同往往很枯燥还容易出现错误。基于 LLM 的法律文档分析工具可以快速找出合同中的风险条款、法律漏洞,并给出参考建议。专业人士再进行二次审阅即可,效率大幅提升。
5. 教育辅助
LLM 可以根据教材和题库,为学生生成练习题、批改作业,也能帮助老师整理教学重点,或对学生做个性化辅导。孩子在家做题遇到难题时,可与 AI 进行多轮对话,一步步弄懂题意和解法,而不是看一眼标准答案就了事。
6. AI 写代码
不要忽视一件事:代码也是“语言”的一种。许多大语言模型在训练过程中也学习了海量的开源代码和程序文档,因此能帮工程师生成功能示例、排查错误,甚至直接写出一段可执行代码。对专业程序员来说,AI 能显著加速开发进度;对想入门编程的人来说,AI 像一位“耐心的老师”,带你一步步理解语法和逻辑。
7. 营销素材生成
除了传统的文字内容,LLM 还能帮助广告、市场营销团队快速生成具有情感触动力的文案、海报文案或社交媒体帖文。比如利用 DeepSeek 「锐评」风格和对中文语境的深度把握——它常能精准捕捉人们内心的共同感受,并用简洁又犀利的表达方式打动受众。这种能力让营销素材更具「人性化」与吸引力,达到所谓的「心有灵犀」效果。
04|什么是 AGI——探索 Agentic AI 与具身智能结合的未来
1. AGI 的概念
AGI(Artificial General Intelligence)即通用人工智能,指的是不再只懂特定任务,而是像人类一样具备综合学习和思考能力:既能下围棋,也能做科学研究、写报告、与你聊旅行攻略。它不会局限于固定的流程或者步骤去执行任务,而会像一个全能的伙伴,根据你的期待动态的去根据环境变化进行自我适应下的目标达成。当前的 GPT-4、DeepSeek 还谈不上真正的 AGI,但它们已经显露出对多种问题进行抽象思考的初步潜力。
2. Agentic AI:从“对话”到“行动”
最近伴随着 LLM 的发展有个词频繁出现 —「Agentic AI」。它指的是能够自主做决策、执行连续任务的 AI 代理人。过去,AI 更多停留在回复阶段;未来的 Agentic AI 或许可以根据你的需求直接去行动:
• 你说“帮我在网上选一份性价比高的生日礼物,送给 XXX”,它自动爬取数据,根据它对这个朋友兴趣的了解进行选购和下单;
• 你要策划一次沙龙活动,它能自动询问你对于活动的要求,然后设计方案发邮件邀请嘉宾、根据回复做日程安排,并随时更新方案。
从 Anthropic(OpenAI 竞争对手) 推出 MCP 协议开始,AI 接管你的手机和电脑操作已经成为现实。而 OpenAI 刚刚发布的 DeepReaserch 也已经能够无需人类参与主动规划路径,搜集资料直接端到端完成博士级别的深度论文,这意味着 AI 的角色正在从「被动回答者」变成「主动执行者」,对知识密集型生产业的冲击和优化将非常大,下一场「蒸汽机革命」也已经到来。
3. 具身智能:AI + 机器人,改变未来生产模式

如果说 Agentic AI 还局限在“虚拟世界”的自主决策与执行,那么把 AI 与实体机器(机器人)结合,就进入“具身智能”(Embodied Intelligence)范畴。具身智能使得 AI 不仅能“思考”,还会“动手”:
• 在仓库里,机器人自主整理货物、完成打包发货;
• 在工地上,它们能搬运砖块、协助施工,甚至对某些工程方案提出建议;
• 在医院里,可辅助护理、做简单的医疗检测。
一旦 AI 可以执行更广泛的工作,人类社会势必要重新审视就业形态、福利制度和经济结构。就如同当年蒸汽机的出现改变了农业社会的面貌,AGI(加上具身智能)的普及很可能带来新一轮的工业、商业和社会革命,人类社会的生产力将带来史无前例的变革。
结语:如果能拥有人类的躯体,你想做什么
以下转载自正和岛:当我问 DeepSeek,“过好这一生”的真相是什么

