前言
当AI开口说话时,机器在思考什么?
凌晨三点的服务器机房,数以万计的显卡矩阵在黑暗中闪烁着幽蓝微光,神经网络中奔涌着每秒数万亿次的矩阵运算。当ChatGPT为你写出一首精巧的俳句,当Comfy UI的工作流生成令人惊叹的数字艺术,这些看似充满"灵性"的创造行为背后,实则运行着一套精密如钟表般的机械逻辑。
当你仔细研究一下会发现,大模型并不是常人所想象的那么简单。
例如我们在用「Deepseek」充值API的时候会发现明确标注着“每百万token输入xx元“又或者说本地部署时候总能提到的「满血版」「32B」等。这些到底是什么东西呢?
接下来就让我这个自诩站在大模型前沿的作者带你揭开大模型的神秘面纱,带你揭秘大模型背后的秘密。
Chat的含义
从23开始由于AI的井喷式爆发,导致市面上出现了数不过来的大模型,单说国内的大模型已经达到了百家以上,但细心的小伙伴会发现一个问题,就是大模型的网址域名里面会出现一个单词「Chat」

而Chat在大模型中的真实含义指的是模型具备的对话能力,即能够像人类一样进行自然流畅的交流
Chat🟰对话
在大模型中,“Chat” 表示模型具备与用户进行多轮对话交互的能力。
这种对话不仅仅是简单的问答,而是能够理解上下文、记住对话历史,并做出自然、连贯的回应。
Chat 也代表模型的应用场景
比如 ChatGPT,“Chat” 就是强调它的主要功能是聊天和对话,而 GPT 是 “Generative Pre-trained Transformer”(生成式预训练变换模型)。
例:ChatGPT是一个对话机器人,真正的技术是大模型也就是GPT,技术不可以对话,Chat可以对话,Chat和GPT是两个东西。
总结来说就是,在AI大模型中,Chat代表了模型的“对话交互能力”,让模型不仅能“生成文字”,还能与用户连贯且智能地交流,提升互动体验。
LLM又是什么?
LLM 是 Large Language Model 的缩写,意思是大型语言模型 。在平时生活中习惯性叫缩写,「LLM」
核心特点
超大规模:拥有数十亿到数万亿个参数。
训练数据庞大:通常基于互联网上的海量文本数据训练,如书籍、文章、网页等。
多功能性:可以完成文本生成、翻译、总结、问答、对话、编程等多种任务。
自监督学习:通过“预测下一个词”这种简单的方式自我学习,逐渐掌握语言规律。
如何工作
输入:用户输入一段文字,称为“Prompt”。
Token 处理:LLM 将文本拆分为 Token。
预测:模型根据已有 Token,预测下一个最合理的 Token。
输出:逐步生成完整的文本内容。
以上的步骤也就是正常去问大模型问题,他回答你问题的步骤,也是大模型工作的流程。
代表模型
| 模型 | 发布公司 | 参数规模 | 特点 |
| GPT-3 | OpenAI | 1750 亿 | 强大的文本生成能力 |
| GPT-4 | OpenAI | 未公开 | 多模态,支持图像和文本 |
| Claude | Anthropic | 未公开 | 更注重安全性和可控性 |
| LLaMA | Meta | 从 70 亿到 650 亿 | 开源,适合研究使用 |
| PaLM 2 | 未公开 | 强大的跨语言能力 |
什么叫做Token
在提到token的时候,很多人会不陌生,比如在使用用「Deepseek」充值API的时候会发现明确标注着“每百万token输入xx元,每百万输出tokenxxx元”。那这个token到底是什么东西呢,使用大模型所花的钱为什么要按照token计算呢。
下表为「Deepseek」的token计费方式。
标准时段价格 (北京时间 08:30-00:30) | 百万tokens输入(缓存命中)(4) | 0.5元 | 1元 |
百万tokens输入(缓存未命中) | 2元 | 4元 | |
百万tokens输出 (5) | 8元 | 16元 | |
优惠时段价格(6) (北京时间 00:30-08:30) | 百万tokens输入(缓存命中) | 0.25元(5折) | 0.25元(2.5折) |
百万tokens输入(缓存未命中) | 1元(5折) | 1元(2.5折) | |
百万tokens输出 | 4元(5折) | 4元(2.5折) |
Token的含义
在大模型中,Token(标记) 是模型处理文本时的最小单位。大模型在训练和推理时,不是直接处理整段文字,而是将文本拆分成一系列的 Token,再进行分析和生成。
Token 是什么?
Token ≠ 字符,Token 可以是一个字、一个词,甚至是词的一部分。
Token 的拆分方式依赖于模型所使用的分词算法,常见的有以下两种
字节对编码(BPE):常用于英文,将词按子词拆分。
SentencePiece:支持多语言,更智能地进行拆分。
token的计算方式标准是什么?
token其实没有固定的字数限制,2个字可能是一个token、3个字可能是一个token、4个字也可能是一个token。
并且英文的token计算方式和中文的计算方式还不一样。
例:
英文句子
句子:ChatGPT is amazing!
Token 拆分(按 BPE 算法可能是):['Chat', 'G', 'PT', ' is', ' amazing', '!']
英文中ChatGPT 被拆成了 'Chat'、'G' 和 'PT',is 和 amazing 也分别作为独立的 Token。
中文句子
句子:大模型很厉害。
Token 拆分(中文一般按字拆分):['大', '模型', '很', '厉害', '。']
中文中,模型 和 厉害 可能会被作为整体 Token,也可能被拆开,取决于模型的训练数据。
如果想知道一段文本的 Token 数,可以用 OpenAI 提供的 Tokenizer 工具 进行测试。网址:https://platform.openai.com/tokenizer
经过本人的调研以及询问身边做AI的小伙伴来看一个普通人正常问一个问题大概在10-30个字之间。一个汉字算下来约等于0.6token,具体看汉字的复杂程度,最高是一个汉字一个token。上下聊天记录也算token,输出也算token
为什么 Token 重要?
计费:像 ChatGPT 这类模型,通常按 Token 数量计费。
模型限制:每个模型都有最大 Token 长度限制,比如 GPT-4 的上下文长度是 128k Token。
输出预测:模型的每次生成,是基于已有 Token 预测下一个 Token。
大模型依靠什么计算token呢
上边提到大模型会把问题的字数分为不同token,那他是依靠什么来把字数分为不同token呢?
分词器
提到token就不得不提到一个东西那就是「分词器」
分词器(Tokenizer):是将自然语言文本拆分为 Token 并将其映射为模型可理解的数字 ID的工具。
分词器和token关系
分词器负责生成 Token,并将其转化为数值,供模型使用。
模型训练和推理时,输入和输出的基本单位都是 Token。
总结:分词器 = 把文本变成 Token 的工具,Token 是模型理解和处理的基本单元。分词器的效率和准确性,直接影响模型的性能和效果。

工作流程图
流程整体对比
| 步骤 | 处理内容 | 示例 |
| 文本 | 原始输入文本 | "I love AI." |
| Token | 拆分成最小语言单元 | ['I', ' love', ' AI', '.'] |
| ID | 转换为数字 ID | [101, 2034, 4567, 102] |
| 处理 | 模型根据 ID 推理 | 生成新的 ID 序列 |
| 输出 Token | 解码为 Token | ['AI', ' is', ' amazing', '!'] |
| 文本 | 拼接成自然语言 | "AI is amazing!" |
蒸馏模型是什么?
蒸馏模型(Knowledge Distillation Model) 是一种模型压缩技术,通过将大型模型(教师模型,Teacher Model)的知识“转移”到一个更小、更轻量的模型(学生模型,Student Model),从而提升小模型的性能,同时减少其计算资源消耗。
通俗点解释就是在原有大模型基础上提取出来的小模型。Distill蒸馏意思,蒸馏出来的更小、清量、便捷。
为什么需要蒸馏模型?
大型模型(Teacher Model):虽然准确率高,但体积庞大、推理慢、部署成本高。
小型模型(Student Model):虽然轻量,但准确率可能不高。
模型蒸馏:将大型模型中的“知识”提取出来,教给小模型,使其在更小体积下,接近大型模型的性能。
例子 :本地部署Deepseek-R1-(满血)671B → Deepseek-R1-Distil-70B
| 模型 | 参数量 | 模型大小 | 速度 | 准确率 |
| DeepSeek-R1-671B | 6710 亿 | 超大 | 慢 | 极高 |
| DeepSeek-R1-Distill-Qwen-1.5B | 15 亿 | 小 | 快 | 较高 |
| DeepSeek-R1-Distill-Qwen-7B | 70 亿 | 中等 | 较快 | 高 |
| DeepSeek-R1-Distill-Llama-8B | 80 亿 | 中等 | 较快 | 高 |
| DeepSeek-R1-Distill-Qwen-14B | 140 亿 | 大 | 中等 | 很高 |
| DeepSeek-R1-Distill-Qwen-32B | 320 亿 | 较大 | 较慢 | 非常高 |
| DeepSeek-R1-Distill-Llama-70B | 700 亿 | 较大 | 较慢 | 非常高 |
类似于Lora模型一般是在一个底模下炼制出来,可能是58亿或者是120亿参数的大模型,一般在中小企业用不到,所以只需要在大模型基础上炼制一个小模型。一般用在垂直领域、医疗、出海等
参数是什么?
在大模型(如大型语言模型,LLM)中,参数(Parameters)是模型中可学习的权重值,用于定义模型如何处理和理解输入数据。
主要作用
权重和偏置:每个神经网络层中的神经元都有对应的权重(Weight)和偏置(Bias)。这些参数在训练过程中不断被调整,以最小化模型预测与实际结果之间的误差。
学习知识:模型通过大量的数据训练,将数据中的模式和规律“记忆”到这些参数中。参数越多,模型捕捉数据细节的能力通常越强。
规模越大,能力越强:一般来说,参数越多,模型的表达能力越强,能够处理更复杂的语言和任务。
计算资源和成本:参数多意味着模型体积更大,训练和推理需要更多的计算资源和时间。
大模型的参数是其核心学习元素,决定了模型的能力边界、性能表现和计算成本。更大的参数量通常意味着更强的模型能力,但也需要更高的硬件资源和优化策略。
举例
| 模型名称 | 参数量 | 特点 |
| GPT-2 Small | 1.17 亿 | 处理基础的文本生成任务,模型较小,速度快。 |
| GPT-3 | 1750 亿 | 支持多种复杂的语言理解和生成,性能强大但计算成本高。 |
| DeepSeek-R1 | 6710 亿 | 在数学、编码等复杂推理任务中表现突出,推理能力强。 |
| Distilled Model | 15 亿 | 通过知识蒸馏压缩后的模型,体积小,推理速度快,适合移动端部署。 |
思维链是什么,为什么那么难?
思维链(Chain of Thought,简称 CoT) 是一种提升大模型推理能力的技术,指引模型在回答复杂问题时,逐步展示中间推理步骤,而不仅仅给出最终答案。
重要性
在传统的模型推理中,模型通常直接给出答案,但面对逻辑推理、数学计算、复杂问答等问题时,单步回答容易出错。
思维链通过引导模型分步骤思考,可以:
提升准确率:逐步推理避免漏掉关键步骤,结果更准确。
增强可解释性:模型的推理过程透明,便于验证和优化。
降低计算成本:通过简化推理过程,减少错误和重复计算。
例子 :
问题:小明有 3 个苹果,他又买了 5 个苹果,然后吃掉了 2 个。请问他现在有多少个苹果?
普通回答:6 个。
思维链回答:
小明最初有 3 个苹果。
他又买了 5 个苹果,所以他现在有 3 + 5 = 8 个苹果。
他吃掉了 2 个苹果,所以剩下 8 - 2 = 6 个苹果。
答案:6 个。
目前市面上支持思维链的模型有哪些
| 模型名称 | 是否支持思维链 | 支持形式 | 优势特点 |
| GPT-4 | ✅ 支持 | 原生支持 CoT,具备多步骤推理能力 | 逻辑推理、数学、代码推理表现优秀,准确率高。 |
| Claude 3.7 | ✅ 支持 | 具备思维链和多模态推理能力 | 擅长复杂多步骤推理,表现接近人类水平。 |
| Gemini 2.0 | ✅ 支持 | 多模态支持,具备逻辑和数学推理能力 | 处理复杂多步骤任务,特别适合跨模态推理。 |
| DeepSeek-R1 | ✅ 支持 | 支持数学、逻辑和代码的思维链推理 | 数学推理和编码任务表现突出,能够逐步推导结论。 |
| 通义千问 Qwen | ✅ 支持 | 多语言支持,具备思维链推理能力 | 特别擅长中文语境下的逻辑推理和复杂问答。 |
| Llama 3 | ⚠️ 部分支持 | 需通过微调或特定提示进行 CoT 推理 | 通过优化 Prompt 可实现基础的思维链推理。 |
| Baidu ERNIE | ✅ 支持 | 支持思维链推理,尤其在中文场景表现良好 | 在中文知识推理和语义理解上具有优势。 |
| Mistral | ⚠️ 部分支持 | 需通过微调实现 | 轻量化模型,适合在资源受限的环境中实现基础推理。 |
原生支持:如 GPT-4、Claude 3、Gemini 1.5、DeepSeek-R1、通义千问,无需特别优化即可高效进行思维链推理。
部分支持:如 Llama 2、Mistral,需要通过提示优化或额外训练才能实现高效的思维链推理。
这里需要说一下,好多大模型是在DeepSeek开源后逐渐出的思维链。
结尾
以上就是作者本人所了解到的大模型的知识,在这个AI时代,应该多了解一些AI的知识。
下期再见👋🏻
