OpenAI的o1与o1-mini

近几天,OpenAI推出的o1模型引发了业界广泛讨论。虽然具体路径不详,不过很多人推测o1可能在推理过程中默认包含了CoT (Chain of Thought)的处理,甚至推测用到了多重agent。

除此之外,OpenAI还同时发布了o1-mini。这个小模型同样不可忽视,o1-mini在AIME数学竞赛中取得超过60%的成绩,这对于小模型来讲是一个新的纪录。

Andrej Karpathy与10亿参数小模型

而当前o1-mini达到的水平,刚好也印证了Andrej Karpathy对小模型能力的判断。

Karpathy 在 No Priors 9月5号的播客里提到,他认为目前的大模型浪费了很多容量去记忆并不重要的东西,而最重要的部分即认知核心(cognitive core)也许只需要1 billion左右的参数就够了。

简而言之,Karpathy认为其实10亿参数的小模型,就可以实现很好的性能。

推理优化与斯坦福, DeepmInd和Scale AI

与以上两部分相关的,还有三篇近期关于推理优化的重要论文。

在最近一两个月内,来自Stanford, DeepMind和Scale AI等顶尖学界和业界机构的研究者相继发表了三篇重要论文,都验证了在LLM的推理阶段增加计算量以提升性能的可行性。

这三篇论文分别是:

[1] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling

[2] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

[3] Planning In Natural Language Improves LLM Search For Code Generation

分别由Stanford, DeepMind和Scale AI主导研究,先后于今年7月、8月、9月发布。

这三篇论文的共同点是,都探讨了优化大语言模型推理阶段的计算策略。

第一篇聚焦于增加采样次数,第二篇提出了自适应的"计算最优"扩展方法,而第三篇则引入了基于自然语言规划的结构化搜索算法PLANSEARCH。

这些研究均发现,通过优化推理阶段的计算策略,较小的模型可以在某些任务上达到或超越大型模型的性能,同时保持较低成本。

[1] 的研究验证了,在SWE-bench Lite数据集上,使用DeepSeek-V2-Coder-Instruct模型进行250次采样,解决问题的比例从单次采样的15.9%增加到56%,超过了单次尝试的最佳水平43%。此外,使用当前API定价,用5个样本来增强更便宜的DeepSeek模型,比为GPT-4或Claude 3.5 Sonnet的1个样本支付高价更具成本效益,并能解决更多问题。

[2] 提出了一种"计算最优"扩展策略,该策略能够根据提示的难度自适应地分配测试时间计算。使用这种策略,可以将测试时间计算扩展的效率提高4倍以上,相比最佳N基线。在匹配FLOPs的评估中,研究发现在较小基础模型能获得某种程度非平凡成功率的问题上,测试时间计算可以用来超越14倍大的模型。

[3] 提出了PLANSEARCH,这是一种新颖的搜索算法,通过在自然语言中搜索解决问题的计划而不是直接搜索代码解决方案。在Claude 3.5 Sonnet之上使用PLANSEARCH在LiveCodeBench上达到了77.0%的最先进pass@200,超过了无搜索达到的最佳分数(pass@1 = 41.4%)和使用标准重复采样(pass@200 = 60.6%)。研究还发现,可以准确地预测由搜索带来的性能提升,这是生成想法多样性的直接函数。

小模型 + 推理优化 > 大模型?

综合来看,OpenAI o1在推理阶段被推测引入的CoT乃至多agent策略,o1-mini作为小模型本身的强大能力,Andrej Karpathy对10亿参数小模型能力的笃信,以及这三篇论文对三种优化推理阶段的计算策略的验证,这些意味着什么呢?

这其实是说,过去大家提升模型能力的方式,普遍是通过训练阶段增加计算量,也就是增加模型大小或者增加训练数据量。

而现在,我们可以明确地知道,提升模型能力的路径不再仅限于增加训练阶段的计算量,小模型自身以及优化推理阶段的计算策略,都具备提升模型性能的可行性。

进一步地,作为AI生态内的创业公司来讲,通过结合小模型+推理优化以代替大模型的新思路,企业便可以更低的成本、更高的性价比来为客户提供AI服务。

Source

  1. OpenAI. (2024). Introducing OpenAI O1 Preview. OpenAI. https://openai.com/index/introducing-openai-o1-preview/
  2. Wei, J. [@_jasonwei]. (2024, September 13). [Tweet]. X. https://x.com/_jasonwei/status/1834371337470750856
  3. No Priors. (2024, September 5). No priors ep. 80 | With Andrej Karpathy from OpenAI and Tesla (No. 80) [Video]. YouTube. https://www.youtube.com/watch?v=hM_h0UA7upI
  4. Brown, B., et al. (2024). Large language monkeys: Scaling inference compute with repeated sampling. arXiv. https://arxiv.org/abs/2407.21787
  5. Snell, C., et al. (2024). Scaling LLM test-time compute optimally can be more effective than scaling model parameters. arXiv. https://arxiv.org/abs/2408.03314
  6. Wang, E., et al. (2024). Planning in natural language improves LLM search for code generation. arXiv. https://arxiv.org/abs/2409.03733
  7. Swebench. (n.d.). SWE-bench Lite. Retrieved September 14, 2024, from https://www.swebench.com/lite.html
  8. Hugging Face. (n.d.). DeepSeek-Coder-V2-Instruct. Retrieved September 14, 2024, from https://huggingface.co/deepseek-ai/DeepSeek-Coder-V2-Instruct