Scaling Law是什么？为什么AI公司都在堆算力

Q: 等等，那大公司拼命堆显卡不就稳赢了？但为啥最近又听人说Scaling Law失效了，GPT-5.5好像也没比GPT-5强多少啊？

很多人以为Scaling Law就是一路堆参数永远有效，其实它分阶段，预训练Scaling在2024年前后确实遇到了瓶颈。你想啊，当你把GPT-4的规模再扩大10倍，结果发现回答还是那副老样子，偶尔还犯蠢，收益在递减。但等等，我前面那句话不太准——准确说不是‘没效果’，而是收益递减到不如换个方法划算了。于是行业转向了推理时Scaling。以前我们比的是训练时谁花钱多，现在比的是推理时谁‘思考’得深。像OpenAI o4、Claude 4.7 Thinking、DeepSeek R2这些模型，回答前会在黑盒里生成很长的思维链，一步步推导，消耗的推理算力更多，但效果反而跳上去了。这就是为什么现在公司依旧疯狂买GPU，只是从前堆在训练侧，现在分了一大块给推理侧。

Q: 推理时Scaling？听着像让AI多想一会儿？那这不就是‘慢思考’呗？和我们产品经理需求有关系吗？

你类比得很准。打个比方：预训练Scaling相当于你考前拼命往脑子里塞知识，推理时Scaling就是考试时允许你多打草稿、多检查。两个都能提分，但后者对逻辑难题特别有效。举个例子，同样一个数学题，直接抛给通用模型可能一顿胡扯，但如果你让DeepSeek R2‘深呼吸，一步步思考’，它会花十几秒生成推理链，准确率碾压。这种模式直接影响产品设计：以后我们看AI，不光看它‘知道多少’，还要看它的推理算力预算。很多AI应用已经开始允许用户调节‘思考深度’，就像切换省电模式和高性能模式。预训练Scaling推理时Scaling花钱阶段训练时推理时提升方式扩大模型、数据、算力延长思考步骤、自反思典型模型GPT-5.5, Claude Opus 4.7o4, DeepSeek R2算力分配固定成本高每次调用成本变动所以你下次写prompt，遇到复杂问题可以试试‘请你分步骤推演，确保每一步都合理’，这其实就是手动在调用推理时Scaling的能力。

2026-06-04 · 阅读 30 · 1531 字 · ⏱️ 预计5 分钟读完

老D，最近我在几个AI群里总看到‘Scaling Law’这个词，说AI就是越大越好？听着跟玄学似的，这玩意到底是什么啊？

说白了，Scaling Law就是AI界发现的一条经验规律：当你同时给模型塞更多数据、扩大参数规模、投入更多算力时，它的性能会可预测地提升。打个比方，就像做菜——食材越多、锅越大、火越旺，理论上做出来的菜更可能好吃。只不过AI的‘好吃’是能写诗、能编程、能推理。

这个概念的里程碑是OpenAI在2020年那篇经典论文，他们发现模型的测试损失（可以理解为错误率）和计算量、参数量、数据量之间存在光滑的幂律关系。后来Dario Amodei（Anthropic创始人）和DeepMind也验证了类似规律，于是各家开始相信：只要砸足够多算力，模型就能变强。这也是为什么从GPT-4到GPT-5.5，参数量翻倍再翻倍，训练一次电费数亿美元。

等等，那大公司拼命堆显卡不就稳赢了？但为啥最近又听人说Scaling Law失效了，GPT-5.5好像也没比GPT-5强多少啊？

很多人以为Scaling Law就是一路堆参数永远有效，其实它分阶段，预训练Scaling在2024年前后确实遇到了瓶颈。你想啊，当你把GPT-4的规模再扩大10倍，结果发现回答还是那副老样子，偶尔还犯蠢，收益在递减。但等等，我前面那句话不太准——准确说不是‘没效果’，而是收益递减到不如换个方法划算了。

于是行业转向了推理时Scaling。以前我们比的是训练时谁花钱多，现在比的是推理时谁‘思考’得深。像OpenAI o4、Claude 4.7 Thinking、DeepSeek R2这些模型，回答前会在黑盒里生成很长的思维链，一步步推导，消耗的推理算力更多，但效果反而跳上去了。这就是为什么现在公司依旧疯狂买GPU，只是从前堆在训练侧，现在分了一大块给推理侧。

推理时Scaling？听着像让AI多想一会儿？那这不就是‘慢思考’呗？和我们产品经理需求有关系吗？

你类比得很准。打个比方：预训练Scaling相当于你考前拼命往脑子里塞知识，推理时Scaling就是考试时允许你多打草稿、多检查。两个都能提分，但后者对逻辑难题特别有效。

举个例子，同样一个数学题，直接抛给通用模型可能一顿胡扯，但如果你让DeepSeek R2‘深呼吸，一步步思考’，它会花十几秒生成推理链，准确率碾压。这种模式直接影响产品设计：以后我们看AI，不光看它‘知道多少’，还要看它的推理算力预算。很多AI应用已经开始允许用户调节‘思考深度’，就像切换省电模式和高性能模式。

	预训练Scaling	推理时Scaling
花钱阶段	训练时	推理时
提升方式	扩大模型、数据、算力	延长思考步骤、自反思
典型模型	GPT-5.5, Claude Opus 4.7	o4, DeepSeek R2
算力分配	固定成本高	每次调用成本变动

所以你下次写prompt，遇到复杂问题可以试试‘请你分步骤推演，确保每一步都合理’，这其实就是手动在调用推理时Scaling的能力。

🔑 一句话记住：Scaling Law是AI能力随规模可预测提升的规律，但已经从‘训练时更大’转向‘推理时更慢更深’。那像我平时用DeepSeek V4，也需要等它思考很久吗？

DeepSeek V4作为通用旗舰，默认不会开启那种超长思维链（那是R2的特长），但你可以主动引导：在问题末尾加一句‘请逐步推理’，它会自动分配更多算力去思考。想横向对比不同模型的推理能力，可以去小白学院的大模型排行榜看看大模型排行榜，上面有各家模型在复杂推理任务上的实测表现。讲真，现在选模型就跟选车一样，不能光看排量（参数量），还得看油耗（推理效率）和驾驶模式（是否支持深度推理）。