Scaling Law是什么?为什么AI公司都在堆算力

2026-06-04 · 阅读 30 · 1531 字 · ⏱️ 预计5 分钟读完

老D,最近我在几个AI群里总看到‘Scaling Law’这个词,说AI就是越大越好?听着跟玄学似的,这玩意到底是什么啊?

说白了,Scaling Law就是AI界发现的一条经验规律:当你同时给模型塞更多数据、扩大参数规模、投入更多算力时,它的性能会可预测地提升。打个比方,就像做菜——食材越多、锅越大、火越旺,理论上做出来的菜更可能好吃。只不过AI的‘好吃’是能写诗、能编程、能推理。

这个概念的里程碑是OpenAI在2020年那篇经典论文,他们发现模型的测试损失(可以理解为错误率)和计算量、参数量、数据量之间存在光滑的幂律关系。后来Dario Amodei(Anthropic创始人)和DeepMind也验证了类似规律,于是各家开始相信:只要砸足够多算力,模型就能变强。这也是为什么从GPT-4到GPT-5.5,参数量翻倍再翻倍,训练一次电费数亿美元。

等等,那大公司拼命堆显卡不就稳赢了?但为啥最近又听人说Scaling Law失效了,GPT-5.5好像也没比GPT-5强多少啊?

很多人以为Scaling Law就是一路堆参数永远有效,其实它分阶段,预训练Scaling在2024年前后确实遇到了瓶颈。你想啊,当你把GPT-4的规模再扩大10倍,结果发现回答还是那副老样子,偶尔还犯蠢,收益在递减。但等等,我前面那句话不太准——准确说不是‘没效果’,而是收益递减到不如换个方法划算了。

于是行业转向了推理时Scaling。以前我们比的是训练时谁花钱多,现在比的是推理时谁‘思考’得深。像OpenAI o4、Claude 4.7 Thinking、DeepSeek R2这些模型,回答前会在黑盒里生成很长的思维链,一步步推导,消耗的推理算力更多,但效果反而跳上去了。这就是为什么现在公司依旧疯狂买GPU,只是从前堆在训练侧,现在分了一大块给推理侧。

推理时Scaling?听着像让AI多想一会儿?那这不就是‘慢思考’呗?和我们产品经理需求有关系吗?

你类比得很准。打个比方:预训练Scaling相当于你考前拼命往脑子里塞知识,推理时Scaling就是考试时允许你多打草稿、多检查。两个都能提分,但后者对逻辑难题特别有效。

举个例子,同样一个数学题,直接抛给通用模型可能一顿胡扯,但如果你让DeepSeek R2‘深呼吸,一步步思考’,它会花十几秒生成推理链,准确率碾压。这种模式直接影响产品设计:以后我们看AI,不光看它‘知道多少’,还要看它的推理算力预算。很多AI应用已经开始允许用户调节‘思考深度’,就像切换省电模式和高性能模式。

预训练Scaling推理时Scaling
花钱阶段训练时推理时
提升方式扩大模型、数据、算力延长思考步骤、自反思
典型模型GPT-5.5, Claude Opus 4.7o4, DeepSeek R2
算力分配固定成本高每次调用成本变动

所以你下次写prompt,遇到复杂问题可以试试‘请你分步骤推演,确保每一步都合理’,这其实就是手动在调用推理时Scaling的能力。

🔑 一句话记住:Scaling Law是AI能力随规模可预测提升的规律,但已经从‘训练时更大’转向‘推理时更慢更深’。那像我平时用DeepSeek V4,也需要等它思考很久吗?

DeepSeek V4作为通用旗舰,默认不会开启那种超长思维链(那是R2的特长),但你可以主动引导:在问题末尾加一句‘请逐步推理’,它会自动分配更多算力去思考。想横向对比不同模型的推理能力,可以去小白学院的大模型排行榜看看大模型排行榜,上面有各家模型在复杂推理任务上的实测表现。讲真,现在选模型就跟选车一样,不能光看排量(参数量),还得看油耗(推理效率)和驾驶模式(是否支持深度推理)。