Scaling Law是什么?为什么AI公司都在堆算力
说白了,Scaling Law就是AI界发现的一条经验规律:当你同时给模型塞更多数据、扩大参数规模、投入更多算力时,它的性能会可预测地提升。打个比方,就像做菜——食材越多、锅越大、火越旺,理论上做出来的菜更可能好吃。只不过AI的‘好吃’是能写诗、能编程、能推理。
这个概念的里程碑是OpenAI在2020年那篇经典论文,他们发现模型的测试损失(可以理解为错误率)和计算量、参数量、数据量之间存在光滑的幂律关系。后来Dario Amodei(Anthropic创始人)和DeepMind也验证了类似规律,于是各家开始相信:只要砸足够多算力,模型就能变强。这也是为什么从GPT-4到GPT-5.5,参数量翻倍再翻倍,训练一次电费数亿美元。
很多人以为Scaling Law就是一路堆参数永远有效,其实它分阶段,预训练Scaling在2024年前后确实遇到了瓶颈。你想啊,当你把GPT-4的规模再扩大10倍,结果发现回答还是那副老样子,偶尔还犯蠢,收益在递减。但等等,我前面那句话不太准——准确说不是‘没效果’,而是收益递减到不如换个方法划算了。
于是行业转向了推理时Scaling。以前我们比的是训练时谁花钱多,现在比的是推理时谁‘思考’得深。像OpenAI o4、Claude 4.7 Thinking、DeepSeek R2这些模型,回答前会在黑盒里生成很长的思维链,一步步推导,消耗的推理算力更多,但效果反而跳上去了。这就是为什么现在公司依旧疯狂买GPU,只是从前堆在训练侧,现在分了一大块给推理侧。
你类比得很准。打个比方:预训练Scaling相当于你考前拼命往脑子里塞知识,推理时Scaling就是考试时允许你多打草稿、多检查。两个都能提分,但后者对逻辑难题特别有效。
举个例子,同样一个数学题,直接抛给通用模型可能一顿胡扯,但如果你让DeepSeek R2‘深呼吸,一步步思考’,它会花十几秒生成推理链,准确率碾压。这种模式直接影响产品设计:以后我们看AI,不光看它‘知道多少’,还要看它的推理算力预算。很多AI应用已经开始允许用户调节‘思考深度’,就像切换省电模式和高性能模式。
| 预训练Scaling | 推理时Scaling | |
|---|---|---|
| 花钱阶段 | 训练时 | 推理时 |
| 提升方式 | 扩大模型、数据、算力 | 延长思考步骤、自反思 |
| 典型模型 | GPT-5.5, Claude Opus 4.7 | o4, DeepSeek R2 |
| 算力分配 | 固定成本高 | 每次调用成本变动 |
所以你下次写prompt,遇到复杂问题可以试试‘请你分步骤推演,确保每一步都合理’,这其实就是手动在调用推理时Scaling的能力。
DeepSeek V4作为通用旗舰,默认不会开启那种超长思维链(那是R2的特长),但你可以主动引导:在问题末尾加一句‘请逐步推理’,它会自动分配更多算力去思考。想横向对比不同模型的推理能力,可以去小白学院的大模型排行榜看看大模型排行榜,上面有各家模型在复杂推理任务上的实测表现。讲真,现在选模型就跟选车一样,不能光看排量(参数量),还得看油耗(推理效率)和驾驶模式(是否支持深度推理)。