上下文窗口是什么?AI的短期记忆到底有多长
戳到痛点了,这种情况我每天都被问。其实你可以把AI想象成一个在有限工作台面上干活的人。台面上能铺开的资料就那么多,多了只能收走旧的,摆上新的。而这个台面的大小,就是上下文窗口——AI在生成每个字时,能同时"看到"的最大文本量。
打个比方,你写方案时桌上有需求文档、竞品分析、聊天记录……但桌面就1米宽,放不下就会把最开始的几页给弄掉。AI一样,当对话太长,超出窗口上限,最早的那些内容就会被"遗忘",不是它笨,是它真的看不见了。
这个上限用token计量,token不直接等于字数,中文里1个汉字大概1~2个token不等。早期的模型只有4K,现在可不一样了:GPT‑5.5 支持256K,Gemini 3 Ultra 直接干到200万token。128K能装下一本普通小说,200万token能吞下《三体》三部曲还有剩。不过老实说,很多人以为上下文越长AI就越聪明,其实是个大坑——长上下文模型容易"分心",准确率往下掉,而且真的贵。
行,我给你列个表就清楚了。128K token对中文来说差不多10万~12万汉字,够塞进一整本《刺杀骑士团长》。200万token扔进去,能装下《红楼梦》三遍或者一整套技术手册。
| 模型 | 最大上下文窗口 | 大约可装中文内容 |
|---|---|---|
| GPT‑5.5 | 256K Token | 约20万汉字,一本《百年孤独》 |
| Gemini 3 Ultra | 2,000,000 token | 约160万汉字,一整套技术书籍 |
| Claude Opus 4.7 | 500K token | 约40万汉字,四本普通小说 |
| Kimi K3 | 200K token | 约16万汉字 |
中文token化规则有点迷:常见字像"的"可能1个token,生僻字像"齉"可能拆成好几个,实际用下来大致按1 token ≈ 0.8~1.2汉字估算就行。
200万token什么概念?做法律尽调时,能把整份转让协议、财务报表、邮件往来一口气喂进去,让它直接输出风险点。之前我们团队实测过,把一份200页的PDF扔给Gemini 3 Ultra总结,它确实能全局抓住矛盾条款,比人工快几十倍——但价格嘛,后面说。
没错,它就是草稿纸,不是硬盘。很多人以为对话历史能被AI永远记住,其实它只是临时放在工作台上,下次新对话就得重新铺开。所以你那些反复解释的需求,是被收走旧稿纸了。
至于烧钱——确实。输入token的定价是按窗口使用量走的。拿Gemini 3 Ultra举例,处理100万token输入大约3美元,听着不贵,但如果每次对话都塞一整本百科全书,账单会很好看。更坑的是,长上下文下模型的准确率会下降,经常漏掉中间的信息,你花了钱还得自己复核。
所以我踩过的坑总结一句:除非是审超长合同、全文翻译整本手册,日常写方案128K绰绰有余。能用RAG(先检索再扔片段)就别硬塞全文,省钱还更准。下次你写方案,可以把背景资料分段喂,别指望它一次记住所有。