Token必须死:大语言模型的结构性天花板与AGI之路
哲学家维特根斯坦在1921年写下的那句名言——“我语言的局限,即意味着我世界的局限”(Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt)——在当时被用来讨论人类认知的边界,而一百年后的今天,这句话却精准地映射了大语言模型(LLM)所面临的结构性困境:如果AI的“语言”只能表现为离散的token序列,那么它所能感知、表达乃至推理的世界,也永远被局限在token所能覆盖的范围之内,这直接引出了一个困扰整个AI领域的老问题:依赖token的大语言模型范式,能否最终通向通用人工智能(AGI)?
在这一问题上,顶级学者的态度已然分化:2024年12月,OpenAI前首席科学家Ilya Sutskever在NeurIPS发表演讲时断言“预训练时代即将终结”,而2026年3月,图灵奖得主Yann LeCun离开Meta创办AMI Labs,明确表示“大语言模型路线存在根本性局限”。前者选择颠覆自己亲手开启的token预测时代,后者则继续践行世界模型路线,赌注直指“LLM的下一个时代”。这并非否定当前模型的实用性或商业价值,事实上,大模型的用户规模和市场渗透率仍在持续增长,其产业价值只会愈发庞大,但在技术路径上,他们传递的信息很明确:以token为核心的自回归大模型存在不可逾越的结构性天花板,这个天花板恰恰限制了它们通往AGI的可能性。
2026年5月,MIT何恺明团队与字节跳动Seed实验室几乎同时发布的论文,为这一结构性局限提供了明确的工程证据:语言生成核心的建模过程不必被禁锢在离散token空间,而是可以完全转移到连续的embedding或latent空间完成,最后仅在输出阶段映射回人类可读的文本。这意味着逐token预测仅是通向AGI的一种局部最优解,而连续空间范式则为探索更高天花板提供了可能。
如果以维特根斯坦的视角来看,人类语言本质上并非认知的原生格式。大脑的思维活动是连续的、高维的并行信号处理过程——当我们脑中浮现“苹果”时,被激活的不是token“苹果”本身,而是一整片感官皮层的连续活动模式,包含颜色、质感、重量,甚至咬下去的声音,这些信息在语言编码时被有损压缩成“苹果”两个字,只为跨个体交流而牺牲了大部分认知维度。人类语言本质上是一种进化设计的有损压缩协议,它是跨脑通信的工程妥协,而大语言模型基于token的自回归机制,本质上是在这种压缩协议的输出上进行建模,因此它极擅长模拟人类语言行为,但无法真正理解世界如何运作——它了解的是人类用符号序列描述世界的模式,而非世界本身的因果与物理规律。
这种局限在模拟身体感受、空间直觉、因果干预等方面尤为明显:疼痛、如何接球、推倒椅子的因果反馈,这些隐藏在连续认知空间的感受,从未被语言编码,也无法通过token学习获得,因此无论参数规模多大、数据量多庞大,token范式都无法触及这些维度,这就是其天花板所在。
然而,突破token范式的实验正在展开。何恺明团队的ELF(Embedded Language Flows)将文字生成全过程保留在连续向量空间,仅在最后一步映射为可读文本,采用Flow Matching从噪声平滑演化到目标嵌入,32步采样即可超过离散模型1024步生成质量,而训练数据量仅为主流方法的十分之一。字节跳动Seed实验室的Cola DLM则在潜在语义空间建模全局先验,再映射回文本,其扩散过程关注的是“潜在先验运输”而非token级观测恢复,显示出连续空间在scaling曲线上的健康与可扩展性。两者都证明了:token不是语言建模的必要条件,连续空间可以更高效、更优雅、更省算力。
科技巨头也在验证这一趋势。Google通过Gemini系列推进原生多模态统一,文本、图像、音频、视频在同一个3072维向量空间交错训练,实现模态之间无缝共享;OpenAI虽采取拼接式多模态路径,但正在将视觉、文本、视频深度整合到核心模型,等待更高效的统一架构成熟;字节Seed团队在Cola DLM论文中明确提出连续潜空间可实现离散文本与多模态的统一建模,并在工业规模视频生成中验证可行性。Anthropic则选择专注文本推理与代码执行,暂避多模态生成,尽管商业上成功,但若未来竞争核心转向统一连续空间理解和生成所有模态,其策略可能成为技术债。独立押注者Sutskever的SSI与LeCun的AMI Labs,分别从工程和哲学层面探索token之外的连续世界模型,前者赌下一个范式,后者强调预测物理后果而非生成逼真输出,两者共同昭示了token局限的终极现实。
如果token范式衰退,受影响最大的将是视频tokenizer公司及多模态中间层产品,它们赖以生存的商业逻辑——将连续信号压缩为离散token——将不再必要;同时按token计费的商业模式也将失效,因为连续生成模型输出长度与计算量脱钩,消耗token不再是成本的真实度量。
最终,回到最核心的问题:大语言模型能否通向AGI?从token范式的结构来看,答案是否定的,它在信息论上受限,无法还原被语言压缩丢弃的世界维度。但连续空间的探索提供了更高效的路径,ELF与Cola DLM证明了其潜力,而LeCun和Sutskever的实验则显示,要实现真正理解世界的AGI,还需要模型在连续空间中主动探索、承受反馈、进行递归自我改进(RSI),而不是仅仅在token序列上重复人类语言行为。换句话说,杀死tokenization可能只是AGI道路上的第一步,而后续能否走到终点,将取决于模型能否脱离压缩后的世界,通过行动与因果推理获得真正的认知信号。