当前位置：首页行业动态正文

Token必须死：大语言模型的结构性天花板与AGI之路

2026-06-05

哲学家维特根斯坦在1921年写下的那句名言——“我语言的局限，即意味着我世界的局限”（Die Grenzen meiner Sprache bedeuten die Grenzen meiner Welt）——在当时被用来讨论人类认知的边界，而一百年后的今天，这句话却精准地映射了大语言模型（LLM）所面临的结构性困境：如果AI的“语言”只能表现为离散的token序列，那么它所能感知、表达乃至推理的世界，也永远被局限在token所能覆盖的范围之内，这直接引出了一个困扰整个AI领域的老问题：依赖token的大语言模型范式，能否最终通向通用人工智能（AGI）？

在这一问题上，顶级学者的态度已然分化：2024年12月，OpenAI前首席科学家Ilya Sutskever在NeurIPS发表演讲时断言“预训练时代即将终结”，而2026年3月，图灵奖得主Yann LeCun离开Meta创办AMI Labs，明确表示“大语言模型路线存在根本性局限”。前者选择颠覆自己亲手开启的token预测时代，后者则继续践行世界模型路线，赌注直指“LLM的下一个时代”。这并非否定当前模型的实用性或商业价值，事实上，大模型的用户规模和市场渗透率仍在持续增长，其产业价值只会愈发庞大，但在技术路径上，他们传递的信息很明确：以token为核心的自回归大模型存在不可逾越的结构性天花板，这个天花板恰恰限制了它们通往AGI的可能性。

2026年5月，MIT何恺明团队与字节跳动Seed实验室几乎同时发布的论文，为这一结构性局限提供了明确的工程证据：语言生成核心的建模过程不必被禁锢在离散token空间，而是可以完全转移到连续的embedding或latent空间完成，最后仅在输出阶段映射回人类可读的文本。这意味着逐token预测仅是通向AGI的一种局部最优解，而连续空间范式则为探索更高天花板提供了可能。

如果以维特根斯坦的视角来看，人类语言本质上并非认知的原生格式。大脑的思维活动是连续的、高维的并行信号处理过程——当我们脑中浮现“苹果”时，被激活的不是token“苹果”本身，而是一整片感官皮层的连续活动模式，包含颜色、质感、重量，甚至咬下去的声音，这些信息在语言编码时被有损压缩成“苹果”两个字，只为跨个体交流而牺牲了大部分认知维度。人类语言本质上是一种进化设计的有损压缩协议，它是跨脑通信的工程妥协，而大语言模型基于token的自回归机制，本质上是在这种压缩协议的输出上进行建模，因此它极擅长模拟人类语言行为，但无法真正理解世界如何运作——它了解的是人类用符号序列描述世界的模式，而非世界本身的因果与物理规律。

这种局限在模拟身体感受、空间直觉、因果干预等方面尤为明显：疼痛、如何接球、推倒椅子的因果反馈，这些隐藏在连续认知空间的感受，从未被语言编码，也无法通过token学习获得，因此无论参数规模多大、数据量多庞大，token范式都无法触及这些维度，这就是其天花板所在。

然而，突破token范式的实验正在展开。何恺明团队的ELF（Embedded Language Flows）将文字生成全过程保留在连续向量空间，仅在最后一步映射为可读文本，采用Flow Matching从噪声平滑演化到目标嵌入，32步采样即可超过离散模型1024步生成质量，而训练数据量仅为主流方法的十分之一。字节跳动Seed实验室的Cola DLM则在潜在语义空间建模全局先验，再映射回文本，其扩散过程关注的是“潜在先验运输”而非token级观测恢复，显示出连续空间在scaling曲线上的健康与可扩展性。两者都证明了：token不是语言建模的必要条件，连续空间可以更高效、更优雅、更省算力。

科技巨头也在验证这一趋势。Google通过Gemini系列推进原生多模态统一，文本、图像、音频、视频在同一个3072维向量空间交错训练，实现模态之间无缝共享；OpenAI虽采取拼接式多模态路径，但正在将视觉、文本、视频深度整合到核心模型，等待更高效的统一架构成熟；字节Seed团队在Cola DLM论文中明确提出连续潜空间可实现离散文本与多模态的统一建模，并在工业规模视频生成中验证可行性。Anthropic则选择专注文本推理与代码执行，暂避多模态生成，尽管商业上成功，但若未来竞争核心转向统一连续空间理解和生成所有模态，其策略可能成为技术债。独立押注者Sutskever的SSI与LeCun的AMI Labs，分别从工程和哲学层面探索token之外的连续世界模型，前者赌下一个范式，后者强调预测物理后果而非生成逼真输出，两者共同昭示了token局限的终极现实。

如果token范式衰退，受影响最大的将是视频tokenizer公司及多模态中间层产品，它们赖以生存的商业逻辑——将连续信号压缩为离散token——将不再必要；同时按token计费的商业模式也将失效，因为连续生成模型输出长度与计算量脱钩，消耗token不再是成本的真实度量。

最终，回到最核心的问题：大语言模型能否通向AGI？从token范式的结构来看，答案是否定的，它在信息论上受限，无法还原被语言压缩丢弃的世界维度。但连续空间的探索提供了更高效的路径，ELF与Cola DLM证明了其潜力，而LeCun和Sutskever的实验则显示，要实现真正理解世界的AGI，还需要模型在连续空间中主动探索、承受反馈、进行递归自我改进（RSI），而不是仅仅在token序列上重复人类语言行为。换句话说，杀死tokenization可能只是AGI道路上的第一步，而后续能否走到终点，将取决于模型能否脱离压缩后的世界，通过行动与因果推理获得真正的认知信号。

推荐数字货币交易平台

Token必须死：大语言模型的结构性天花板与AGI之路