今日概览

  • 离散token是LLM的架构天花板而非优化目标,综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。
  • Agent技能用RL内化进参数比检索注入更强:SKILL0的渐进撤除课程在ALFWorld上提升9.7%,推理时每步上下文不到500 token。
  • 3A游戏引擎是生成式渲染被忽视的数据金矿——400万帧同步RGB+G-buffer数据,微调后的模型在跨数据集泛化上明显领先。
  • 视觉特征可以用文本提示实时转向。在ViT编码层内注入交叉注意力,异常检测等任务零样本泛化,通用能力不退化。

重点关注

模型架构 LLM的核心计算正在离开token空间

离散token是当前LLM的基本操作单元,但越来越多的证据表明,它同时也是能力天花板。这篇综述系统梳理了一个正在发生的迁移:模型内部的关键计算——推理、规划、记忆、多模态感知——正在从人类可读的token序列转向连续的latent space(潜在空间)。驱动这个迁移的不是某个单点突破,而是离散化本身的结构性限制:语言冗余导致信息密度低,token化造成压缩损失,自回归的逐token生成带来序列效率瓶颈。这些不是可以通过更好的tokenizer或更大的模型解决的问题,而是架构层面的天花板。综述从架构、表示、计算、优化四条技术线索追踪了这个趋势的演进,并展示了latent space在推理、规划、建模等七个能力维度上的进展。值得注意的是,这不只是学术界的探索——当Coconut(连续思维链)、latent reasoning等方向开始在大规模模型上验证,token空间作为默认计算基底的假设正在被动摇。对从业者而言,关键判断点在于:你当前的推理和训练框架是否仍然默认在token级别操作,这可能决定了系统能力的上限。

要点: 离散token的瓶颈不是优化问题而是架构天花板,latent space正成为LLM核心计算的替代基底;推理、规划、记忆等能力在连续空间中展现出更好的扩展性;选择推理/训练框架时需要评估其是否仍锁定在token-level操作上

原文:The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook


Agent 技能靠检索注入,不如直接练进脑子里?

当前Agent扩展技能的主流做法本质上是RAG——检索技能描述,注入prompt,模型照着做。但检索有噪声,注入吃token,而且模型从未真正学会这些技能,只是在照本宣科。SKILL0问了一个更根本的问题:能不能用RL把技能直接内化进参数?它设计了一个渐进撤除课程——训练初期给完整技能上下文,随后动态评估每个技能文件对当前策略的帮助,逐步撤掉已经学会的部分,直到模型完全零样本运行。ALFWorld提升9.7%,Search-QA提升6.6%,推理时每步上下文不到500个token——这是fine-tuning vs RAG在agent领域的一次正面交锋,结果站在了内化这边。

要点: 技能内化将agent能力构建从「运行时检索」转向「训练时学习」,本质上是换了一种能力获取范式;渐进撤除课程动态评估每个技能的帮助度,解决了直接去掉上下文训练就崩的问题;推理时token开销大幅降低,对agent实际部署的成本控制有直接价值

原文:SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization


视频生成 训练生成式渲染,最好的数据集藏在游戏里

做逆渲染和正向渲染的人都知道,合成数据集和真实场景之间永远隔着一条domain gap。但这个团队的解法让人没想到:直接从3A游戏里抽数据。想想也合理——游戏引擎已经花了几十年解决复杂光照、动态天气、运动模糊这些问题,渲染质量早就超过了学术界的合成数据集。他们用一种双屏拼接采集方法,从游戏中提取了400万帧连续的720p画面,每帧同步包含RGB和5个G-buffer通道(法线、深度、材质等)。用这批数据微调的逆渲染模型在跨数据集泛化上明显优于现有方案,还能通过G-buffer引导做可控视频生成。更有意思的是他们还提出了一个基于VLM的评估协议,解决了真实场景下没有ground truth的评测难题。

要点: 3A游戏作为渲染数据源,绕过了合成数据集的domain gap问题;400万帧同步RGB+G-buffer数据的规模和质量是学术合成数据集难以企及的;数据策略的突破有时比模型创新更能推动领域进展

原文:Generative World Renderer


多模态 视觉特征能不能按需「转向」?

做图像检索或异常检测时,你经常需要模型关注特定属性——比如关注纹理而不是形状,但现有的视觉编码器只给你「最显著」的特征,没有调控余地。用文本引导是个自然的想法,CLIP的做法是编码后再融合,代价是空间精度打折。这篇工作把融合提前了:在ViT编码器的中间层注入轻量级交叉注意力,让文本提示直接影响视觉特征的提取过程。结果是视觉表征变得「可转向」,在异常检测和个性化物体区分上做到了和专用方法持平或更好,同时通用视觉任务的基础能力没有退化。

要点: 早期融合(编码层内注入文本)比后期融合保留更多空间信息,这是关键设计选择;异常检测和物体区分任务展现零样本泛化,说明可转向性不是靠任务微调换来的;做检索、分割等需要语义可控视觉特征的团队值得跟进

原文:Steerable Visual Representations

也值得关注

  • {多模态} 在latent空间做跨模态交叉推理 — 避免把视觉内容翻译成文本的信息损失。LatentUM
  • {Agent} 多个LLM agent自主探索、反思、协作解决开放性问题 — 不再依赖硬编码的搜索规则。CORAL
  • {图像生成} 用近似身份干扰项消除视觉编码器对背景依赖 — 让身份表征真正聚焦于对象本身。NearID
  • {视频生成} 视频擦除不只是填补空白 — 当被移除对象有物理交互时,需要重新推理整个场景的因果链。VOID
  • {机器人} 自动驾驶VLA的空间感知与语义推理两难 — 尝试在一个框架内统一两者。UniDriveVLA
  • {安全对齐} 用3D纹理做对抗攻击面 — 比2D贴片更接近真实部署场景,对VLA模型的鲁棒性敲响警钟。Tex3D
  • {图像生成} 用2D生成能力弥补3D数据稀缺 — 统一文本到2D和3D生成的基础模型。Omni123
  • {推理} 基于图结构自动合成跨模态多跳推理数据 — 弥补现有多模态基准的单图局限。CRIT
  • {多模态} 单次前向传播处理任意分辨率图像 — 让ViT在密集预测任务上不再受预训练分辨率约束。SPAR
  • {评测} 用视觉谜语测试视觉推理 — 当图片只是线索而非答案时,现有模型的认知能力断崖式下降。RebusBench

今日观察

今天的latent space综述、LatentUM和SKILL0表面上分属不同子领域,但它们共同暴露了同一个结构性问题:显式中间表示在系统规模增大时,从信息载体退化为信息瓶颈。

综述论证的核心不是「latent space很有潜力」,而是离散token作为计算基底存在结构性上限——语言冗余、压缩损失、序列效率瓶颈,这些问题的根源在离散化本身,不可能通过更好的tokenizer消除。LatentUM在跨模态推理中绕过了「先把图像描述成文本再推理」的默认路径,直接在latent空间完成视觉与语言的交叉推理。SKILL0则把agent技能从「检索文档→注入prompt→模型照做」的RAG模式,转向「训练时内化进参数→推理时零样本调用」。

这三个方向同时出现不是巧合,因为它们面对的是同一类瓶颈:当模型需要处理的信息复杂度超过显式表示的承载能力时,中间转译层就成了损耗源。token承载不了推理所需的全部信息密度,文本描述承载不了视觉内容的空间细节,技能文档承载不了agent在复杂环境中的行为模式。而当模型能力足以直接在连续空间操作时,这些显式中间层就从「必要桥梁」退化为「不必要的信息漏斗」。

这并不意味着显式表示会消失——人类仍然需要可读的输出。但「先转成人类可读形式再计算」的默认假设正在被修正为「内部用连续空间计算,只在输入输出端口做离散化」。这个修正的方向是一致的:把显式表示从计算路径中移除,保留在接口层。

行动建议:审视你当前系统中的显式中间表示——token-level推理链、文本化的检索结果、prompt注入的工具说明。区分哪些是面向人类的可解释性接口(必须保留),哪些只是「因为我们一直这么做」的架构惯性。后者是最直接的优化空间,从推理成本到信息保真度都有改善余地。