400万游戏帧练渲染，技能内化胜过检索

今日概览

离散token是LLM的架构天花板而非优化目标，综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。
Agent技能用RL内化进参数比检索注入更强：SKILL0的渐进撤除课程在ALFWorld上提升9.7%，推理时每步上下文不到500 token。
3A游戏引擎是生成式渲染被忽视的数据金矿——400万帧同步RGB+G-buffer数据，微调后的模型在跨数据集泛化上明显领先。
视觉特征可以用文本提示实时转向。在ViT编码层内注入交叉注意力，异常检测等任务零样本泛化，通用能力不退化。

重点关注

模型架构 LLM的核心计算正在离开token空间

离散token是当前LLM的基本操作单元，但越来越多的证据表明，它同时也是能力天花板。这篇综述系统梳理了一个正在发生的迁移：模型内部的关键计算——推理、规划、记忆、多模态感知——正在从人类可读的token序列转向连续的latent space（潜在空间）。驱动这个迁移的不是某个单点突破，而是离散化本身的结构性限制：语言冗余导致信息密度低，token化造成压缩损失，自回归的逐token生成带来序列效率瓶颈。这些不是可以通过更好的tokenizer或更大的模型解决的问题，而是架构层面的天花板。综述从架构、表示、计算、优化四条技术线索追踪了这个趋势的演进，并展示了latent space在推理、规划、建模等七个能力维度上的进展。值得注意的是，这不只是学术界的探索——当Coconut（连续思维链）、latent reasoning等方向开始在大规模模型上验证，token空间作为默认计算基底的假设正在被动摇。对从业者而言，关键判断点在于：你当前的推理和训练框架是否仍然默认在token级别操作，这可能决定了系统能力的上限。

要点： 离散token的瓶颈不是优化问题而是架构天花板，latent space正成为LLM核心计算的替代基底；推理、规划、记忆等能力在连续空间中展现出更好的扩展性；选择推理/训练框架时需要评估其是否仍锁定在token-level操作上

原文：The Latent Space: Foundation, Evolution, Mechanism, Ability, and Outlook

Agent 技能靠检索注入，不如直接练进脑子里？

当前Agent扩展技能的主流做法本质上是RAG——检索技能描述，注入prompt，模型照着做。但检索有噪声，注入吃token，而且模型从未真正学会这些技能，只是在照本宣科。SKILL0问了一个更根本的问题：能不能用RL把技能直接内化进参数？它设计了一个渐进撤除课程——训练初期给完整技能上下文，随后动态评估每个技能文件对当前策略的帮助，逐步撤掉已经学会的部分，直到模型完全零样本运行。ALFWorld提升9.7%，Search-QA提升6.6%，推理时每步上下文不到500个token——这是fine-tuning vs RAG在agent领域的一次正面交锋，结果站在了内化这边。

要点： 技能内化将agent能力构建从「运行时检索」转向「训练时学习」，本质上是换了一种能力获取范式；渐进撤除课程动态评估每个技能的帮助度，解决了直接去掉上下文训练就崩的问题；推理时token开销大幅降低，对agent实际部署的成本控制有直接价值

原文：SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

视频生成训练生成式渲染，最好的数据集藏在游戏里

做逆渲染和正向渲染的人都知道，合成数据集和真实场景之间永远隔着一条domain gap。但这个团队的解法让人没想到：直接从3A游戏里抽数据。想想也合理——游戏引擎已经花了几十年解决复杂光照、动态天气、运动模糊这些问题，渲染质量早就超过了学术界的合成数据集。他们用一种双屏拼接采集方法，从游戏中提取了400万帧连续的720p画面，每帧同步包含RGB和5个G-buffer通道（法线、深度、材质等）。用这批数据微调的逆渲染模型在跨数据集泛化上明显优于现有方案，还能通过G-buffer引导做可控视频生成。更有意思的是他们还提出了一个基于VLM的评估协议，解决了真实场景下没有ground truth的评测难题。

要点： 3A游戏作为渲染数据源，绕过了合成数据集的domain gap问题；400万帧同步RGB+G-buffer数据的规模和质量是学术合成数据集难以企及的；数据策略的突破有时比模型创新更能推动领域进展

原文：Generative World Renderer

多模态视觉特征能不能按需「转向」？

做图像检索或异常检测时，你经常需要模型关注特定属性——比如关注纹理而不是形状，但现有的视觉编码器只给你「最显著」的特征，没有调控余地。用文本引导是个自然的想法，CLIP的做法是编码后再融合，代价是空间精度打折。这篇工作把融合提前了：在ViT编码器的中间层注入轻量级交叉注意力，让文本提示直接影响视觉特征的提取过程。结果是视觉表征变得「可转向」，在异常检测和个性化物体区分上做到了和专用方法持平或更好，同时通用视觉任务的基础能力没有退化。

要点： 早期融合（编码层内注入文本）比后期融合保留更多空间信息，这是关键设计选择；异常检测和物体区分任务展现零样本泛化，说明可转向性不是靠任务微调换来的；做检索、分割等需要语义可控视觉特征的团队值得跟进

原文：Steerable Visual Representations

也值得关注

{多模态} 在latent空间做跨模态交叉推理 — 避免把视觉内容翻译成文本的信息损失。LatentUM
{Agent} 多个LLM agent自主探索、反思、协作解决开放性问题 — 不再依赖硬编码的搜索规则。CORAL
{图像生成} 用近似身份干扰项消除视觉编码器对背景依赖 — 让身份表征真正聚焦于对象本身。NearID
{视频生成} 视频擦除不只是填补空白 — 当被移除对象有物理交互时，需要重新推理整个场景的因果链。VOID
{机器人} 自动驾驶VLA的空间感知与语义推理两难 — 尝试在一个框架内统一两者。UniDriveVLA
{安全对齐} 用3D纹理做对抗攻击面 — 比2D贴片更接近真实部署场景，对VLA模型的鲁棒性敲响警钟。Tex3D
{图像生成} 用2D生成能力弥补3D数据稀缺 — 统一文本到2D和3D生成的基础模型。Omni123
{推理} 基于图结构自动合成跨模态多跳推理数据 — 弥补现有多模态基准的单图局限。CRIT
{多模态} 单次前向传播处理任意分辨率图像 — 让ViT在密集预测任务上不再受预训练分辨率约束。SPAR
{评测} 用视觉谜语测试视觉推理 — 当图片只是线索而非答案时，现有模型的认知能力断崖式下降。RebusBench

今日观察

今天的latent space综述、LatentUM和SKILL0表面上分属不同子领域，但它们共同暴露了同一个结构性问题：显式中间表示在系统规模增大时，从信息载体退化为信息瓶颈。

综述论证的核心不是「latent space很有潜力」，而是离散token作为计算基底存在结构性上限——语言冗余、压缩损失、序列效率瓶颈，这些问题的根源在离散化本身，不可能通过更好的tokenizer消除。LatentUM在跨模态推理中绕过了「先把图像描述成文本再推理」的默认路径，直接在latent空间完成视觉与语言的交叉推理。SKILL0则把agent技能从「检索文档→注入prompt→模型照做」的RAG模式，转向「训练时内化进参数→推理时零样本调用」。

这三个方向同时出现不是巧合，因为它们面对的是同一类瓶颈：当模型需要处理的信息复杂度超过显式表示的承载能力时，中间转译层就成了损耗源。token承载不了推理所需的全部信息密度，文本描述承载不了视觉内容的空间细节，技能文档承载不了agent在复杂环境中的行为模式。而当模型能力足以直接在连续空间操作时，这些显式中间层就从「必要桥梁」退化为「不必要的信息漏斗」。

这并不意味着显式表示会消失——人类仍然需要可读的输出。但「先转成人类可读形式再计算」的默认假设正在被修正为「内部用连续空间计算，只在输入输出端口做离散化」。这个修正的方向是一致的：把显式表示从计算路径中移除，保留在接口层。

行动建议：审视你当前系统中的显式中间表示——token-level推理链、文本化的检索结果、prompt注入的工具说明。区分哪些是面向人类的可解释性接口（必须保留），哪些只是「因为我们一直这么做」的架构惯性。后者是最直接的优化空间，从推理成本到信息保真度都有改善余地。