砍掉90%视觉token性能不掉

今日概览

空间关系可以从「碰运气」变成可优化的目标，SpatialScore用reward model给生成模型装上空间理解信号，专用小模型空间评估超过GPT-4V。CVPR接收，数据集开源
Masked图像生成4倍加速且质量不掉：用动力学建模替代静态缓存，把离散采样丢掉的语义信息学回来
VLM量化不能一刀切，视觉和语言token分布差异大，MoE式动态误差补偿让不同token走不同修复路径。2B到70B都有效，CVPR接收
90%视觉token可压缩。HiDrop发现浅层做特征对齐不该剪，分层策略匹配每层真实功能是关键。ICLR接收

重点关注

图像生成把「左边放猫右边放狗」变成可优化的目标，而不是反复抽卡

文生图模型理解语义没问题，但理解空间关系一直靠运气——「A在B左边」这类指令，模型经常需要多次采样才能碰对。问题的根源是生成过程中缺少对空间正确性的显式反馈信号。SpatialScore的做法是把空间关系的准确性建模为一个reward信号：先用8万多组偏好对训练一个专门评估空间关系的reward model，再用这个reward model做在线强化学习，直接优化生成模型的空间理解能力。这个reward model在空间评估上甚至超过了GPT-4V等闭源模型，说明专用小模型在垂直任务上仍然有优势。CVPR接收，数据集和代码都开源，从工程角度看落地门槛不高。更值得关注的是这套思路的可迁移性：空间关系只是文生图的众多弱项之一，文字渲染、数量控制、属性绑定等问题理论上都可以用同样的「构建偏好数据→训练reward model→RL微调」路径来攻克。

要点： 将空间正确性从「采样碰运气」变为可优化的reward信号，是解题思路的关键转变；专用reward model在垂直评估上超过GPT-4V，小模型+好数据的路线依然成立；同一套reward建模范式有望推广到文字渲染、数量控制等其他生成弱项

原文：Enhancing Spatial Understanding in Image Generation via Reward Modeling

推理加速离散采样丢掉的语义信息，可以学回来

Masked图像生成模型（MIGM）每一步都要跑完整的双向attention，但采样离散token时，连续特征里的丰富语义其实被浪费了。之前的加速方案靠缓存旧特征来近似未来特征，加速倍率一高误差就崩。MIGM-Shortcut换了个思路：训练一个轻量模型，同时吃之前的特征和已采样token，直接回归特征演化的平均速度场——用动力学建模替代静态缓存。在当前最强的Lumina-DiMOO上实现4倍以上加速且质量不掉，显著推进了MIGM的效率-质量前沿。有意思的是，同天还有SenCache从敏感度分析切入解决类似问题，一个学动态一个学重要性，都在回答「哪些计算可以省」，但方法论完全不同。

要点： 特征缓存的瓶颈在于忽略了采样信息，动力学建模是更有表达力的替代方案；4倍加速且质量不掉，对MIGM实际部署有直接意义；同天两篇不同路线的加速工作，说明MIGM效率问题正在被集中攻克

原文：Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

推理加速多模态模型量化，视觉和语言token能共用一套补偿策略吗？

想在端侧跑VLM（视觉语言模型），量化压缩几乎是必经之路——但一个被低估的问题是，图像token和文本token的数值分布差异很大，传统PTQ（训练后量化）对所有通道一视同仁地做误差补偿，效果打折扣。Quant Experts的思路是借鉴MoE架构：把重要通道分成「全局通用」和「token相关」两组，前者用一个共享的低秩适配器修复，后者根据具体token动态路由到不同的专家模块做针对性补偿。这样视觉token和语言token各走各的修复路径，不再互相迁就。实验覆盖2B到70B参数规模的VLM，量化后精度接近全精度模型，CVPR接收。

要点： VLM量化的关键瓶颈在于多模态token分布差异，而非单纯的精度-压缩比权衡；MoE式的动态误差补偿比静态全局策略更适合异构输入；2B到70B都有效，对端侧多模态部署有直接参考价值

原文：Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

多模态砍掉90%视觉token，多模态大模型反而没变差？

之前的视觉token剪枝方法有个共同的误判：把浅层当成冗余层来剪，但实际上浅层在做视觉-语言特征对齐，剪掉反而破坏融合效果。HiDrop纠正了这一点——浅层不动，等到真正的多模态融合开始时才注入视觉token（Late Injection），然后在中层用凹金字塔曲线逐步剪枝，深层允许提前退出。这套分层策略砍掉约90%的视觉token，性能基本持平，训练加速1.72倍。工程上也做了实用优化：持久位置编码、兼容FlashAttention的token选择，避免动态剪枝带来的隐性开销。ICLR接收，思路扎实。

要点： 浅层做特征对齐不该剪，之前方法普遍误判了这一点；90%视觉token可压缩且性能持平，关键是分层策略匹配每层的真实功能；对资源受限场景下部署MLLM有直接参考价值

原文：HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

也值得关注

{推理加速} 扩散模型推理缓存不再靠手调——基于敏感度分析自动决定哪些步骤可以复用，把缓存策略从经验调参变成数据驱动。链接
{多模态} 实时多模态交互框架，同时生成语音和视觉——面向embodied agent场景，解决现有系统只能处理单一模态输出的限制。链接
{机器人} NVIDIA用在线扩散增强弥合神经重建与真实感仿真的差距——面向自动驾驶，让基于神经重建的仿真器输出接近真实传感器质量。链接
{图像生成} 物体替换不再需要逐物体微调——初始噪声扰动实现零样本场景感知换物，保持场景和谐性。链接
{评测} 静态benchmark跟不上模型进化速度——agent驱动的动态评测协议，让测试题目随模型能力同步演进。链接
{多模态} 用反思式RL训练MLLM的情感推理能力——解决SFT在情感理解任务上泛化差的问题，引入推理链反思机制。链接
{推理加速} 视觉跟踪的统一token剪枝方案——同时剪模板和搜索区域，面向实时部署场景。链接
{安全对齐} VLM去偏见从黑箱后处理转向可解释的推理链干预——让偏见修正过程透明可审计，而非事后打补丁。链接
{训练优化} 数据集蒸馏引入动态检索和拓扑约束——打破静态锚点的多样性瓶颈，提升合成数据集的代表性。链接
{评测} 指令编辑模型的小物体编辑能力首个专项benchmark——填补现有评测对细粒度编辑能力的盲区。链接

今日观察

「冗余」这个词在加速研究里用得太随意了。固定步骤缓存假设每N步的计算都可以跳过，均匀剪枝假设所有视觉token同等可丢弃——但今天几篇工作不约而同地推翻了这个前提。SenCache发现扩散模型不同步骤的敏感度差异巨大，盲目缓存某些关键步骤会导致质量断崖；MIGM-Shortcut发现特征演化轨迹是可预测的，与其缓存静态快照不如建模动态过程；HiDrop发现浅层做特征对齐根本不该剪，而中深层的冗余程度随深度非线性变化。三个独立的结论指向同一个方向：模型计算中的冗余是动态的，它随输入内容、时间步、层深度而变化。静态策略本质上是在用平均情况近似每一个具体情况，当模型足够复杂时，这个近似的代价就变得不可忽视。

如果你的推理管线还在用固定间隔的缓存或均匀比例的token丢弃，建议做一次profiling：在实际业务数据上测量不同步骤/不同层的敏感度分布，大概率会发现20%的计算贡献了80%的质量——把省下来的算力重新分配到这些关键位置，比全局加速更划算。

今日概览

重点关注

图像生成 把「左边放猫右边放狗」变成可优化的目标，而不是反复抽卡

推理加速 离散采样丢掉的语义信息，可以学回来

推理加速 多模态模型量化，视觉和语言token能共用一套补偿策略吗？