编码答案而非问题，embedding涨9%

今日概览

编码LLM的潜在回复而非用户输入做embedding，纯自监督训练在MTEB上比最好的无监督方法提升9.3%，LLM的安全对齐也被迁移到embedding空间。
STEM视觉推理的真正瓶颈在感知而非推理。 CodePercept消融实验显示扩展感知组件收益持续更高，用可执行代码做感知脚手架效果显著。
差分分解交叉协方差矩阵做注意力引导：Prism-Δ在20组评测中19组追平或超过SOTA，流畅度损失减半，兼容FlashAttention无需微调。
RL数据选择只挑「刚好够难」的题会压低模型上限，DPS用训练动态预测平衡效率与覆盖率，数学、规划、视觉几何等多类任务验证有效。ICLR接收。

重点关注

检索不编码问题，编码答案——Embedding的思路可以反过来

Text embedding的核心挑战是把千变万化的输入映射到语义相近的向量空间。LLM2Vec-Gen的洞察很直觉：与其编码用户问了什么，不如编码模型会怎么回答——因为不同措辞的问题，好的LLM给出的回答是趋同的。具体做法是在输入末尾加几个可训练的特殊token，优化它们来表示LLM的潜在回应，同时用一个无监督embedding教师提供蒸馏目标。整个过程LLM骨干完全冻结，不需要任何配对数据，纯自监督训练。在MTEB（大规模文本嵌入基准）上比最好的无监督方法提升了9.3%，同时有害内容检索降低43.2%——这意味着LLM的安全对齐能力也被迁移到了embedding里。更有意思的是，生成的embedding可以被解码回文本，你能直接看到模型在表示什么，这在传统对比学习的embedding上是做不到的。

要点： 编码「模型会怎么回答」而非「用户问了什么」，天然弥合输入多样性与输出一致性的鸿沟；纯自监督训练不需要配对数据，大幅降低embedding模型的训练门槛；做RAG和语义搜索的团队值得关注——embedding训练可能不再需要费力构造对比数据了

原文：LLM2Vec-Gen: Generative Embeddings from Large Language Models

多模态 STEM视觉推理的瓶颈，居然不在推理上

直觉告诉我们，模型做不好STEM视觉题，一定是推理能力不够。CodePercept做了一组系统性消融实验，结果出乎意料：独立扩展感知组件的收益持续超过扩展推理组件——模型不是「想不明白」，而是「看不清楚」。他们的解法也很有意思：让模型生成可执行代码来解析视觉信息，用代码的精确语义替代自然语言的模糊描述，等于给感知搭了一个结构化的脚手架。团队构建了100万组图像-描述-代码三元组数据集来训练这种能力，还设计了新benchmark——要求模型生成能重建原图的代码，比答对选择题更能反映真实感知水平。

要点： STEM视觉推理的真正瓶颈在感知而非推理，扩展感知组件收益持续更高；用可执行代码作为感知媒介，精确语义天然适配结构化STEM图表；新benchmark要求生成重建代码而非解题，提供更可靠的感知能力评估

原文：CodePercept: Code-Grounded Visual STEM Perception for MLLMs

可解释性不微调就能引导模型聚焦关键上下文？

注意力引导方法一直用正样本提取重要方向，但正样本和负样本共享的结构模式也会被一起提取出来——这就是信号不纯的根源。Prism-Δ的做法是对正负样本的交叉协方差矩阵（cross-covariance matrix）做差分分解，只保留判别性最强的子空间方向，把共享成分剔除。每个注意力头获得连续的重要性权重，弱但有用的头以降低强度参与引导，同时扩展到Value表示以捕获Key方法遗漏的内容通道信号。20组评测配置中19组追平或超过现有最优，引导带来的流畅度损失减半，长上下文检索场景额外提升4.8%。不需要微调、兼容FlashAttention、几乎无额外显存——对长文档场景是个实用的推理时控制工具。

要点： 差分分解交叉协方差矩阵剔除共享方向，注意力引导信号更纯净；流畅度损失减半，引导质量和输出可读性不再需要二选一；兼容FlashAttention、无需微调，长上下文RAG场景可即插即用

原文：Prism-Δ: Differential Subspace Steering for Prompt Highlighting in Large Language Models

训练优化只练「刚好够难」的题目，推理模型的天花板在哪？

RL微调推理模型时，主流的在线数据选择策略有个微妙的盲区：它们把算力集中在模型「刚好能做对」的题目上，因为这类样本梯度信号最强、学得最快。但代价是模型完全做不到的难题被系统性地跳过——短期效率高了，长期能力天花板却被压低。DPS（Dynamics-Predictive Sampling）的思路是把每道题的求解进展建模为动态系统，用隐马尔可夫模型追踪模型对每道题的「解题状态」变化，再通过贝叶斯推断预测哪些题目值得投入算力，不需要先跑一遍完整rollout来筛选。这样既保留了对中等难度题目的高效利用，也不放弃当前做不到但可能即将突破的难题。ICLR接收，在数学、规划、视觉几何等多类任务上验证有效。

要点： 在线数据选择的效率和能力覆盖率之间存在隐性权衡，只选「刚好够难」会压低模型上限；用训练动态预测替代rollout筛选，数据选择本身的计算开销大幅下降；做推理模型RL微调的团队值得关注这个数据选择的思路

原文：Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models

也值得关注

{推理} V₀.₅用预训练价值模型做RLVR的advantage baseline — 不需要同步更新，降低GRPO的方差问题。原文
{评测} 视频推理模型在真实干扰下表现显著下降 — 天气遮挡、相机抖动暴露鲁棒性短板，ROVA提供针对性训练框架。原文
{图像生成} 几何框架统一latent diffusion的三个优化目标 — 语义判别性、重建保真度和压缩率不再需要分开调。原文
{AI for Science} 可微物理框架从表面温度重建3D材料属性 — 替代传统逐像素1D近似，面向无损检测场景。原文
{机器人} 多智能体RL训练人形机器人做物理辅助 — 需要持续感知并适应人类伙伴的姿态变化。原文
{训练优化} FP4量化的均值偏差在LLM各向异性分布下被放大 — blockwise方案需要特别注意这一系统性偏差。原文
{多模态} GLM-OCR：0.9B参数的端侧文档理解模型 — CogViT编码器+GLM解码器，面向实际OCR场景。原文
{评测} LLM用户模拟器与真人行为存在系统性偏差 — 多轮Agent评测中的Sim2Real差距值得警惕。原文
{图像生成} 语义降级条件替代空提示做CFG引导 — 减少空提示带来的几何纠缠问题。原文
{Agent} 多Agent协作自动生产喜剧短视频 — 用LLM评审对齐真实观众偏好。原文
{推理加速} 实时全景场景图生成 — 面向边缘部署的embodied agent场景。原文

今日观察

今天三篇论文独立撞上了同一个工程教训。CodePercept发现STEM视觉推理的瓶颈在感知而非推理——扩展感知组件的收益持续更高。LLM2Vec-Gen发现embedding该编码的不是输入本身，而是模型的潜在回复。DPS发现RL数据选择追求采样效率会牺牲覆盖率，压低能力上限。

三个不同领域，同一个模式：直觉认定的瓶颈不是实际的瓶颈。

这三组团队的共同点是先做系统性消融来验证瓶颈假设，而非在直觉方向上硬堆资源。如果你正在做性能优化，不妨先花一天做控制变量实验：把你认定的瓶颈组件用oracle替换或冻结，测量系统性能变化——如果替换后提升不大，真正的瓶颈在别处。