今日概览

  • 可读 dynamics 不该学进权重:Enterprise World Models 用 CascadeBench 证明,跨 tenant 漂移的 business rule 学得越好越脆,58 upvotes 在重画 RAG/工具调用与模型内部知识的边界。
  • AlphaGRPO 让 UMM 省掉 cold-start——把多模态奖励拆成原子级可验证问题(DVReward),GRPO 直接 unlock self-reflective refinement,没训编辑任务的 GEdit 也涨了。
  • ToolCUA 把训练目标从单步动作改到路径编排,OSWorld-MCP 从 baseline 的 28% 提到 46.85%,比纯 GUI 设定也多 3.9%——CUA 失败在路径,不在单步。
  • L2P 扔掉 VAE 换大 patch token:冻住预训练 LDM 当先验抽取器,8 张 GPU + 纯合成数据完成迁移,原生 4K,代价是 GenEval 只到 93%。
  • 异步 RL 的 importance ratio 被悄悄算错:training-inference discrepancy 和 policy staleness 混在一起触发 silent semantic mismatch,PPO-EWMA 是低成本修法。

重点关注

Agent 能在运行时读到的规则,就别再压进权重里

World models的默认假设是:让 agent 从历史 transitions 里学环境怎么变。但企业系统有个尴尬的特性——business logic写在每个 tenant 的配置里,跨客户不一致,还会随时间漂移。这篇用一个反直觉的判据把问题切开了:dynamics 分两类,不可读的(物理规律、用户行为)才该学进参数,可读的(审批规则、级联配置)应该在 inference 时直接从系统里 discover。作者做了 CascadeBench来验证:offline训练的 world model 在 in-distribution 上表现不错,但 dynamics 一变就崩;discovery-based agent 因为每次都从当前 instance 读规则,反而在 deployment shift 下更稳。58 upvotes 也说明这个 framing 戳到了痛点——它其实在重画 RAG/工具调用与模型内部知识的边界。

要点: dynamics 是否可读取应成为「学 vs 查」决策的关键判据;企业场景里把租户规则学进权重不是优势而是脆弱性来源;discovery-based agent 用 deployment shift下的稳健性换 in-distribution 的极致表现,对多租户产品是更合理的权衡

原文:Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics


多模态 让生成模型自己挑出自己的毛病

多模态生成做强化学习一直卡在奖励怎么给:整体打一个分太容易被钻空子——画面好看但跟prompt对不上也能拿高分。AlphaGRPO的解法是把用户请求拆成一串原子级的可验证问题(论文叫DVReward),让一个通用MLLM逐条核对再汇总成训练信号。好处是省掉了统一多模态模型(UMM)常规的cold-start阶段,直接套GRPO就能解锁两个能力:从模糊prompt里推断真实意图,以及生成后自己诊断、修正。更值得注意的是没训练编辑任务、GEdit基准也涨了,说明拆解出来的语义奖励在通用层面有迁移性。

要点: UMM训练链路可能从「pretrain→SFT→RL」压成「pretrain→RL」,工程成本短一截;把多模态奖励拆成原子问题是缓解reward hacking的可行路径;self-reflective能力能在RL阶段被unlock,不一定要单独造一套reasoning数据。

原文:AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward


Agent 该点鼠标还是该调API,这个决定本身需要被训练

Computer Use Agent现在通常有两套动作:底层GUI操作(点击、输入)和高层tool call(文件API、命令行)。能力都给了,问题是模型不知道什么时候该切——一个能用API一秒搞定的事,它可能在GUI里点二十下。ToolCUA没去优化单步动作准确度,而是把「什么时候切换」本身当成训练目标:先用现有的静态GUI轨迹合成交错的GUI-Tool轨迹解决数据稀缺,再用一个奖励短路径+合理用工具的reward做在线RL。OSWorld-MCP上从baseline的28%左右提到46.85%,比纯GUI设定也多3.9%,说明编排本身有可优化空间。同一天还有Covering Human Action Space(2605.12501)在补长尾GUI交互数据,两篇方向不同但都在指认同一个瓶颈——CUA的失败不在单步,而在路径。

要点: CUA的瓶颈正在从单步动作准确度转向trajectory级的路径决策;合成交错轨迹是绕过真实tool-trajectory采集成本的可行路径;做CUA产品的团队应该评估自己的失败case是动作错了还是路径选错了,这俩需要的优化手段不同

原文:ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents


图像生成 扔掉VAE的pixel-space生成:8张GPU能做到什么程度

VAE一直是latent diffusion的标配——把图像压到潜空间训练,再解码回像素。L2P反其道而行:扔掉VAE,换成大patch token化,把预训练LDM的中间层冻住,只训练浅层做「潜表示→像素」的转换。训练语料完全用LDM生成的合成图,不需要真实数据,8张GPU就能完成迁移。代价是精度——DPG-Bench上和源LDM打平,但GenEval只到93%。最直接的收益是绕开VAE的内存瓶颈,原生支持4K生成;对想做pixel-space生成但负担不起从头训练的团队,这是一个值得参考的迁移路径。

要点: LDM可以当先验抽取器而不必作为端到端编码器,「要不要VAE」多了一个具体的工程答案;8张GPU+纯合成数据训练,资源门槛降到小团队可承受;GenEval只剩93%是代价,换来的是原生4K和VAE内存瓶颈解除——按应用场景判断值不值

原文:L2P: Unlocking Latent Potential for Pixel Generation


训练优化 异步RL流水线里,importance ratio被悄悄算错了

异步RL把rollout和policy update解耦后,吞吐确实上来了,但PPO的off-policy correction在异构系统里出了一个不显眼的问题。这篇论文指出,总的importance ratio在语义上应该拆成两个不同的因子:training-inference discrepancy(同一behavior policy版本下推理侧和训练侧的分布对齐)与policy staleness(历史policy到当前policy的漂移)。麻烦在于异步流水线里old logits经常丢失(partial rollout、延迟更新都会触发),两个修正项被纠缠到一起,clipping和masking的阈值开始相互干扰,silent semantic mismatch就这样混进了收敛过程。作者给出三种exact方案(snapshot版本追踪、独立的old-logit模型、partial rollout中断同步)和一个approximate方案PPO-EWMA——后者不引入额外系统开销,但训练速度和优化效果都有明显改善。

要点: 异步RL里importance ratio承担两类不同语义的修正,混在一起是silent bug;old logits在异构pipeline里丢失是常见现象,需要显式追踪;跑async agentic RL的团队可以先试低成本的PPO-EWMA路径再决定是否上exact方案

原文:Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

也值得关注

  • {Agent} CHAS 攻 CUA 的另一面——长尾交互数据稀缺 — 和 ToolCUA 同一天,给出复杂、低频 GUI 交互的合成方法和 benchmark。Covering Human Action Space
  • {评测} 图像编辑 benchmark 和 reward model benchmark 一起出 — 针对当前 frontier 模型评估天花板,Edit-Compass + EditReward-Compass 统一框架。Edit-Compass
  • {模型架构} 把 thoughts/inputs/outputs 拆成并行 stream — 挑战 agent 必须走单条 message 序列的默认设定。Multi-Stream LLMs
  • {安全对齐} tool-using agent 的不安全发生在轨迹级别而非最终 response — 轨迹级 on-policy 自演化避开传统 safety-utility tradeoff。On-Policy Self-Evolution
  • {模型架构} 把预训练 LLM 改造成 looped latent refinement 模型 — test-time compute scaling 不必从头训 recurrent,可直接复用现成 LLM。LoopUS
  • {机器人} World prediction 和 action generation 互相耦合 — DAWN 挑战「predict-then-act」的串行假设,maneuver 与 scene evolution 互为条件。DAWN
  • {Agent} long-horizon agent 改成「map-then-act」 — 先建环境地图再执行,而不是 reactively 边走边推断约束。MAP
  • {安全对齐} 诱导 LRM overthink 的黑盒 DoS 攻击 — hierarchical genetic algorithm 触发过度思考,推理模型的算力可用性是新攻击面。Inducing Overthink
  • {推理加速} diffusion-based VLA 的 speculative inference 框架 — 大部分步骤跳过完整推理,把 dVLA 的实时部署做下来。Realtime-VLA FLASH
  • {机器人} planner 和 simulator 协同进化解决操控数据稀缺 — RoboEvolve 绕开 VLM/VGM 的 semantic-spatial misalignment。RoboEvolve

今日观察

把今天的 ToolCUA、Covering Human Action Space、On-Policy Self-Evolution 三篇放在一起看,会发现 Computer Use Agent 这条线给出了一个具体的方向收敛信号:研究焦点已经从「单步动作能不能做对」转到「轨迹级决策与对齐」。三篇动的位置完全不同——ToolCUA 攻 GUI-vs-Tool 的路径选择,CHAS 攻长尾交互数据的稀缺,On-Policy Self-Evolution 攻轨迹级的安全信号——但都把 supervision 的单位从 step 或 response 拔到 trajectory。再叠上 Enterprise World Models 那篇「可读取的规则不该被学」的判据,能看出 CUA/agent 这条线正在从「让模型学更多」转向「让模型学对的东西」:哪些是参数应该承载的,哪些应该靠工具调用、长尾合成数据或轨迹级反馈承载,正在被重新分割。换句话说,今天这组工作动的不是 capacity,是 supervision granularity 和「学习对象」的边界。

具体可以做的事:如果你正在做 CUA 或长链路 agent,先做一次 supervision 单位的盘点——当前训练/评测信号落在单步动作、最终 response 还是 trajectory 上?再对照真实失败 case 看错出在哪一层。如果失败大多发生在路径编排或长程对齐层而你只在 step 层做监督,先把奖励或评估目标移到 trajectory 级(参考 ToolCUA 的 GUI-Tool 路径 reward 或 On-Policy Self-Evolution 的失败轨迹回灌),再决定是否需要补合成轨迹或开放工具调用接口。同时检查一下哪些 dynamics 是租户配置或外部系统当下就能读到的——这一部分按 Enterprise World Models 的判据,应当走 discovery 而不是塞进参数。