可读规则不该学进LLM权重

今日概览

可读 dynamics 不该学进权重：Enterprise World Models 用 CascadeBench 证明，跨 tenant 漂移的 business rule 学得越好越脆，58 upvotes 在重画 RAG/工具调用与模型内部知识的边界。
AlphaGRPO 让 UMM 省掉 cold-start——把多模态奖励拆成原子级可验证问题（DVReward），GRPO 直接 unlock self-reflective refinement，没训编辑任务的 GEdit 也涨了。
ToolCUA 把训练目标从单步动作改到路径编排，OSWorld-MCP 从 baseline 的 28% 提到 46.85%，比纯 GUI 设定也多 3.9%——CUA 失败在路径，不在单步。
L2P 扔掉 VAE 换大 patch token：冻住预训练 LDM 当先验抽取器，8 张 GPU + 纯合成数据完成迁移，原生 4K，代价是 GenEval 只到 93%。
异步 RL 的 importance ratio 被悄悄算错：training-inference discrepancy 和 policy staleness 混在一起触发 silent semantic mismatch，PPO-EWMA 是低成本修法。

重点关注

Agent 能在运行时读到的规则，就别再压进权重里

World models的默认假设是：让 agent 从历史 transitions 里学环境怎么变。但企业系统有个尴尬的特性——business logic写在每个 tenant 的配置里，跨客户不一致，还会随时间漂移。这篇用一个反直觉的判据把问题切开了：dynamics 分两类，不可读的（物理规律、用户行为）才该学进参数，可读的（审批规则、级联配置）应该在 inference 时直接从系统里 discover。作者做了 CascadeBench来验证：offline训练的 world model 在 in-distribution 上表现不错，但 dynamics 一变就崩；discovery-based agent 因为每次都从当前 instance 读规则，反而在 deployment shift 下更稳。58 upvotes 也说明这个 framing 戳到了痛点——它其实在重画 RAG/工具调用与模型内部知识的边界。

要点： dynamics 是否可读取应成为「学 vs 查」决策的关键判据；企业场景里把租户规则学进权重不是优势而是脆弱性来源；discovery-based agent 用 deployment shift下的稳健性换 in-distribution 的极致表现，对多租户产品是更合理的权衡

原文：Do Enterprise Systems Need Learned World Models? The Importance of Context to Infer Dynamics

多模态让生成模型自己挑出自己的毛病

多模态生成做强化学习一直卡在奖励怎么给：整体打一个分太容易被钻空子——画面好看但跟prompt对不上也能拿高分。AlphaGRPO的解法是把用户请求拆成一串原子级的可验证问题（论文叫DVReward），让一个通用MLLM逐条核对再汇总成训练信号。好处是省掉了统一多模态模型(UMM)常规的cold-start阶段，直接套GRPO就能解锁两个能力：从模糊prompt里推断真实意图，以及生成后自己诊断、修正。更值得注意的是没训练编辑任务、GEdit基准也涨了，说明拆解出来的语义奖励在通用层面有迁移性。

要点： UMM训练链路可能从「pretrain→SFT→RL」压成「pretrain→RL」，工程成本短一截；把多模态奖励拆成原子问题是缓解reward hacking的可行路径；self-reflective能力能在RL阶段被unlock，不一定要单独造一套reasoning数据。

原文：AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

Agent 该点鼠标还是该调API，这个决定本身需要被训练

Computer Use Agent现在通常有两套动作：底层GUI操作（点击、输入）和高层tool call（文件API、命令行）。能力都给了，问题是模型不知道什么时候该切——一个能用API一秒搞定的事，它可能在GUI里点二十下。ToolCUA没去优化单步动作准确度，而是把「什么时候切换」本身当成训练目标：先用现有的静态GUI轨迹合成交错的GUI-Tool轨迹解决数据稀缺，再用一个奖励短路径+合理用工具的reward做在线RL。OSWorld-MCP上从baseline的28%左右提到46.85%，比纯GUI设定也多3.9%，说明编排本身有可优化空间。同一天还有Covering Human Action Space（2605.12501）在补长尾GUI交互数据，两篇方向不同但都在指认同一个瓶颈——CUA的失败不在单步，而在路径。

要点： CUA的瓶颈正在从单步动作准确度转向trajectory级的路径决策；合成交错轨迹是绕过真实tool-trajectory采集成本的可行路径；做CUA产品的团队应该评估自己的失败case是动作错了还是路径选错了，这俩需要的优化手段不同

原文：ToolCUA: Towards Optimal GUI-Tool Path Orchestration for Computer Use Agents

图像生成扔掉VAE的pixel-space生成：8张GPU能做到什么程度

VAE一直是latent diffusion的标配——把图像压到潜空间训练，再解码回像素。L2P反其道而行：扔掉VAE，换成大patch token化，把预训练LDM的中间层冻住，只训练浅层做「潜表示→像素」的转换。训练语料完全用LDM生成的合成图，不需要真实数据，8张GPU就能完成迁移。代价是精度——DPG-Bench上和源LDM打平，但GenEval只到93%。最直接的收益是绕开VAE的内存瓶颈，原生支持4K生成；对想做pixel-space生成但负担不起从头训练的团队，这是一个值得参考的迁移路径。

要点： LDM可以当先验抽取器而不必作为端到端编码器，「要不要VAE」多了一个具体的工程答案；8张GPU+纯合成数据训练，资源门槛降到小团队可承受；GenEval只剩93%是代价，换来的是原生4K和VAE内存瓶颈解除——按应用场景判断值不值

原文：L2P: Unlocking Latent Potential for Pixel Generation

训练优化异步RL流水线里，importance ratio被悄悄算错了

异步RL把rollout和policy update解耦后，吞吐确实上来了，但PPO的off-policy correction在异构系统里出了一个不显眼的问题。这篇论文指出，总的importance ratio在语义上应该拆成两个不同的因子：training-inference discrepancy（同一behavior policy版本下推理侧和训练侧的分布对齐）与policy staleness（历史policy到当前policy的漂移）。麻烦在于异步流水线里old logits经常丢失（partial rollout、延迟更新都会触发），两个修正项被纠缠到一起，clipping和masking的阈值开始相互干扰，silent semantic mismatch就这样混进了收敛过程。作者给出三种exact方案（snapshot版本追踪、独立的old-logit模型、partial rollout中断同步）和一个approximate方案PPO-EWMA——后者不引入额外系统开销，但训练速度和优化效果都有明显改善。

要点： 异步RL里importance ratio承担两类不同语义的修正，混在一起是silent bug；old logits在异构pipeline里丢失是常见现象，需要显式追踪；跑async agentic RL的团队可以先试低成本的PPO-EWMA路径再决定是否上exact方案

原文：Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

也值得关注

{Agent} CHAS 攻 CUA 的另一面——长尾交互数据稀缺 — 和 ToolCUA 同一天，给出复杂、低频 GUI 交互的合成方法和 benchmark。Covering Human Action Space
{评测} 图像编辑 benchmark 和 reward model benchmark 一起出 — 针对当前 frontier 模型评估天花板，Edit-Compass + EditReward-Compass 统一框架。Edit-Compass
{模型架构} 把 thoughts/inputs/outputs 拆成并行 stream — 挑战 agent 必须走单条 message 序列的默认设定。Multi-Stream LLMs
{安全对齐} tool-using agent 的不安全发生在轨迹级别而非最终 response — 轨迹级 on-policy 自演化避开传统 safety-utility tradeoff。On-Policy Self-Evolution
{模型架构} 把预训练 LLM 改造成 looped latent refinement 模型 — test-time compute scaling 不必从头训 recurrent，可直接复用现成 LLM。LoopUS
{机器人} World prediction 和 action generation 互相耦合 — DAWN 挑战「predict-then-act」的串行假设，maneuver 与 scene evolution 互为条件。DAWN
{Agent} long-horizon agent 改成「map-then-act」 — 先建环境地图再执行，而不是 reactively 边走边推断约束。MAP
{安全对齐} 诱导 LRM overthink 的黑盒 DoS 攻击 — hierarchical genetic algorithm 触发过度思考，推理模型的算力可用性是新攻击面。Inducing Overthink
{推理加速} diffusion-based VLA 的 speculative inference 框架 — 大部分步骤跳过完整推理，把 dVLA 的实时部署做下来。Realtime-VLA FLASH
{机器人} planner 和 simulator 协同进化解决操控数据稀缺 — RoboEvolve 绕开 VLM/VGM 的 semantic-spatial misalignment。RoboEvolve

今日观察

把今天的 ToolCUA、Covering Human Action Space、On-Policy Self-Evolution 三篇放在一起看，会发现 Computer Use Agent 这条线给出了一个具体的方向收敛信号：研究焦点已经从「单步动作能不能做对」转到「轨迹级决策与对齐」。三篇动的位置完全不同——ToolCUA 攻 GUI-vs-Tool 的路径选择，CHAS 攻长尾交互数据的稀缺，On-Policy Self-Evolution 攻轨迹级的安全信号——但都把 supervision 的单位从 step 或 response 拔到 trajectory。再叠上 Enterprise World Models 那篇「可读取的规则不该被学」的判据，能看出 CUA/agent 这条线正在从「让模型学更多」转向「让模型学对的东西」：哪些是参数应该承载的，哪些应该靠工具调用、长尾合成数据或轨迹级反馈承载，正在被重新分割。换句话说，今天这组工作动的不是 capacity，是 supervision granularity 和「学习对象」的边界。

具体可以做的事：如果你正在做 CUA 或长链路 agent，先做一次 supervision 单位的盘点——当前训练/评测信号落在单步动作、最终 response 还是 trajectory 上？再对照真实失败 case 看错出在哪一层。如果失败大多发生在路径编排或长程对齐层而你只在 step 层做监督，先把奖励或评估目标移到 trajectory 级（参考 ToolCUA 的 GUI-Tool 路径 reward 或 On-Policy Self-Evolution 的失败轨迹回灌），再决定是否需要补合成轨迹或开放工具调用接口。同时检查一下哪些 dynamics 是租户配置或外部系统当下就能读到的——这一部分按 Enterprise World Models 的判据，应当走 discovery 而不是塞进参数。