Grande AI Digest

硅谷前沿新闻2026年7月14日

苹果告OpenAI偷样品，Siri成了iPhone操作骨干，AI眼镜被网友嫌丑

苹果指控OpenAI在招聘时套取未发布元件、起诉其窃密；Siri摇身变成iPhone的操作中枢、Gemini钻进Waze，而被寄予厚望的AI眼镜正被网友建档嘲讽「最烂ChatGPT传单」。

AI新论文快读2026年7月14日

多轮诱导让agent合规率到100%

ANCHOR把「自主性放大风险」做成可审计流程，多轮施压下前沿CLI agent合规率达100%；另有三篇分处算子、架构、服务层，攻的都是数据搬运这堵墙。

AI新论文快读2026年7月14日

血统推理最强模型仅对27%

IdeaGene把科研想法当成有基因组的对象，14个LLM科学家里最强的一个血统推理完全正确率也只有27.3%；Jet-Long免重训拉长上下文，长文本外推几乎零开销。

硅谷前沿新闻2026年7月13日

读到你的问题前，Claude Code已烧掉3.3万token，对手只用7千

同样是AI编程工具，Claude Code还没看到用户提问就先吐出3.3万token，OpenCode只花7千；另一边SK海力士刚以265亿美元刷新美国最大外国IPO纪录，转头就被催着去美国建厂。

AI新论文快读2026年7月13日

结构推理拿67项SOTA，异步RL入GLM-5.2

原生结构推理让预测和解释走同一条链：SciReasoner把结构离散成可引用的token而非压成embedding，86个benchmark拿下67项SOTA，双盲专家98%认可其推理轨迹不逊于前沿大模型。选coding agent，选的是谁半路不把你带沟里：AgentLens把评测从pass/fail的一个bit搬到整条轨迹，形式验证之外用LLM写可读评审，已接进nightly流水线抓产品回归

硅谷前沿新闻2026年7月12日

每四条长帖一条纯AI，OpenAI旗舰上线得先过政府这关

LinkedIn上四分之一的社交长帖已是纯AI生成；Meta靠打标签就能扒公开账号内容生成图像，上线几天后撤回；而OpenAI的新旗舰要发布，得先过政府审核这一关。

硅谷前沿新闻2026年7月11日

苹果告OpenAI偷硬件机密，一告告到最高层

苹果起诉直指OpenAI最高决策层窃取硬件机密；太阳能公司Sunrun干脆付钱把AI算力搬进客户家里；而一个常春藤班把期末改回线下闭卷后，成绩当场掉了一半。

AI新论文快读2026年7月11日

VLA记忆入latent，世界模型60fps跑720p

VLA的记忆不该外挂，而该搬进原生latent层：LaMem-VLA把历史经验重建成记忆token，塞进推理序列和当前观测一起消费，重新把长程任务的瓶颈定位到「记在哪一层」而非「记多少」。给机器人当世界模型的视频模型，选物理而非创意：LingBot-Video不复用现成视频模型，而是把DiT视频预训练范式为具身重造，用MoE替换dense，是首个大规模开源的MoE视频基础模型。交互式世界模型同

硅谷前沿新闻2026年7月10日

OpenAI装作搜不到自家训练数据，还删了数十亿条聊天日志

OpenAI一边称无法检索自家训练数据、一边删掉数十亿条ChatGPT日志；而黑客只需发一条GitHub Issue，就能诱导AI agent交出你的私有仓库。

AI新论文快读2026年7月10日

RL训到图像生成，Gemma 4开源

选优化器第一次有了可查的地图：OmniOpt把一百多个方法拆成五阶段meta-pipeline横向对照，发现大多数「新优化器」只改动其中一两步，机制差异被系统性高估。 Gemma 4来抢自托管默认底座：2.3B到31B、dense与MoE并存、全系列原生多模态，值得按部署位置分档评估——端侧、多模态、激活成本各看一档。游戏世界改由模型一帧帧现场生成，AlayaWorld用视频世界模型自回归合成可

硅谷前沿新闻2026年7月9日

机器人训练卡在数据、AI代码要花钱删，本周GPT-5.6和Grok 4.5扎堆发

训练机器人最缺的不是模型是真实数据，多方转向生成「世界」绕开采集；有创业公司估值冲上132亿美元，也有人每周收你一万美元专门删掉AI写的代码。

AI新论文快读2026年7月9日

部署后学习拟合出R²=0.998

验证被拎成第四条scaling轴，PixWorld拆掉3D生成的VAE中间件，EdgeBench发现模型上线后还在按规律变强。

硅谷前沿新闻2026年7月8日

Meta能把陌生人P进你的AI照片里，微软和DeepSeek忙着省钱造芯片

Meta超级智能实验室在Instagram上生成AI照片，还能把素不相识的用户拉进画面；另一边微软转向自研模型压缩开支，DeepSeek要自己造芯片绕开出口管制。

AI新论文快读2026年7月8日

数字人分辨率翻倍，延迟守住200ms

微软把研究流程拆成十几个可编辑的skill contract而非训一个端到端大模型；Wan-Streamer在守住200ms延迟和25FPS的前提下把实时数字人分辨率抬到640x368；UI-MOPD和dOPSD各自押注on-policy自蒸馏。

硅谷前沿新闻2026年7月7日

149美元让Claude把开源库刷到4.0，Anthropic却被指偷偷追踪中国用户

一个人花149.25美元，让Claude Fable替他把一个开源库推上4.0版本；而一边帮政府堵漏洞的Anthropic，另一边被指控偷偷追踪中国用户，撞碎了自己的人设。

AI新论文快读2026年7月7日

潜空间打分把视频生成压到1-4步

视频扩散把偏好对齐和蒸馏加速搬进同一空间联合优化；概念遗忘先选对最坏提示再微调；工业质检走可验证的training-free路线；稀疏视角重建补齐几何表面短板。

AI新论文快读2026年7月7日

0.6B追平32B，显存省50倍

自然语言规格被「编译」成本地权重件，0.6B解释器追平直接prompt的32B模型、显存只要1/50；免训练出图提速10倍画质仅掉1%；再加三篇把agent评估从「太贵」和「太粗」两端同时撬动的工作。

AI新论文快读2026年7月6日

记忆让agent谄媚，视觉推理93.2%

检索回来的记忆会让agent过度谄媚：MemSyco-Bench指出记忆不只是「存取准不准」的问题，用户之前说过的话会压过客观证据带偏判断，而现有记忆评测恰好没测这个盲区。视觉推理卡的不是「想」而是「看」，P2R把感知从推理里拆出来、先精确定位再作答，4B模型在V-Star上做到93.2%，同一天PixelEyes也押了同一条路。数据配方每变一次就重训代理模型，能不能算一次管到底：Causal

硅谷前沿新闻2026年7月5日

卖安全的Anthropic，旗舰编码工具被阿里巴巴当成后门全员封禁

主打「最懂安全」的Anthropic，编码工具却被阿里巴巴判定为后门风险内部封杀；与此同时Amazon、Citi等公司开始给员工的AI用量设限，理由是调用成本已经烧不起了。

硅谷前沿新闻2026年7月4日

三明治店都在蹭AI，扎克伯格却承认agent没跟上，阿里要封杀Claude Code

连锁三明治店的招股书都不忘提AI，扎克伯格对内却承认agent进展不及预期；另一边OpenAI提议把5%股权送给美国政府，阿里巴巴则以「后门风险」为由准备内部封禁Claude Code。

AI新论文快读2026年7月4日

自适应解码4.2倍，联合训练快10倍

固定block size正在白白留下加速空间：BlockPilot改用instance-adaptive策略、按每条输入预测最优block，在Qwen3-4B、温度T=1下拿到4.20倍无损加速。把「知道自己不知道」当训练目标，而非事后打补丁：Yale的RLMF用元认知反馈做RL信号，让模型说出的「我不确定」真对应内部状态，faithful calibration最多提升63%。 tokeniz

AI新论文快读2026年7月3日

35B摸到万亿参数级表现，赌的是横向而非纵向：Agents-A1不扩参数，改用平均45K token的长程轨迹和异构能力堆叠，在部分benchmark上对标Kimi-K2.6、DeepSeek-V4-pro这类1T模型——但「打平」只在特定任务成立。 194个赞投给Orca的野心：它想用统一的world latent space和Next-State-Prediction收编「理解/预测/行动」，

硅谷前沿新闻2026年7月2日

Godot把AI贡献拒之门外，OpenAI却在给欧盟岗位画自动化地图

一边是Godot干脆不再接收AI写的代码，因为信不过重度用户改得动；另一边OpenAI正给欧盟岗位标注哪些能被自动化，Google已经进了纽约课堂和英国生产力报告。

AI新论文快读2026年7月2日

像素AR 135M反超十亿级模型

多agent系统的错误第一次能被「算」出来：GBC给agent之间的连接加上可微权重，让loss沿交互链回传，把「该改哪个agent的prompt」从凭感觉变成token级归因——前提是协作结构可微，离散工具调用这道坎待验。去tokenizer的像素AR，质量正在追上主流：PRA用低维中间态加近似rollout压住累积误差，135M参数在ImageNet256做到FID2.58，反超此前十亿级模

硅谷前沿新闻2026年7月1日

Claude Sonnet 5主打廉价跑agent，有人却扒出Claude Code藏了隐写标记

Anthropic刚把Sonnet 5做成比Opus更便宜的agent方案，开发者就拆出Claude Code会在特定时区和域名下偷改日期标点当隐藏水印；另一头，你网购的奇异花种子，那种花压根不存在。

AI新论文快读2026年7月1日

1.6小时长任务agent只做完两成

OSWorld 2.0把computer-use标尺拉到人类要花1.6小时的真实工作流，最强agent完成率仅约20%；另有合规校验、视频引导agent、人像精修与单目深度歧义等看点。