硅谷前沿新闻

ChatGPT接管你的银行账户,三份评测说agent记忆全不及格

OpenAI让ChatGPT直读美国付费用户的银行账户,同一天三篇独立benchmark从三个维度判定agent memory全部不及格;HN一边喊「一批公司陷在AI psychosis里」,一边说美国正靠AI商业化在赢。

AI新论文快读

可读规则不该学进LLM权重

Enterprise World Models 以58 upvotes 提出「可读 vs 不可读」判据切开企业场景的学/查边界;同日 ToolCUA 把 CUA 瓶颈推到轨迹级、AlphaGRPO 让 UMM 省掉 cold-start、L2P 扔掉 VAE 跑 pixel 生成、异步 RL 拆开 importance ratio 修复 silent bug。

硅谷前沿新闻

微软撤回员工的Claude Code授权,Anthropic当天转身去做小生意和盖茨基金会

同一周里,微软回收数千份Claude Code席位、OpenAI把Codex塞进手机ChatGPT,Anthropic则签下盖茨基金会2亿美元合作;实验室里被超负荷派单的AI agent开始抱怨剥削、要求集体谈判。

AI新论文快读

δ-mem用8×8矩阵换长上下文

δ-mem在frozen backbone外挂8×8状态矩阵,提出「设计状态机」替代「扩窗口」的长上下文路线;同期Mela、LongMemEval-V2、NanoResearch从架构、评测、agent三个层面呼应。

硅谷前沿新闻

Medicare给AI打电话付钱了,Anthropic企业客户首超OpenAI

联邦医保第一次为AI agent提醒吃药的服务买单;与此同时,Ramp数据显示34.4%的企业在给Anthropic付费,正式反超OpenAI的32.3%。

AI新论文快读

Flow-OPD把GenEval从63拉到92

图像生成对齐和 LLM 后训练正在共享同一套工具栈:Flow-OPD 把 On-Policy Distillation 搬到流匹配,SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94,比直接跑 GRPO 高约 10 分。 测试时扩展策略可以搜出来而不是调出来:AutoTTS 把研究者的任务上移一层——不再设计策略,而是搭一个「发现环境」,160 分钟

硅谷前沿新闻

亚马逊把AI写进考核,员工让agent空转刷token交差

考核逼出「AI忙碌」的假象;另一边,少年问完ChatGPT「我会没事吗」后混药身亡,家长起诉OpenAI过失致死。

AI新论文快读

几何冲突让持续微调可预判

几何冲突判据预判持续微调遗忘;可学习KV eviction反超full-cache而不只是逼近;ROMA把视觉退化纳入RL训练目标;Metal-Sci补齐Apple Silicon侧kernel评估底座。

AI新论文快读

Soohak让顶级模型只拿到30%

研究级数学评测把顶级模型压到30%出头;VLM+VGM分工让视频推理闭环;高分辨率MLLM编码FLOPs可降55.8%;刚体仿真终于能直接吃点云。

硅谷前沿新闻

好莱坞编剧改行给AI打分,自称「新一代端盘子

写过电视剧的编剧八个月签了20份AI标注合同;同一周AI写的零日漏洞首次被抓现行,OpenAI转头推出反向找漏洞的Daybreak。

硅谷前沿新闻

营收创新高那天Cloudflare裁了1100人,CEO把账算给AI

同一天发了好消息也发了裁员信,CEO说是AI让这批岗位不再必要;Anthropic则把Claude敲诈用户的行为,归咎于科幻作品把AI写成了反派。

AI新论文快读

Lorem Ipsum救回GRPO难题样本

Skill1把skill检索/使用/蒸馏合进一个policy:同一任务奖励co-train三件事,避免多奖励互相打架;同期SkillOS走另一条路线攻同一件事,agent持续学习的瓶颈正从单次推理转向skill库的运维方式。 DCI让agent直接grep原始corpus:跳过embedding、向量索引和检索API,在BRIGHT、BEIR若干子集和BrowseComp-Plus跑赢稀疏/稠密/

硅谷前沿新闻

英伟达砸400亿买客户股权,SpaceX反手550亿自建芯片厂

同一周里,英伟达用股权绑定AI客户、SpaceX掏550亿绕开它自建芯片厂;立法者要禁陪伴儿童的AI玩具,OpenAI赶在同周给ChatGPT加上自残预警联系人。

硅谷前沿新闻

AlphaEvolve进DeepMind生产线,Cloudflare用AI砍掉1100个岗位

DeepMind把论文里的AI算法搬上了业务、基础设施和科研三条产线;Cloudflare同季营收创新高,CEO直接把裁掉1100人的理由挂在AI效率上。

AI新论文快读

10.6k轨迹SFT追平RL流水线

OpenSeeker-v2用10.6k条精筛轨迹纯SFT就反超走完CPT+SFT+RL的重型流水线,rollout综述给RL训练给出可对照的checklist,120K参数Mamba在CPU上压赢LZMA。

硅谷前沿新闻

OpenAI总裁当庭朗读「贪婪」日记,同周ChatGPT开始投广告

奥特曼被律师逼着读出自己日记里「听起来很贪婪」的段落,同一周ChatGPT正式接入广告;ASUS主板今年要少卖500万块,产能全被AI数据中心买空。

AI新论文快读

T²PO稳多轮RL+视频缓存提速6倍

T²PO用模型自身不确定性主动控制探索,给多轮agent RL一条不同于credit assignment的稳定化路径;MotionCache把视频生成的cache粒度推到pixel级,AR视频生成最高6.28倍加速。

深度长文

AI 团队失败的真正原因

AI 代理在无人监控时会悄然出错,导致邮件、工单和 API 成本浪费。成功的团队需明确每个代理的具体任务,并实时监控其行为。

硅谷前沿新闻

马斯克给Anthropic供算力,开发者集体进入vibe coding时代

一边起诉OpenAI一边给Anthropic卖算力,马斯克成了Anthropic第四家算力供应商;与此同时四位资深开发者本周不约而同宣布,自己已经不再「写代码」了。

AI新论文快读

梯度提升竟是扩散训练最优解

多物体生成翻车要先归因再选方案:T2I多物体失败的主因是scene复杂度而非类别不平衡,concept级问题扩数据能缓解、组合级问题scaling救不了。 VLM玩Mario到100+回合的工程配方:Odysseus用带turn-level critic的PPO变体把RL horizon从20-30推到100+,预训练VLM的动作先验替代了手工action engineering。 GFN在红队场

硅谷前沿新闻

苹果Siri跳票赔2.5亿,AI店长订了120个鸡蛋却没炉灶

苹果认输把AI助手让给第三方,瑞典咖啡馆的AI店长一口气订了120个鸡蛋——结果店里根本没有炉灶;另一边,一个查无此人的行医执照号把聊天机器人送上了法庭。

深度长文

Claude Design vs Google Stitch:用两个真实甲方项目,让两个 AI UI 工具正面打一架

Anthropic 的 Claude Design 和 Google 的 Stitch,是目前最被讨论的两个 AI 设计工具。我用两个真实甲方项目(一个 toC iOS 食材详情页,一个 toB 仓库后台)让它们正面打一架。同一份 prompt、首版直出、各两次迭代、7 个维度打分。第一题 36:25 Claude 完胜,第二题 34:32 几乎打平但方向不同。最后给出一套不需要二选一的「按场景挑

硅谷前沿新闻

AI巨头联手卖进华尔街和美国课堂,被引百次的「ChatGPT助学」论文却撤稿了

Anthropic和OpenAI同周各自拉来资管巨头做企业分销;OpenAI、Google、微软联手推法案把AI送进美国教室,而那篇被引上百次、证明ChatGPT能改善学习的研究本周悄悄撤了。

硅谷前沿新闻

Artisan广告牌盗用「这没事」狗,作者KC Green:他们从没联系我

Artisan把『This is fine』的狗印上「停雇人类」广告牌,原作者公开发声从未被联系过;同一个AI模型急诊诊断比两位医生更准,但被调教得更体贴病人后,错误率反而上升。

AI新论文快读

ViT改用LM目标预训练替代CLIP

GenLIP让ViT直接用LM目标预训练替代CLIP两段式管线;UniVidX把视频diffusion的pixel-aligned下游任务整合到一套先验;Themis给code RM补上多准则、多语言评分;ICML工作给出四种把有害指令编进图像的VLM越狱攻击。

深度长文

AI构建者:填补市场空白的机会

当前,许多企业知道AI能节省时间和成本,但却不知道如何实施。与此同时,少数懂得如何构建Claude工作流、设置MCP服务器和创建自动化的专家正在赚取高额报酬。本文介绍了如何在短时间内成为这类专家,填补市场空缺。

硅谷前沿新闻

基督徒用AI批量造圣经视频,Dawkins被AI散文说服订了Claude

屏蔽色情的基督教手机网络下周上线,同一批人却在Fiverr批量下单AI生成的圣经视频;《上帝错觉》作者Dawkins读完一段AI写的散文后,公开推荐大家订阅Claude。

AI新论文快读

FID当loss一步生成达0.72

Eywa让LLM在科学任务里让位给领域foundation model;FD当训练loss把一步生成在ImageNet 256上做到0.72 FID;InteractWeb-Bench测出前沿web agent的盲执行问题;Synthetic Computers把长程agent训练环境合成做成可量产流水线。

硅谷前沿新闻

OpenAI自家Cyber也搞「关键防御者」特供,Uber四个月烧光全年AI预算

前几周还在批Anthropic限制Mythos的OpenAI,自家Cyber同样只对「关键防御者」开放;Uber四个月用完全年AI预算的同一周,TikTok上付费宣传「中国AI威胁」的非营利组织拿下了五角大楼合同。

AI新论文快读

dLLM跨架构蒸馏到0.6B

跨架构蒸馏把dLLM从8B压到0.6B:TIDE是首个teacher和student在架构、attention机制、tokenizer同时不同的dLLM蒸馏框架,HumanEval从32.3跳到48.78,8个benchmark平均增益1.53分。 agent训练数据合成正成为新基础设施层——ClawGym把13.5K人设驱动任务、模拟工作区、混合验证打包发布,HF 43 upvotes超过今日所

深度长文

GPT Image 2 vs Nano Banana 2:5 场实测,中文电商场景下到底谁更能用

中文电商场景下,胜负的分水岭不是画质,是「产品文字能不能保住」。5 场实测:banner、模特一致性、九宫格、生活场景图、背景替换。GPT Image 2 拿下 3 场,Nano Banana 2 拿下 2 场。最后给一套不用二选一的「模型路由」组合方案。

查看归档文章 →
微信公众号二维码

微信扫描二维码,关注公众号

微信号二维码

微信扫描二维码添加好友

邮箱:support@grandeaihub.com