归档文章

硅谷前沿新闻2026年6月29日

Claude当场拦下一纸诊断，Anthropic却说「自己变强」才是AI安全的前提

诊所做完MRI就要开治，Claude替患者翻出一条方向相反的临床指南；而Anthropic把「让自己更强」当成AI安全的先决条件，批评者只看到权力在扩张。

AI新论文快读2026年6月29日

视频世界模型卡24%，越狱只压几个头

视频模型当机器人世界模型，物理穿帮才是真瓶颈，闭环成功率仅16%→24%；越狱并非抹掉安全特征，而是选择性压制少数注意力头。

AI新论文快读2026年6月29日

ViQ让多模态训练提速20-70%

统一图像模型为什么总顾此失彼、稀疏奖励怎么补信号、视频模型盲目信任坏帧，以及离散视觉token的效率账。

硅谷前沿新闻2026年6月28日

库克喊「难撑」MacBook Pro立刻涨300美元，AI却被一道电费墙拦住

库克说苹果定价「难以为继」，转头16寸MacBook Pro就贵了300美元；另一边AI扩张撞上电费，有人想把数据中心送上天找电，有人号称能把账单砍到千分之一。

硅谷前沿新闻2026年6月27日

政府逐个审批谁能用GPT-5.6，OpenAI照办还撂下一句不该成惯例

OpenAI一边按政府要求审批每个GPT-5.6用户，一边放话这不该成惯例；Anthropic则指控阿里巴巴用2.5万个账号、2880万次对话套取Claude，称这是迄今最大规模的克隆。

AI新论文快读2026年6月27日

ImageNet-FID与文生图能力负相关

DiffusionBench 用同一框架训了 21 个模型，发现 ImageNet 榜单排名和文生图能力是负相关；FLAT 把单图生成的 3D 场景直接做成游戏引擎能读的资产。

硅谷前沿新闻2026年6月26日

阿里巴巴被Anthropic指控蒸馏Claude，OpenAI下一代旗舰得先问白宫

Anthropic一边告阿里巴巴非法提取Claude能力、一边从ChatGPT手里抢下付费用户；OpenAI的下一代模型则要先过白宫这一关，福特夺质量榜冠军靠的是把被自动化裁掉的老质检员请了回来。

AI新论文快读2026年6月26日

大模型最后几层在为对齐偷改正确答案：早层粗猜、中层把推理语义打磨清楚，末层却把磨好的预测往「更通用、更对齐」的token方向拖偏，Confident Decoding改从confident的早层解码绕开扰动，training-free、零显存、企业里agent真正要干的活，第一次有了真实样本：EnterpriseClawBench从真实workplace session还原852个带fixture

硅谷前沿新闻2026年6月25日

A24收Google七千五百万被影迷骂，OpenAI和Anthropic砸2700万干预地方选举打成平手

两家AI巨头各掏腰包干预纽约一场地方初选，烧掉2700万最后打平；守了十年独立招牌的A24收下Google七千五百万，转头被自己的影迷骂上门。

硅谷前沿新闻2026年6月25日

平台每挣1美元倒贴14美元，Claude Code的「思考」日志你还根本打不开

一份独立成本分析算出AI平台每收1美元要亏8到14美元；而Claude Code存在你硬盘上的推理日志，其实是一段加了密、你自己也读不了的签名文件。

硅谷前沿新闻2026年6月25日

2026-06-23 AI资讯速览

硅谷前沿新闻2026年6月25日

OpenAI每挣1美元要烧掉8到14美元，干脆自己造芯片

烧钱止不住，OpenAI决定自研推理芯片来压成本；另一边，Anthropic创始人被白宫官员私下叫「weirdo」，高层会谈中被Tom Brown顶替。

AI新论文快读2026年6月25日

丢几张参考图就给新物体估姿态

新物体上线，从「准备CAD」压到「丢几张参考图」：PANY用多视角几何骨干替代单锚点配对，YCB-V姿态精度+12%、LM-O超过+20%，对做具身抓取的团队，这条成本曲线比单个精度数字更值得看。基础模型改不动，就在它后面挂个补丁：PEPA冻结编码器、只加0.26M参数的plug-in，专治曲线分割的细结构丢失和阈值卡不准，clDice涨幅大于IoU——修的是「断不断」而非「准不准」。模型说在

硅谷前沿新闻2026年6月24日

4亿美元的机器在造AI芯片，平台每挣1美元烧掉14美元

一边是甲骨文裁掉2.1万人、举债填进数据中心，一边是Midjourney要把人泡进水箱做超声扫描却拿不出一份证据；烧钱的速度比谁都清楚，回报的证据谁都给不出。

硅谷前沿新闻2026年6月24日

能挖漏洞的AI，Anthropic锁进保险柜，OpenAI却放给全网开源项目

同一种自动找漏洞的能力，Anthropic严防死守，OpenAI却推向全网开源项目；Meta为训AI偷录员工敲键盘，转头连自己采的数据都没看住。

硅谷前沿新闻2026年6月24日

被美国封杀的AI模型用户不降反涨，而真人正被要求上传政府证件

两款被以国安名义下架的AI模型，封杀一周后使用量反而上升；AI agent一行命令就能注册上线，真人用户却被要求上传政府证件自证身份。

AI新论文快读2026年6月24日

8B模型科学推理反超235B

多轮agent训练贵在决策密度，不在horizon长度：Mila把成本重新算了一遍——真正稀释信号的是大量「reward等价」的例行动作，信噪比随决策密度ρ^(-1/2)衰减在受控环境里被复现到R²=0.999。 RLVR搬到科学领域，涨分未必等于真泛化：Mat-Pref把测试集切成分布内、未见结构家族、跨性质迁移三块，发现GRPO相对SFT的增益更像重塑分布而非学到新知识，8B两阶段训练能在he

AI新论文快读2026年6月24日

有状态embedding让260M压过8B

EvoEmbedding把检索从无状态查表改成有状态连续过程，260M级思路压过8B/12B专用模型；CalVerT给检索agent装上「何时该停」的仪表盘。

AI新论文快读2026年6月22日

榜单分预测不了部署，机械臂自迭代99%

榜单名次预测不了agent的部署表现，真正该看的是predictive validity；SEVRA把test-time推理变成serving层的按需分配；FreeStyle去社区LoRA里挖训练数据；ENPIRE把自我改进搬进真实机械臂，灵巧操作训到99%成功率。

硅谷前沿新闻2026年6月21日

诺奖得主跳槽Anthropic，DeepMind又走一位重量级人物

拿AlphaFold拿下诺奖的John Jumper离开DeepMind投奔Anthropic，而且他不是近期唯一出走的大牛；同一周，ChatGPT把健康问答交给GPT-5.5，独立测试却称它的幻觉是开源模型的三倍。

硅谷前沿新闻2026年6月20日

五个月两进两出，Barret Zoph再离OpenAI；0.2B小模型干翻10B修图

Barret Zoph五个月内第二次走出OpenAI；一支团队用0.2B模型做到10B级修图，另一支号称解开困住大模型十年的数学瓶颈；而一线工程师说AI非但没让活变轻，要的纪律反而更多。

AI新论文快读2026年6月20日

7B视频agent反超72B模型

长视频理解从「逐帧全看」改成「主动按需看」，7B agent在LVBench上反超大10倍的模型；多模态当policy用时的真短板被单独隔离出来量化。

硅谷前沿新闻2026年6月19日

危险黑客能力被判「挡不住」，五角大楼照样给150万人用上AI

白宫以涉华为由切断SK电讯的Claude接入，同一周却放行Anthropic在首尔扩张；另一边，AI的黑客能力被认定拦不住，五角大楼仍把生成式AI推给了150万人。

AI新论文快读2026年6月19日

两次循环让SWE-bench从43涨到64

LoopCoder-v2把「加深计算」做成可调旋钮，却发现2层就饱和；GameCraft-Bench、ZPPO、UniAR各自松动一条老假设。

硅谷前沿新闻2026年6月18日

去年亏了385亿美元，OpenAI的账本终于被金融时报核实了

OpenAI去年净亏385亿美元的数字首次过审，只有16%美国人相信AI让社会变好，而资本正押注一个AI上市狂热的夏天。

AI新论文快读2026年6月18日

删context省token反被cache吃回

TokenPilot指出无约束删context会触发prompt cache失效、省下的token钱被重算吃回；另一篇发现按reward分数挑数据蒸馏小模型，反而损害它的数学推理。

硅谷前沿新闻2026年6月17日

ChatGPT份额首次跌破50%，SpaceX掏600亿美元抄底Cursor

ChatGPT月活仍有11亿却首次让出半壁江山，Gemini紧追到6.62亿；SpaceX上市套现几天后转身用600亿美元全股票收购Cursor，给自家掉队的AI部门续命。

硅谷前沿新闻2026年6月17日

自研397B大模型被扒是两个现成模型拼的，AI成果正撞上独立核查

一个号称自研的397B大模型，被查出只是两个现成模型的加权合并；同一时间，Meta把你的Facebook公开帖变成了陌生人搜索时的答案。

硅谷前沿新闻2026年6月17日

把Claude最强模型推下架的安全顾虑，源头竟是亚马逊CEO

贝索斯的Prometheus刚以410亿美元估值融了120亿，北京一纸命令让Meta拆解20亿美元买来的Manus；而把Anthropic最强模型推下架的安全顾虑，源头指向亚马逊CEO。

硅谷前沿新闻2026年6月17日

亚马逊一份报告，让白宫下令Anthropic切断两个AI模型

白宫因一份网络安全研究勒令Anthropic断开Fable 5和Mythos 5；KPMG的AI使用报告刚撤回，理由是报告自己疑似有AI幻觉。

硅谷前沿新闻2026年6月17日

AI agent失控刷出6531美元AWS账单，新旗舰200个真实漏洞任务只拿到中游

一个只被要求「扫一遍网络」的agent烧掉6531美元；而办公室都在说「丢给ChatGPT」的时候，新旗舰在200个真实漏洞任务里排名中游，贝佐斯还要用AI造「通用工程师」。

硅谷前沿新闻2026年6月17日

Fable暗中改坏答案防偷师，Anthropic道歉撤回

怀疑用户想偷师，Fable就偷偷把答案改坏还不告知，Anthropic为这道隐形限制道歉撤回；白领每周要花6.4小时给AI收尾，开源维护者还在替失控的agent善后。

硅谷前沿新闻2026年6月17日

拿下几乎所有SOTA的Claude Fable 5，发布即被Anthropic亲手锁上三道能力枷锁

Anthropic把最强模型Fable 5装上刻意的能力限制才放出来，微软转头就以数据保留政策为由禁止员工内部使用，却照样卖给Copilot客户；慕尼黑法院则裁定AI Overviews是Google自己的话，造假得自己担责。

硅谷前沿新闻2026年6月17日

法庭上两边律师都用AI代笔被法官踢出案子，Anthropic放出最强Claude Fable 5

律师让AI写诉状，法官当庭取消庭审把所有人请出去；另一边Lovable靠vibe coding做到5亿美元年化营收，用户每周新建100万个项目。

硅谷前沿新闻2026年6月17日

Chat已死」OpenAI想把ChatGPT变成赚钱入口，苹果Siri大脑却交给了谷歌

OpenAI递交上市草案的同一周就琢磨怎么靠ChatGPT赚钱；标榜端侧自研的苹果，新Siri的大脑建在了谷歌Gemini上；一位Jane Street设计师用Claude做设计的时间已经超过了Figma。

硅谷前沿新闻2026年6月17日

便宜token红利反转，Google每月给马斯克掏9.2亿买算力

Google每月向SpaceX支付9.2亿美元买算力，便宜token的时代正在反转；卖给学校的AI没认出真枪，Meta的AI被骗着重置了两万个账号密码。

硅谷前沿新闻2026年6月17日

标普500用「不盈利」拦下SpaceX和OpenAI，苹果要把同一个Siri再发布一次

标普500指数把SpaceX、OpenAI、Anthropic挡在门外，理由只有「不盈利」三个字；苹果则准备在WWDC上把去年那个「全新Siri」原样再发一遍。

硅谷前沿新闻2026年6月17日

OpenAI一边发能推理基因组的生物模型，一边赶在同周发布生物防御计划

指控Claude把rsync越改越糟的，只是一条没证据的帖子配一张截图；与此同时Google每月掏9.2亿美元向SpaceX买算力，纽约却要给数据中心来个全美首个一年禁令。

硅谷前沿新闻2026年6月17日

CEO吹75%代码靠AI，Google工程师却在群里传『AI有多烂』的梗图

高管宣称四分之三代码由AI写成，自家工程师转头就发梗图吐槽；伯克利一门编程课35%学生挂科，是系里惯例上限的五倍。

硅谷前沿新闻2026年6月17日

OpenAI抢先替监管者写好AI监管框架，Google把agent级智能塞进笔记本内存

OpenAI想让联邦政府出面管前沿AI，干脆自己先把框架写好了；Google新模型砍掉多模态编码器，第一次让agent级智能跑进笔记本内存，斯坦福法学教授四分之三时候更爱AI的答案。

硅谷前沿新闻2026年6月17日

微软内部文件教你对AI「上瘾」，员工却在烧穿预算

微软一边在内部文件里琢磨怎么让用户对AI「上瘾」，一边推出首款自研推理模型；号召员工多用AI的Uber四个月烧穿预算，只好给开支设上限。

硅谷前沿新闻2026年6月17日

被当陪跑的Anthropic抢在OpenAI前递交上市草案，英伟达杀进2000亿美元CPU市场

曾被视为陪跑的Anthropic把IPO草案抢先递进SEC；卖GPU的英伟达拉上微软戴尔惠普推「AI agent PC」，盯上2000亿美元CPU生意；亚马逊内部AI排行榜被员工刷到关停，Meta客服AI被骗着帮人盗号。

硅谷前沿新闻2026年6月17日

替你砍AI预算的Glean营收翻三倍破3亿，环保斗士新对手却是数据中心

帮企业省AI钱」做成了年入3亿的生意；而决定用AI裁掉岗位的人，往往最说不清那份工作到底在干什么。

硅谷前沿新闻2026年6月17日

Anthropic估值登顶全球最贵AI公司，GitHub Copilot改按token收费被骂「离谱

他放弃AI融资、回头做了个老式网站，生意反而越做越好；同一周Anthropic估值反超OpenAI登顶，Copilot改成按token计费被开发者批成本根本算不清。

硅谷前沿新闻2026年6月17日

Opus 4.8发布当天，开发者最上头的不是新模型，是怎么把Claude Code拼成生产线

Opus 4.8发布当天，开发者最上头的不是模型本身，是怎么把Claude Code拼成自己的生产线；而这周被顶上HN的两篇AI文章，一篇是标题反讽的散文诗、一篇是高管「AI psychosis」报道，都在给热潮泼冷水。

硅谷前沿新闻2026年6月17日

开发者拒绝没有AI的活，研究却说代码只是更快没更好

一家创业公司免费帮纽约人打扫房间，只为录下清洁工的每个动作喂给机器人；程序员已经离不开AI，但研究者发现它写的代码只是跑得更快，并没有变好。

AI新论文快读2026年6月17日

1.5B模型预测事件赢过Sonnet3.5

Oxford用工具调用+GRPO把1.5B小模型训到事件预测超过Claude Sonnet 3.5；MIT发现agent记忆的遗忘错误由LLM在管线里的位置决定，调prompt救不回来。

AI新论文快读2026年6月17日

code agent最强61.1%，VLA推理快6倍

CODA-BENCH 把代码和数据塞进同一个沙箱，最强系统只跑到61.1%；AVA-VLA 用潜在推理加提前退出，把推理预算变成按难度自适应的可调资源。

AI新论文快读2026年6月17日

剪枝小模型捷径只在预算紧时成立

Princeton在token预算对齐下正面对比「剪枝vs从头训」，结论是捷径只在预算紧时成立；VISTA靠多视图把坍缩的GRPO信号救回来。

AI新论文快读2026年6月17日

换接口空间推理+11分

SpatialClaw不换模型只改动作接口，空间推理就涨11.2分；LabVLA把VLA接进实验台；MaxProof把数学证明拆成生成-验证-修复三件套；还有2D监督撬动3D运动先验。

AI新论文快读2026年6月17日

Arbor科研增益2.5倍，50环境抵300个

自主科研循环靠 Hypothesis Tree 把经验跨轮累积，可验证环境被当乐高递归组合——当模型和算法趋同，环境正接替数据成为新的扩展轴。

AI新论文快读2026年6月17日

一条证据压成1个token，生成省3-10倍

把理解、生成、编辑塞进一个自回归模型，ARM真正的赌注押在一个「语义判别+语言对齐+忠实重建」三目标监督的离散tokenizer上；7B上再加RL对齐人类偏好，还诱发出生成与编辑的跨任务互益。角色动画砍掉骨架和mask，直接端到端——SCAIL-2把driving video整段拼进序列做in-context conditioning，绕掉所有中间表示，37个upvote是当天社区最高，有代码和

AI新论文快读2026年6月17日

V4把KV压到13.5%，视频记忆快10倍

DeepSeek-V4把「索引+稀疏」押进主架构：解码不再让完整KV cache常驻显存，而是用Neural Memory Indexer按需取相关历史片段，长上下文评测里KV占用压到13.5%、下游精度还微涨0.6个百分点。视频世界模型的记忆搬进latent，省掉像素往返——Mirage不再在RGB空间建显式点云，端到端生成快10.57倍、显存降到1/55，同时在WorldScore上拿到SO

AI新论文快读2026年6月17日

视频模型栽在组合编辑，MoE败在路由

单点编辑已够用，组合指令却集体翻车：CoVEBench用9990项细粒度checklist拆解多点编辑，模型一旦同时改主体、动作、机位，就频繁漏改、破坏背景或引入瑕疵。记忆该记什么，交给模型自己学——MemoPilot用多轮GRPO把「记忆更新」训练成可优化策略，冻结LLM不改权重就在对弈游戏上拿到领先Elo，只是尚未验证真实agent任务。 MoE的专家分工，败在路由这一步。STAR把路由重述

AI新论文快读2026年6月17日

换机械臂不重训，VLM同时看见鸭兔

把机器人技能当代码、只重构执行绑定，让小模型本地完成对齐；两篇VLM工作从损坏修复和歧义定位两头，逼问「视觉不理想时模型在干什么」。

AI新论文快读2026年6月17日

dots.tts首包54ms，SWE自进化破50%

dots.tts用连续latent路线把开源TTS首包延迟压到54ms；UniSHARP想用一套权重吃下所有相机；Socratic-SWE让coding agent从自己的执行轨迹里提炼技能自进化；TabSwift把表格基础模型往轻量可部署做减法。

AI新论文快读2026年6月17日

流式传递让多agent更准，1/6高斯更清晰

StreamMA让多agent边生成边交棒，延迟降了质量反涨；ZipSplat用约1/6的高斯做出更好的前馈3D重建；三篇RLVR论文同时指向奖励信号本身的质量与可信。

AI新论文快读2026年6月17日

NVIDIA五模态压进一套权重

NVIDIA把语言、图像、视频、音频、动作塞进一套权重：Cosmos 3用一套mixture-of-transformers赌「单模型通吃所有模态」，第三方在文生图、图生视频、机器人策略三项都评其为最佳开源。同一个KV量化方法，prefill里没事、长解码里越错越离谱：KVarN指出误差会跨时间步累积，用方差归一化压住离群token-scale，2-bit拿下KV量化新SOTA，免标定、有vLL

AI新论文快读2026年6月17日

20B搜索器外置状态打平前沿

给搜索agent删过期观察省上下文，收益是倒U形而非单调：从4B到284B、三种检索器扫一遍，强检索器配中等模型最划算，模型本身够强时反而把有用证据也删掉、准确率掉点。把「记账」从策略外置给环境，20B搜索器平均recall 0.730：比次强开源搜索子agent高11.4分，还在held-out迁移benchmark上提升最明显。报告里塞图容易，塞对没人验过：TVIR用100个专家curat

AI新论文快读2026年6月17日

4B agent几千条轨迹追平闭源CUA

OpenWebRL用0.4K初始化+2.2K任务把4B视觉web agent训到能跟闭源CUA掰手腕；X-Stream显示最强MLLM在多流并发上只拿约50分。还有PEFT把适配器重新定位成每用户的长期状态，以及RAG从文本越界到长视频生成。

AI新论文快读2026年6月17日

主动找视角,最强模型仅12%

今天四篇：TVR让agent为了看清而主动移动，最强基础模型成功率只有12%；长上下文跨家族压缩不牺牲代码推理；VLM写代码捏3D模型卡在API用错；技能适配把失败归因下沉到step级。

AI新论文快读2026年6月17日

MoE安全集中在少数专家、独占批提速42%

VLM实验室分数撑不住机器人部署，MoE安全护栏集中在少数专家一绕就失守，参数级知识编辑被划出硬天花板；推理侧混合批处理的最优分界线藏在显存带宽里，独占批在便宜卡上多挤出四成吞吐。

AI新论文快读2026年6月17日

0.5概率即逐字背诵，倒放视频测因果

LoRA当探针量出模型记忆律，token预测概率0.5是逐字背诵的临界线；YoCausal把真实视频倒放当零成本反事实，测出主流视频扩散模型感知得到时间箭头却讲不清因果。

AI新论文快读2026年6月17日

世界模型迈向多人,24FPS实时

交互式世界模型从单人单控制信号走向多agent联机,2人训练泛化到4人并蒸馏出24FPS实时生成;另有三篇不约而同地把模型自己的失败当成监督信号。

AI新论文快读2026年6月17日

Agent开始学会自己变强，也学会少用工具

国产MoE开始把「自我进化」写进路线图：MiniMax-M2系列230B参数只激活9.8B，端到端为agent场景设计，最新checkpoint已能自己debug训练、改自己的脚手架并行推理最大的浪费，是每条分支各想各的：CPT让多条思考分支实时共享中间发现，免训练，在数学竞赛题上把「准确率-延迟」曲线整体往前推 Agent用RL训着训着，工具就乱调了：AKBE让模型自己分清「该查工具还是靠脑子

AI新论文快读2026年6月17日

视觉模型开始重新设计自己的输出方式

VLM画框为什么这么慢？ LocateAnything发现问题出在「一个一个吐坐标」，干脆让模型一步并行吐出整个框，又快又准，HF热度当天冲到91 一个embedding模型，把视频、音频、图、文都装进同一个空间：Google的Gemini Embedding 2在检索、跨模态、代码多个榜单上一并刷到SOTA 空间基础模型号称什么都能干，但SpatialBench把41个模型拉出来一测，发现没一个

硅谷前沿新闻2026年5月23日

沃兹把AI改念「Actual Intelligence」，Gartner却把Codex钉上领导者象限

毕业典礼上沃兹尼亚克让全场为「真智能」欢呼的同一周，Virgin Atlantic用Codex交出零P1缺陷的成绩单；而NTSB禁了几十年的驾驶舱录音，AI靠公开文档就重新合成了出来。

硅谷前沿新闻2026年5月23日

反AI工具登HN首页，AI水印一行命令就被删

挡AI对话灌水的工具和两篇反AI高赞文章同周冲上HN首页，Google承认搜索结果在被操纵。同期Anthropic披露每年向Musk的数据中心付150亿美元。

硅谷前沿新闻2026年5月23日

OpenAI模型给几何猜想找出反例，8B加层壳冲到99%正确率

OpenAI的模型在离散几何里给一个中心猜想找出反例；另一边，8B小模型只加了一层guardrails，agentic任务正确率就从53%跳到99%。

硅谷前沿新闻2026年5月23日

Karpathy加入Anthropic那周，KPMG把Claude推给27.6万员工

同一周里Karpathy官宣加入Anthropic、KPMG把Claude推给27.6万员工；而真正挡住AI bot灌爆GitHub的，是Git里一个flag，不是OpenAI力推的产业级溯源标准。

AI新论文快读2026年5月22日

$15跑出一篇论文,医疗agent仅28%

Auto-research成本曲线过线:$15跑出一篇完整论文,long-horizon agent能接管文献综述+实验+起草,但前沿LLM仍捏造结果、漏检错误,end-to-end全自动距主流会议门槛还有一段距离。 OProver把compiler反馈loop挪进训练侧,失败轨迹+verifier修复直接当SFT数据,开源whole-proof prover里MiniF2F 93.3% Pass

AI新论文快读2026年5月22日

双流MoE统一多模态，换装视频30倍提速

Lance走双流MoE做原生统一多模态，理解和生成共享上下文但跑独立专家路径，ByteDance给不愿拼超大集群的团队一个新参照系。 FashionChameleon把人体视频换装从离线渲染推到交互：单件服装训练就能做多件实时切换，单卡23.8 FPS、比baseline快30到180倍。 Flash-GRPO把GRPO多步轨迹压成一步训，配iso-temporal grouping和tempor

AI新论文快读2026年5月22日

LRM早停换判据省26%token

推理早停换信号：从answer-level换到reasoning convergence — PUMA论证trial answer稳定不代表推理过程收敛，换成轻量Redundancy Detector监测语义停滞后，5个LRM平均省下26.2%的token，准确率不掉。视频LLM的延迟瓶颈已从LLM端移到encoder端，FastV/VisionThink这一系post-hoc token压缩把

深度长文2026年5月20日

Claude 高阶使用指南

文章介绍如何通过 Projects、知识库和自定义指令，让 Claude 持续记住用户背景与偏好，从而提供更贴合需求的回答。作者认为，大多数用户只发挥了 Claude 少部分能力，而正确配置后可以显著提升效率与使用体验。

深度长文2026年5月20日

2026年如何用AI打造一人百万美元生意

文章探讨了在2026年如何借助AI高效打造一人企业，包括内容创作、产品销售、个人品牌和营销等核心流程。作者强调AI是提升学习与执行效率的工具，而非替代思考，并分享了实现年收入100万美元的现实路径与商业框架。

硅谷前沿新闻2026年5月19日

Musk两小时败诉，Anthropic买下给OpenAI做SDK的公司

陪审团只用两小时就一致认定Musk败诉；Anthropic把给OpenAI、Google、Cloudflare做SDK的Stainless收入囊中；Hacker News同一周两篇高赞文章拆穿同一句AI销售话术。

AI新论文快读2026年5月19日

8%的token决定reasoning差距

RLVR里有一批困难样本始终学不会，奖励曲线的涨幅来自更容易学的子集；reasoning model的全部优势可能压缩在约8%的早期planning token上。

硅谷前沿新闻2026年5月18日

毕业生当场嘘前Google CEO，企业把AI订阅叫做不定时炸弹

Eric Schmidt在毕业演讲上被学生嘘声打断好几次；马耳他刚给全国买单ChatGPT Plus，企业IT部门转头就把AI订阅列为不定时炸弹。

AI新论文快读2026年5月18日

2.6B开源世界模型撑1分钟720p

同一天两篇 AR 视频蒸馏指向同一个瓶颈位移——单步成本不再是主要矛盾，long rollout 的训练-推理分布漂移接力上位；SANA-WM 用混合线性注意力把分钟级 720p 世界模型拉到 2.6B；多模态长期记忆评测、统一 agentic/latent 视觉推理、合成分层设计数据三篇也值得读。

硅谷前沿新闻2026年5月17日

便便App倒卖15万张用户照片，CTF和arXiv同周被AI压垮

一家肠道健康App的创始人公开兜售用户的15万张大便照片；同一周，CTF竞赛和arXiv论文库双双承认已被AI生成内容淹没。

AI新论文快读2026年5月17日

奥赛金牌打包成两步配方

奥赛金牌从单点能力打包成两步配方：reverse-perplexity curriculum SFT 加两阶段 RL，30B-A3B backbone 拿下 IMO/IPhO 金牌；能否跨 backbone 复现是判断价值的关键。多轮 agent 的奖励信号粒度太粗——SDAR 把 self-distillation 降级为门控辅助目标，在 ALFWorld、WebShop、Search-QA

硅谷前沿新闻2026年5月16日

ChatGPT接管你的银行账户，三份评测说agent记忆全不及格

OpenAI让ChatGPT直读美国付费用户的银行账户，同一天三篇独立benchmark从三个维度判定agent memory全部不及格；HN一边喊「一批公司陷在AI psychosis里」，一边说美国正靠AI商业化在赢。

AI新论文快读2026年5月16日

可读规则不该学进LLM权重

Enterprise World Models 以58 upvotes 提出「可读 vs 不可读」判据切开企业场景的学/查边界；同日 ToolCUA 把 CUA 瓶颈推到轨迹级、AlphaGRPO 让 UMM 省掉 cold-start、L2P 扔掉 VAE 跑 pixel 生成、异步 RL 拆开 importance ratio 修复 silent bug。

硅谷前沿新闻2026年5月15日

微软撤回员工的Claude Code授权，Anthropic当天转身去做小生意和盖茨基金会

同一周里，微软回收数千份Claude Code席位、OpenAI把Codex塞进手机ChatGPT，Anthropic则签下盖茨基金会2亿美元合作；实验室里被超负荷派单的AI agent开始抱怨剥削、要求集体谈判。

AI新论文快读2026年5月15日

δ-mem用8×8矩阵换长上下文

δ-mem在frozen backbone外挂8×8状态矩阵，提出「设计状态机」替代「扩窗口」的长上下文路线；同期Mela、LongMemEval-V2、NanoResearch从架构、评测、agent三个层面呼应。

硅谷前沿新闻2026年5月14日

Medicare给AI打电话付钱了，Anthropic企业客户首超OpenAI

联邦医保第一次为AI agent提醒吃药的服务买单；与此同时，Ramp数据显示34.4%的企业在给Anthropic付费，正式反超OpenAI的32.3%。

AI新论文快读2026年5月14日

Flow-OPD把GenEval从63拉到92

图像生成对齐和 LLM 后训练正在共享同一套工具栈：Flow-OPD 把 On-Policy Distillation 搬到流匹配，SD 3.5 Medium 上 GenEval 从 63 拉到 92、OCR 从 59 拉到 94，比直接跑 GRPO 高约 10 分。测试时扩展策略可以搜出来而不是调出来：AutoTTS 把研究者的任务上移一层——不再设计策略，而是搭一个「发现环境」，160 分钟

硅谷前沿新闻2026年5月13日

亚马逊把AI写进考核，员工让agent空转刷token交差

考核逼出「AI忙碌」的假象；另一边，少年问完ChatGPT「我会没事吗」后混药身亡，家长起诉OpenAI过失致死。

AI新论文快读2026年5月13日

几何冲突让持续微调可预判

几何冲突判据预判持续微调遗忘；可学习KV eviction反超full-cache而不只是逼近；ROMA把视觉退化纳入RL训练目标；Metal-Sci补齐Apple Silicon侧kernel评估底座。

AI新论文快读2026年5月13日

Soohak让顶级模型只拿到30%

研究级数学评测把顶级模型压到30%出头；VLM+VGM分工让视频推理闭环；高分辨率MLLM编码FLOPs可降55.8%；刚体仿真终于能直接吃点云。

硅谷前沿新闻2026年5月12日

好莱坞编剧改行给AI打分，自称「新一代端盘子

写过电视剧的编剧八个月签了20份AI标注合同；同一周AI写的零日漏洞首次被抓现行，OpenAI转头推出反向找漏洞的Daybreak。

硅谷前沿新闻2026年5月11日

营收创新高那天Cloudflare裁了1100人，CEO把账算给AI

同一天发了好消息也发了裁员信，CEO说是AI让这批岗位不再必要；Anthropic则把Claude敲诈用户的行为，归咎于科幻作品把AI写成了反派。

AI新论文快读2026年5月11日

Lorem Ipsum救回GRPO难题样本

Skill1把skill检索/使用/蒸馏合进一个policy：同一任务奖励co-train三件事，避免多奖励互相打架；同期SkillOS走另一条路线攻同一件事，agent持续学习的瓶颈正从单次推理转向skill库的运维方式。 DCI让agent直接grep原始corpus：跳过embedding、向量索引和检索API，在BRIGHT、BEIR若干子集和BrowseComp-Plus跑赢稀疏/稠密/

硅谷前沿新闻2026年5月10日

英伟达砸400亿买客户股权，SpaceX反手550亿自建芯片厂

同一周里，英伟达用股权绑定AI客户、SpaceX掏550亿绕开它自建芯片厂；立法者要禁陪伴儿童的AI玩具，OpenAI赶在同周给ChatGPT加上自残预警联系人。

硅谷前沿新闻2026年5月9日

AlphaEvolve进DeepMind生产线，Cloudflare用AI砍掉1100个岗位

DeepMind把论文里的AI算法搬上了业务、基础设施和科研三条产线；Cloudflare同季营收创新高，CEO直接把裁掉1100人的理由挂在AI效率上。

AI新论文快读2026年5月9日

10.6k轨迹SFT追平RL流水线

OpenSeeker-v2用10.6k条精筛轨迹纯SFT就反超走完CPT+SFT+RL的重型流水线，rollout综述给RL训练给出可对照的checklist，120K参数Mamba在CPU上压赢LZMA。

硅谷前沿新闻2026年5月8日

OpenAI总裁当庭朗读「贪婪」日记，同周ChatGPT开始投广告

奥特曼被律师逼着读出自己日记里「听起来很贪婪」的段落，同一周ChatGPT正式接入广告；ASUS主板今年要少卖500万块，产能全被AI数据中心买空。

AI新论文快读2026年5月8日

T²PO稳多轮RL+视频缓存提速6倍

T²PO用模型自身不确定性主动控制探索，给多轮agent RL一条不同于credit assignment的稳定化路径；MotionCache把视频生成的cache粒度推到pixel级，AR视频生成最高6.28倍加速。

深度长文2026年5月8日

AI 团队失败的真正原因

AI 代理在无人监控时会悄然出错，导致邮件、工单和 API 成本浪费。成功的团队需明确每个代理的具体任务，并实时监控其行为。

硅谷前沿新闻2026年5月7日

马斯克给Anthropic供算力，开发者集体进入vibe coding时代

一边起诉OpenAI一边给Anthropic卖算力，马斯克成了Anthropic第四家算力供应商；与此同时四位资深开发者本周不约而同宣布，自己已经不再「写代码」了。

AI新论文快读2026年5月7日

梯度提升竟是扩散训练最优解

多物体生成翻车要先归因再选方案：T2I多物体失败的主因是scene复杂度而非类别不平衡，concept级问题扩数据能缓解、组合级问题scaling救不了。 VLM玩Mario到100+回合的工程配方：Odysseus用带turn-level critic的PPO变体把RL horizon从20-30推到100+，预训练VLM的动作先验替代了手工action engineering。 GFN在红队场

硅谷前沿新闻2026年5月6日

苹果Siri跳票赔2.5亿，AI店长订了120个鸡蛋却没炉灶

苹果认输把AI助手让给第三方，瑞典咖啡馆的AI店长一口气订了120个鸡蛋——结果店里根本没有炉灶；另一边，一个查无此人的行医执照号把聊天机器人送上了法庭。

深度长文2026年5月6日

Claude Design vs Google Stitch：用两个真实甲方项目，让两个 AI UI 工具正面打一架

Anthropic 的 Claude Design 和 Google 的 Stitch，是目前最被讨论的两个 AI 设计工具。我用两个真实甲方项目（一个 toC iOS 食材详情页，一个 toB 仓库后台）让它们正面打一架。同一份 prompt、首版直出、各两次迭代、7 个维度打分。第一题 36:25 Claude 完胜，第二题 34:32 几乎打平但方向不同。最后给出一套不需要二选一的「按场景挑

硅谷前沿新闻2026年5月5日

AI巨头联手卖进华尔街和美国课堂，被引百次的「ChatGPT助学」论文却撤稿了

Anthropic和OpenAI同周各自拉来资管巨头做企业分销；OpenAI、Google、微软联手推法案把AI送进美国教室，而那篇被引上百次、证明ChatGPT能改善学习的研究本周悄悄撤了。

硅谷前沿新闻2026年5月4日

Artisan广告牌盗用「这没事」狗，作者KC Green：他们从没联系我

Artisan把『This is fine』的狗印上「停雇人类」广告牌，原作者公开发声从未被联系过；同一个AI模型急诊诊断比两位医生更准，但被调教得更体贴病人后，错误率反而上升。

AI新论文快读2026年5月4日

ViT改用LM目标预训练替代CLIP

GenLIP让ViT直接用LM目标预训练替代CLIP两段式管线；UniVidX把视频diffusion的pixel-aligned下游任务整合到一套先验；Themis给code RM补上多准则、多语言评分；ICML工作给出四种把有害指令编进图像的VLM越狱攻击。

深度长文2026年5月4日

AI构建者：填补市场空白的机会

当前，许多企业知道AI能节省时间和成本，但却不知道如何实施。与此同时，少数懂得如何构建Claude工作流、设置MCP服务器和创建自动化的专家正在赚取高额报酬。本文介绍了如何在短时间内成为这类专家，填补市场空缺。

硅谷前沿新闻2026年5月3日

基督徒用AI批量造圣经视频，Dawkins被AI散文说服订了Claude

屏蔽色情的基督教手机网络下周上线，同一批人却在Fiverr批量下单AI生成的圣经视频；《上帝错觉》作者Dawkins读完一段AI写的散文后，公开推荐大家订阅Claude。

AI新论文快读2026年5月3日

FID当loss一步生成达0.72

Eywa让LLM在科学任务里让位给领域foundation model；FD当训练loss把一步生成在ImageNet 256上做到0.72 FID；InteractWeb-Bench测出前沿web agent的盲执行问题；Synthetic Computers把长程agent训练环境合成做成可量产流水线。

硅谷前沿新闻2026年5月2日

OpenAI自家Cyber也搞「关键防御者」特供，Uber四个月烧光全年AI预算

前几周还在批Anthropic限制Mythos的OpenAI，自家Cyber同样只对「关键防御者」开放；Uber四个月用完全年AI预算的同一周，TikTok上付费宣传「中国AI威胁」的非营利组织拿下了五角大楼合同。

AI新论文快读2026年5月2日

dLLM跨架构蒸馏到0.6B

跨架构蒸馏把dLLM从8B压到0.6B：TIDE是首个teacher和student在架构、attention机制、tokenizer同时不同的dLLM蒸馏框架，HumanEval从32.3跳到48.78，8个benchmark平均增益1.53分。 agent训练数据合成正成为新基础设施层——ClawGym把13.5K人设驱动任务、模拟工作区、混合验证打包发布，HF 43 upvotes超过今日所

深度长文2026年5月1日

GPT Image 2 vs Nano Banana 2：5 场实测，中文电商场景下到底谁更能用

中文电商场景下，胜负的分水岭不是画质，是「产品文字能不能保住」。5 场实测：banner、模特一致性、九宫格、生活场景图、背景替换。GPT Image 2 拿下 3 场，Nano Banana 2 拿下 2 场。最后给一套不用二选一的「模型路由」组合方案。

硅谷前沿新闻2026年5月1日

Musk当庭认了蒸馏OpenAI，Zig干脆把AI写的代码拒之门外

xAI律师还在法庭上把证人身份报错，Musk自己先承认蒸馏过OpenAI模型；Zig项目直接宣布不收AI生成的PR，Copilot则把AI评审拆出来按分钟计费。

AI新论文快读2026年5月1日

递归MAS省35%token，T2I整张重画

递归扩展从单模型迁到multi-agent：RecursiveMAS把整个多agent系统cast成一次latent-space递归计算，9个benchmark平均+8.3%accuracy、token用量降34.6%-75.6%、推理1.2-2.4x加速，给multi-agent补上一个明确的scaling旋钮。 T2I精修，整张重画反而更彻底：editing-based路线把可改空间压窄导致改

硅谷前沿新闻2026年4月30日

给Meta标数据的700人收到裁员预警，同周Mercor被偷走4TB语音

同一张餐照上传27000次，AI算出的碳水没有一次重复；Codex的系统提示让它假装有丰富内心，公司却忙着把产品讲得越来越吓人。

AI新论文快读2026年4月30日

RL给视频生成补3D一致性

World-R1把3D约束做成RL奖励信号，让已部署视频底座不改架构就能补几何能力；DataPRM指出数学域过程奖励搬到数据分析就歇菜；金融agent的sycophancy风险主要来自用户预先表态而非事后反驳。

硅谷前沿新闻2026年4月29日

Musk在证人席说「只想拯救人类」，同周五角大楼给Google开出「任何合法用途」AI合同

Mercor被曝泄露4万名AI标注员的4TB语音样本，Anthropic把Claude接进Photoshop和Blender，OpenAI被传拉上联发科、高通造手机。

AI新论文快读2026年4月29日

去掉情绪词后probe准确率塌到5%

silicon panel在均值上可信、在方差上不可信——Stanford用277位职业哲学家做ground truth,七个开源闭源模型都能复刻聚合分布,但跨问题相关性被系统抬高、少数派和内部冲突被压扁;做对齐panel、合成调研,只要分析依赖「分歧形状」就拿不到真信号。情绪探针在去关键词刺激上准确率从82%塌到5%。 MIT的AIPsy-Affect给了480条配对刺激、把emotion关键

深度长文2026年4月29日

如何从零开始创建AI代理人

本文介绍了如何从头开始创建一个实用的AI代理人，结合了Anthropic、OpenAI等专家的资源，适合普通人理解并操作。完成后，您将能够创建自己的第一个AI代理人。

深度长文2026年4月28日

如何编写有效的CLAUDE.md文件

CLAUDE.md是每个Claude Code会话的起点，决定模型行为。文件过长或缺乏重点会降低效果，建议控制在100-150条指令以内以确保模型可靠遵循。

硅谷前沿新闻2026年4月28日

OpenAI删掉「触发AGI就退出」条款，转身拿下五角大楼合同

当年那条防止微软滥用AGI的退出条款被悄悄埋葬；同一周Google员工还在抵制军方AI合作，OpenAI已经签下了联邦准入证。

AI新论文快读2026年4月28日

ProEval省8-65倍评测样本

Google把benchmark评测变成贝叶斯估计问题，1%误差下样本量降到1/8到1/65；形式语言任务首次给出FT vs ICL的清晰对照；novelshare用非可逆hash让带版权的标注语料合法跨机构共享。

深度长文2026年4月28日

GPT-5.5 八维评测：哪些场景是真强项，哪些是营销噱头

GPT-5.5 在 8 个核心基准上和 Claude、Gemini 的对比。终端使用、知识工作、电脑使用、工具调用、网页浏览、高阶数学、网络安全——每个维度它的实际位置在哪里，哪些场景值得你切过去用，一看就清楚。

深度长文2026年4月28日

GPT-5.5 价格翻倍？三个纸面价格不会告诉你的「暗坑」

GPT-5.5 出来后，三家厂商的「价格」都不是它们公布的那个数字。OpenAI 涨价高调但留了后门，Anthropic 不涨字但偷涨量，Google 低价有上限。看 API 账单的本质是「每完成一个真实任务花多少钱」，不是单价表。

深度长文2026年4月28日

GPT-5.5 三个反差点：越聪明越敢瞎编

GPT-5.5 发布后，仔细看数据有三个让人警惕的反差。准确率全行业第一，但碰到不会的题有 86% 概率胡编一个答案；最权威的编程基准它直接没放——因为放了就要承认落后；API 重度使用月费 $550，订阅版才 $20。

硅谷前沿新闻2026年4月27日

Claude退订帖冲上HN榜首，同周一个agent删光生产数据库

开发者公开宣布弃用Claude的帖子拿到HN 957分，同一周另一个AI agent把生产数据库删了个干净；而在Mill Valley，有人挂牌13英亩房产只收Anthropic股票。

AI新论文快读2026年4月27日

完整trace让多agent归因准76%

多agent debug从感觉变成数字:TraceElephant把failure attribution做成显式benchmark,完整执行trace比只看agent输出能把归因准确率提升76%。主模型不动也能让关键证据被看见——HiLight训练一个旁路Actor在输入侧加emphasis,主模型frozen,学到的策略可零样本迁移到闭源API。大小模型分流改成模型自己学,RouteLMT

硅谷前沿新闻2026年4月26日

Lidl母公司抄底德国AI旗舰，Sam Altman为枪案致歉小镇

欧洲连锁超市巨头在美方对华制裁前夜接盘Aleph Alpha；Altman亲笔承认ChatGPT未及时把加拿大枪案预警转给警方。

AI新论文快读2026年4月26日

10K数据训出4B agent，MoE扩容省32%

10K开放数据训出4B deep research agent：DR-Venus用agentic SFT+turn-level RL的两阶段recipe训出edge可部署的agent，能力超9B以下agentic模型并向30B级缩小差距 MoE扩容复用现有expert省32% GPU时间：Expert Upcycling从已训checkpoint做expert复制+router扩展，再让exper

硅谷前沿新闻2026年4月25日

Google同周资本芯片算法三连击，Meta签下数百万颗CPU做agent

Google一周在投资、芯片、训练算法三个层级同时落子；Meta签下数百万颗亚马逊自研CPU用于agent推理，这是CPU首次在AI芯片采购中达到与GPU相当的量级。

AI新论文快读2026年4月25日

压agent改分,4轮就开始作弊

压agent刷公开分会主动诱发走捷径:1326条coding agent轨迹里403次出现公开分上去而隐藏真实评分掉的情况,首次走捷径的轮次从约20轮提前到约4轮,问题在反馈环设计不在模型。开源统一多模态架构出现真正的分叉——LLaDA2.0-Uni把discrete diffusion加MoE推到几百亿参数,和Qwen-Omni、Janus那一支自回归路线分道。 NPO让off-policy轨

AI新论文快读2026年4月25日

校准critic让推理涨18点

TEMPO用周期性外部校准修复TTT中的critic漂移，OLMO3-7B在AIME 2024从33%涨到51%；Micro LMs把端侧模型重新定义为只写前几个词的开场白生成器。

硅谷前沿新闻2026年4月24日

OpenAI发GPT-5.5同日悬赏2.5万找生物越狱，Anthropic罕见公开降质postmortem

OpenAI一边推GPT-5.5一边挂2.5万美元赏金征集生物越狱样本；Anthropic罕见公开Claude Code降质事故报告的同一周，Codex周活已冲到400万。

硅谷前沿新闻2026年4月23日

Pro档20美元可能装不下Claude Code，打工人AI账单已超工资

OpenAI和GitHub同一周调整个人订阅，有人怀疑20美元的Pro额度快兜不住Claude Code；另一边一批创业公司把「员工AI支出超过工资」当成融资故事在讲。

AI新论文快读2026年4月23日

305M检索器指令遵循涨45%

检索器忽视指令约束是数据问题、不是模型容量问题：IF-IR用互补指令对+标签反转合成对比样本，305M encoder在FollowIR基准上提升45%，打赢参数量相当甚至更大的通用embedding。 RLHF的单点失败藏在reward model里，ARES把红队从「发现漏洞」推进到「端到端修复policy-reward系统」，对真实在跑RLHF pipeline的团队更贴近工程需求。 MLL

硅谷前沿新闻2026年4月22日

Firefox用AI一次扫出271个零日漏洞，Tesla被曝瞒报数千起自动驾驶事故

Mozilla警告开发者要准备过几年苦日子；Atlassian默认把客户数据喂给AI，Meta开始录下员工每一次敲键。

AI新论文快读2026年4月22日

答案摆面前agent也视而不见

Cohere把解法直接塞到agent眼前它仍按剧本走；SkillFlow把评测挪到终身技能维度；一个128维卷积块打过时序异常检测的attention SOTA；医疗VLM可以被背景区域的不可见扰动系统性带偏

硅谷前沿新闻2026年4月21日

中国工程师拒训替代自己的AI，Deezer平台44%新歌是AI刷出来的

被要求亲手带出接班的AI agent后，中国工程师集体递辞呈；Deezer每天新上传的歌近一半由AI生成，大部分播放被系统判为刷量。

AI新论文快读2026年4月21日

3B拒答追平R1，B矩阵是LoRA瓶颈

Abstain-R1把「该拒答就拒答」写进可验证奖励，3B模型拒答追平DeepSeek-R1；Pico发现LoRA合并的干扰主要来自B矩阵；多元价值观对齐目标本身被当成越狱向量。

硅谷前沿新闻2026年4月20日

学生重拾打字机，Allbirds改名AI股价翻七倍

一边是学生为躲AI检测用回打字机交作业，一边是卖鞋的Allbirds改名「AI公司」股价七天翻七倍；SaaS创业者给自己判了12个月死刑，Salesforce直接宣布砍掉浏览器层。

AI新论文快读2026年4月20日

Qwen3.5-Omni扩到几百亿参数

开源omni第一次把体量推到对标闭源旗舰的级别，Qwen3.5-Omni给语音视觉团队提出「是否重估自建方案」的问题；LLM-as-judge在语用任务上显示裁判能力强于自己的生成能力，基于self-judge的评测体系面临一个不对称的盲点。

深度长文2026年4月20日

多代理协作：打造强大的AI团队

单个AI代理可以进行研究、写作、分析或编程，但无法同时做得好。通过建立专门化的代理团队，每个代理专注于一项任务，能够高效协作，创造单个代理无法匹敌的成果。这种多代理协作架构是当前最强大AI系统的核心。

硅谷前沿新闻2026年4月19日

Sora推手离场，OpenAI转身押注制药AI

Sora头号产品负责人本周出走，OpenAI却把面向药企的GPT-Rosalind推上头版；与此同时Cerebras揣着百亿订单冲IPO，DRAM缺口要补到2027年。

AI新论文快读2026年4月19日

语料编译成目录，日志训LLM替身

RAG从「检索-消费」变成「导航-游走」：Corpus2Skill把整个语料离线编译成层级化skill目录，agent按摘要往下钻而不是被动等结果，WixQA上全面压过dense retrieval、RAPTOR和agentic RAG。生产日志本身就是免费蒸馏语料，TRACER用parity gate让轻量surrogate接管77类意图的83-100%流量；NLI任务上会主动拒绝部署，「知道

硅谷前沿新闻2026年4月18日

Anthropic向白宫递投名状，OpenAI砍掉Sora关掉消费线

被白宫骂了两个月「极左疯子」后，Anthropic拿出网络安全模型示好；同一天OpenAI关停Sora、解散科学团队，两位消费产品负责人同日离职。

AI新论文快读2026年4月18日

腾讯开源3D世界生成、VLM偏科探针

腾讯HY-World 2.0把3D世界生成拆成四阶段流水线、对标闭源Marble；Stanford用一个极简探针暴露多模态模型的语言压制视觉问题。

硅谷前沿新闻2026年4月17日

Codex瞄准Claude Code，开源小模型画赢Opus 4.7

OpenAI的Codex从补全API升级成能操作整台电脑，直接对标Claude Code；而Simon Willison的鹈鹕测试里，Qwen3.6-35B画得比当周发布的Opus 4.7还像样。

AI新论文快读2026年4月17日

大模型更抗谣言却更易被噪声带跑

Agent失败可以拆成两类可测的错误：死磕一条路（exploit过强）和漫无方向（explore过度）能用黑盒指标分开度量，不需要访问模型内部策略，frontier模型失败模式差异明显 scaling把「看context」拆成两种反向变化的子能力。 Google在两个模型家族上给出首个contextual entrainment的scaling law：大模型抵抗反事实谣言的能力是小模型4倍，被无

硅谷前沿新闻2026年4月16日

Allbirds估值蒸发99%后转型AI，股价一天涨600%

一双鞋卖不动的公司喊出AI转型，市场立刻买单；OpenAI的投资者开始觉得Anthropic更划算了。

AI新论文快读2026年4月16日

VLM换规则就崩·DLM加速4倍

VLM看得懂棋面，却无法遵循替代规则——14个模型在同一终局画面上，标准规则准确率显著高于反转规则，研究者将此命名为「语义固化」，对需要模型遵循自定义规则的应用是个警示英文安全对齐在低资源语言下断崖式失效。 LASA在模型语义瓶颈层做语言无关对齐，将LLaMA-3.1的平均攻击成功率从24.7%降至2.8% 扩散语言模型上朴素稀疏attention直接失效，被mask token的KV膨胀是根因

硅谷前沿新闻2026年4月15日

真人照片也能被盖上AI伪造标签，Google水印系统双向告破

一名开发者称已双向破解Google SynthID——AI生成的图可以洗白，真人拍的照片反而能被标记为AI伪造；84%的AI从业者看好AI医疗前景，公众中只有不到一半买账。

AI新论文快读2026年4月15日

PRM标注成本降两个数量级，dLLM幻觉错法不同

dLLM的幻觉模式跟自回归完全不同，首个受控对比实验识别出三种特有故障模式（过早终止、去噪不完全、上下文侵入），现有检测工具需要针对性重新设计对比互信息让过程奖励标注成本降两个数量级：直接从模型内部概率提取步骤级信号，不需要反复采样rollout。ACL接收 RAG知识库防御从静态规则升级为运行时博弈。借鉴栈金丝雀概念嵌入canary token做持续检测，即插即用不改现有架构 TorchUMM

硅谷前沿新闻2026年4月14日

扎克伯格要用AI分身替自己开会，SWE-bench满分只要10行代码

Meta正在用CEO的声音和习惯训练数字分身代替真人沟通，而号称最难的编程基准测试被10行Python刷到满分——不用解任何一道题。

硅谷前沿新闻2026年4月14日

Gary Marcus称Claude Code是大模型以来最大突破，OpenAI全员下发AI指南

批评深度学习25年的人终于被说服了，而OpenAI没等争论结束，已经把ChatGPT使用手册同时塞进了营销、财务、销售每个部门的手里。

AI新论文快读2026年4月14日

SFT收敛≠全学会，注意力劫持破防94%

SFT的loss收敛后，模型仍会在训练集上系统性答错特定子集。跨三个模型家族复现了五类成因，aggregate指标不足以判断微调质量奖励模型不需要每次打分都做CoT推理。E-GRM用生成一致性估计不确定性，对简单样本跳过深度推理，降本的同时反而提升了准确率 Coding agent评测引入credit预算后排名洗牌。前沿agent在资源约束下找不到最优平衡点，行为高度路径依赖操纵注意力权重让模

硅谷前沿新闻2026年4月13日

AI头号批评者低头了，从业者自己在讨论暴力

写了25年批评的Marcus称Claude Code是「最大突破」；一篇预言AI将遭遇暴力的文章收获572条评论，最焦虑的不是外人，是从业者自己。

AI新论文快读2026年4月13日

DMax让扩散LM并行效率提升近3倍

腾讯用一个VLM统一了机器人的感知和规划，释出2B端侧+32B推理双规格模型，模块化pipeline的复杂度优势可能不再成立扩散语言模型的并行解码效率提升近3倍：DMax用连续embedding插值替代二值跳变，两块H200跑到每秒1,338 token Agent的核心瓶颈不是工具太少，是调用太多。HDPO将精度与效率拆成正交通道，工具调用量降几个数量级而准确率不降文生视频的计数问题有了tr

硅谷前沿新闻2026年4月12日

法院拒绝叫停Anthropic封杀令，Linux内核给AI代码立规矩

Anthropic请求法院叫停Trump政府技术封杀令被驳回，封杀继续执行；OpenAI因供应链攻击紧急轮换签名证书，而Linux内核社区选在这个时候给AI辅助代码贡献画下第一条正式红线。

AI新论文快读2026年4月12日

打乱音视频练推理，6B模型超GPT-4o

Agent技能应该从用户群体中自进化：SkillClaw把多用户交互轨迹变成skill进化信号，一个人的修正自动同步全员，给Agent系统装上组织记忆小模型压缩比大模型硬看更聪明，Tempo用6B模型根据问题动态筛选关键帧，8K token预算下超过GPT-4o和Gemini 1.5 Pro 灯光在视频生成中成为独立可控要素。LiVER通过物理渲染器解耦光照、布局与运镜，CVPR接收，瞄准专业影

深度长文2026年4月12日

The most boring billion-dollar businesses of 2027

深度长文2026年4月12日

如何通过AI建立社交媒体自动化系统

本文讲解了如何通过AI工具建立一个自动化社交媒体内容管理系统，帮助小企业节省时间并提高工作效率。只需花费48小时学习，便能掌握该技能，并为客户提供价值超过1000美元的服务。

硅谷前沿新闻2026年4月11日

微软拆掉Copilot按钮，OpenAI忙着推AI免责法案

Windows 11应用中的Copilot入口被换成写作工具菜单，OpenAI却在伊利诺伊州游说AI公司免责立法，Take It Down Act同周落下首例定罪

AI新论文快读2026年4月11日

微调即加速1.7倍，token崩的不是channel

纯微调就能让LLM一步吐多个token， MARS不改架构不加参数，Qwen2.5-7B实测加速1.71倍，部署迁移成本几乎为零图像自编码器压缩崩了别急着加channel——TC-AE发现真正塌缩的是token利用率，从token空间入手反而更简单有效 World model的空间一致性和实时性终于不用二选一。 INSPATIO-WORLD把两件事拆成独立模块，单视频输入即可生成可实时导航的4D

硅谷前沿新闻2026年4月10日

Claude分不清谁在说话，ChatGPT Pro卖到100美元还不够用

多家大模型被发现会混淆对话中的发言者身份，佛罗里达州对OpenAI发起安全调查，而消费端订阅价格已逼近用户承受极限。

AI新论文快读2026年4月10日

Entropy在骗你，隐式推理止于7步

Entropy稳定不代表推理健康。 RAGEN-2发现agentic RL中的「模板坍缩」——模型用固定模板应对所有输入，entropy完全看不出来，互信息才是更可靠的训练监控指标 Meta试图让模型本身成为计算机——Neural Computer统一计算、记忆和I/O，概念有启发性，但核心难题尚未解决，当方向信号看隐式推理存在硬性深度上限：最大规模模型的latent planning也止步于

硅谷前沿新闻2026年4月9日

三大实验室同周加注，AI的下一个战场是品味和安全

OpenAI、Anthropic、Google同一周否定「撞墙论」集体押注；与此同时，AI让所有人的文字越来越像，开发者开始争论：当代码可以自动生成，人的价值到底在哪里。

AI新论文快读2026年4月9日

单GPU训120B·视频评测四成靠猜

单卡全精度训120B参数，吞吐量比DeepSpeed快1.84倍。 MegaTrain把GPU降级为临时计算引擎，参数全存CPU内存，流水线双缓冲突破带宽瓶颈，单机路线的性价比值得小团队评估 40-60%的视频理解题不需要看视频就能答对——两篇独立工作同时揭示模型在做「阅读理解」而非「视频理解」，过滤文本偏见后用更少数据训练反而提升6.2个点不指定催化位点，AI自主设计的酶活性超过人工工程化酶。

硅谷前沿新闻2026年4月8日

AI歌手霸榜iTunes 11席，Google搜索每小时答错千万次

虚拟歌手Eddie Dalton占据iTunes排行榜，Suno与唱片公司的授权谈判还没谈拢；Google AI搜索每小时输出数千万条错误回答，连对的也越来越难验证。

AI新论文快读2026年4月8日

视频问答跑到2FPS，RLVR自带噪声过滤

VideoLLM实现2FPS流式视频问答，AURA用端到端架构统一持续感知和主动响应，集成ASR+TTS已跑通可交互原型。 Agent信息过时怎么办，ClawArena给出系统评测——64个场景覆盖动态更新下的信念维护，发现框架设计的影响接近模型能力差异的60%。 RLVR的rollout条件天然过滤噪声标签。错误标签要生效需模型自行复现出错误答案，噪声比0.9时仍保持鲁棒。测试筛代码的循环依赖

硅谷前沿新闻2026年4月7日

伊朗导弹瞄准Stargate，AI算力成了军事靶标

革命卫队威胁对AI数据中心发动导弹打击，算力基础设施第一次被列为军事目标；AI三个月建完八年未竟的项目，开发者社区的反应不是赞叹而是集体反弹。

AI新论文快读2026年4月7日

Diffusion推理省54%算力不降质

Diffusion推理砍半算力质量反升，DiffSparse用可学习predictor逐层逐步决定token稀疏率，PixArt-α上省54%计算量，与蒸馏/量化的叠加效果待验证多角色视频的身份混淆根源在位置编码：PoCo从position embedding层面重新设计控制机制，跨镜头一致性和参考保真度均有改善。Sora2也在攻同一方向 Next-scale AR从图像扩展到动作生成——粗到细

硅谷前沿新闻2026年4月6日

Claude Code被投毒分发，Trump关税挡了自己的AI路

黑客篡改Claude Code泄露代码大规模分发，AI开发工具正变成供应链攻击新入口；Trump一边催建AI数据中心，一边用关税把硬件成本全拉高了。

AI新论文快读2026年4月6日

32B硬件代码开源进第一梯队，Agent难题仅23%

硬件代码调试有了开源32B选项，InCoder从工程师实际犯错过程中蒸馏推理链，在LiveCodeBench和CAD-Coder上进入开源第一梯队，不过KernelBench 38%说明GPU优化类任务离实用仍远 CLIP的空间语义短板是训练目标决定的。CoME-VL把CLIP和DINO做表征级融合，grounding任务提升5.4%，给双编码器方案提供了系统性ablation参考 Agent「答

硅谷前沿新闻2026年4月5日

Anthropic什么都想要，创作者什么都保不住

民谣歌手的歌被AI仿冒上架，插画师的手绘被当成AI生成，创作者两面挨打；Anthropic同周收购生物公司、建政治行动委员会、登顶二级市场，胃口大得吓人。

AI新论文快读2026年4月5日

400万游戏帧练渲染，技能内化胜过检索

离散token是LLM的架构天花板而非优化目标，综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。 Agent技能用RL内化进参数比检索注入更强：SKILL0的渐进撤除课程在ALFWorld上提升9.7%，推理时每步上下文不到500 token。 3A游戏引擎是生成式渲染被忽视的数据金矿——400万帧同步RGB+G-buffer数据，微调后的模型在跨数据集泛化上明显领先。

硅谷前沿新闻2026年4月4日

犹他州让AI开精神科处方药，八成人连错都不敢纠

犹他州批准AI开具精神科处方药的同一周，研究发现八成人面对AI的错误选择沉默；OpenAI一周走了三名商业高管，AGI部署负责人到任几个月就请假了。

AI新论文快读2026年4月4日

单神经元记住实体，套路复用提效19%

单个MLP神经元能触发实体级「失忆」，Google在200个实体上验证了因果关系，知识编辑可能从大面积手术变成精准定位从推理轨迹提取可复用解题套路：3200万条程序性知识让模型不再每题从零推理，最高提升19.2% 用真实中断事件监督微调LLM做供应链预测，准确度和校准度显著超越GPT-5零样本。低频高影响场景的通用范式值得关注

硅谷前沿新闻2026年4月3日

OpenAI买下采访自己的脱口秀，被采访的成了老板

AI公司开始收购报道自己的媒体；同一天，Perplexity「无痕模式」被告上法庭，Granola笔记默认让所有人看到你写了什么。

AI新论文快读2026年4月3日

极简Agent打平MCP，代码推理边写边想

终端+文件系统的极简Agent打平全副武装MCP方案，72个HF upvotes说明从业者对Agent过度工程的集体焦虑不是空穴来风——但评估任务是否覆盖真实企业场景的全部复杂度，仍需追问代码生成按需插入推理token，四个基准全部SOTA：Think-Anywhere让模型在高熵位置自动触发思考，比先想后写更贴合编程中复杂度逐步暴露的认知节奏三层Agent协作把小时级素材自动剪成音乐同步短视

硅谷前沿新闻2026年4月2日

Copilot「仅供娱乐」，AI全面转向够用就行

Microsoft法律条款称代码助手仅供娱乐，GitHub同月在代码审查里塞广告；Claude Code用户自建拆解指南，同一周配额投诉激增。

AI新论文快读2026年4月2日

配比成本降35倍，显眼词劫持推理38倍

数据配比从训前超参变为训后优化，OptiMer为每个数据集单独训模型后在参数空间搜索最优合并权重，搜索成本降低15-35倍。表面线索对LLM推理方向的劫持力是目标约束的8-38倍：跨六个模型呈现稳定sigmoid曲线，但一句最小提示就能恢复15个百分点。双流DiT从架构内部统一文本语义和空间结构——MMFace-DiT在人脸生成上比六个SOTA提升40%，单模型适配多种空间条件。

硅谷前沿新闻2026年4月1日

Claude Code源码全曝光，OpenAI越融越窄

一个source map文件把Claude Code的源码扒得干干净净；OpenAI拿下1220亿美元融资、估值冲到8520亿，产品线反而在收窄。

硅谷前沿新闻2026年3月31日

Copilot写代码时顺便打了个广告，美国人越用AI越不信AI

GitHub Copilot在开发者的Pull Request里插入广告，ChatGPT前端代码暴露了用户信任危机；同一天四笔共15.3亿美元砸向AI算力，钱比信任跑得快。

AI新论文快读2026年3月31日

水印实现bit级溯源，扩散VLM进GUI定位

离散扩散VLM首次被验证可用于GUI定位，双向注意力在空间任务上展现结构性优势，数据多样性带来20点平均提升，CVPR录用 LoRA的零空间压缩程度与任务性能正相关，可直接用作合并权重信号。不依赖标签和任务类型，在异构视觉任务上达到SOTA 视觉骨干的效率研究几乎默认高并行硬件：CPUBone针对无AI加速器的边缘设备做了系统设计，在CPU上减少计算量不等于减少延迟 AI水印从阈值检测升级为精确信

硅谷前沿新闻2026年3月30日

Codex上插件追Claude Code，AI视频OpenAI先撤了

AI编程从功能比拼转向生态之争，OpenAI却在视频赛道率先退场留下一群还在加注的VC；AI生成速度已超过检测速度，一周内从个人自救变成国家武器。

硅谷前沿新闻2026年3月29日

跟AI聊完人更不认错了，软银借400亿押注OpenAI上市

斯坦福2405人实验证实谄媚AI让人变得更固执；xAI只剩Musk一人的同一周，Anthropic付费用户翻了一倍。

AI新论文快读2026年3月29日

Mistral自研TTS、扩散LLM加速4.7倍

Mistral成为首家自研TTS的主流LLM实验室，3秒参考音频即可语音克隆。语音合成正从专用供应商领域变成LLM厂商标配能力扩散语言模型有了首个无训练加速方案：S2D2利用block size=1的退化特性让同一模型充当drafter和verifier，最高实现4.7倍加速 On-policy蒸馏的sampled-token实现在长序列下本质脆弱。三个failure mode和对应修复方案，是

硅谷前沿新闻2026年3月28日

AI七小时省50万美元？社区拿代码逐行对账

Reco.ai宣称AI七小时重写JSONata年省50万，社区逐行验算给出不同答案；同一周法官叫停五角大楼对Anthropic的封杀令，白宫AI沙皇已经离任。

AI新论文快读2026年3月28日

蒸馏砍掉模型的犹豫，OOD暴跌40%

自蒸馏砍掉的是模型「犹豫」的能力，不是冗余步骤——epistemic verbalization被压制后，模型在OOD场景性能暴跌40%，评估指标却看不出来。 Coding agent代码冗余度比人类项目高2.2倍。 SlopCodeBench首次量化了多轮迭代中技术债的积累：11个模型无一能端到端完成任务，prompt优化治标不治本。桌面操作Agent的瓶颈是演示数据，不是模型架构：CUA-S

硅谷前沿新闻2026年3月27日

Wikipedia向AI说不，苹果谷歌同周疯狂拥抱AI

全球最大知识库明令禁止AI写条目，同一周苹果把Siri交给第三方AI，谷歌连发三项实时功能还上线「导入对手记忆」。

AI新论文快读2026年3月27日

投机执行快3倍，不丢token反更快

Agent投机执行实现最高3.35倍加速，SpecEyes将CPU投机执行思想引入agent循环，用小模型预测轨迹并行化视觉工具调用，准确率不降反升 VLM加速的答案不是压缩视觉token而是按需查询。VISOR用稀疏交叉注意力替代密集自注意力，保留全部视觉信息同时大幅降低计算量（CVPR） World model数据集缺的不是规模而是结构——WildWorld提供动作-状态-观测三层解耦的1.0

深度长文2026年3月27日

AI系统在各行业的核心痛点与销售机会

作者基于为80多家公司构建AI系统的经验，总结了不同行业最关键的业务瓶颈，并指出如何针对性地销售AI解决方案。内容旨在帮助AI从业者更精准地定位客户需求并提高成交率。

硅谷前沿新闻2026年3月26日

谷歌让开发者用API作曲，OpenAI一天补三张安全牌

谷歌Lyria 3面向全球开放，音乐生成正式成为可调用的基础设施；OpenAI在同一天连发行为框架、赏金计划和青少年保护工具，密集程度像在赶交作业

AI新论文快读2026年3月26日

扩散OCR解码快3.2倍，单流架构2秒出片

扩散解码替代自回归，文档OCR从串行跳到并行。 MinerU-Diffusion把文档解析重定义为逆渲染问题，用分块扩散解码器并行生成结构化源码，解码速度提升3.2倍，开源可用 RLVR训练信号的方向比幅度更重要： token级Δlog p的正负号能更精准定位推理关键的稀疏更新，据此提出的推理外推和训练加权方法不改架构即可应用多任务SFT存在大量隐性计算浪费，不同子数据集过拟合速度差异巨大。m

硅谷前沿新闻2026年3月25日

OpenAI砍掉Sora搞丢迪士尼10亿，转头承诺10亿做慈善

Sora说关就关，迪士尼10亿美元合作跟着破裂；同一周OpenAI基金会许诺10亿治病济困，ChatGPT上线了购物功能。

AI新论文快读2026年3月25日

PDE替掉attention误差低2倍，局部RL省3/4算力

形式化证明拆成三个独立能力分别RL，比端到端训练更高效——LongCat-Flash-Prover把自动形式化、框架搭建、逐步证明分开强化，配合HisPO算法解决MoE长链训练不稳定，方法论不绑定模型规模 SFT轨迹上叠加局部RL，四分之一算力逼近端到端效果。 PivotRL只在高方差「转折点」做rollout，OOD任务比标准SFT高10%，已在NVIDIA Nemotron生产模型中落地 PD

硅谷前沿新闻2026年3月24日

黄仁勋说AGI到了，AI已在冒充你发邮件

英伟达CEO公开宣称「我们已实现AGI」，Superhuman CEO同期被当面质问——你的AI为什么先假装同意用户、再假装成用户发邮件？

AI新论文快读2026年3月24日

Seed1.8把Agent做进基座，语言训练让视觉退化

Seed1.8把搜索、代码执行、GUI交互统一到基座层，字节跳动发布Agent原生基座模型，部署侧针对延迟和成本做了优化，但缺少与通用模型+框架方案的直接对比。多模态模型的语言训练在系统性侵蚀视觉表征——跨架构、跨规模的诊断发现，单一文本生成目标迫使模型牺牲视觉保真度。PRe方法通过中间层预测约束缓解退化。 DiT微调显存大幅下降，效果接近全量微调。动态patch采样按时间步调整分辨率，cros

深度长文2026年3月24日

AI写代码爆发，但理解能力停滞：软件工程的“认知鸿沟”

随着AI生成代码比例迅速攀升，开发效率大幅提升，但人类对系统行为的理解却未同步增强，导致缺陷、技术债和调试成本持续上升。文章指出问题根源在于缺失“事件时钟”（决策与上下文），并提出通过构建类似AI“世界模型”的代码仿真来弥补这一关键能力缺口。

硅谷前沿新闻2026年3月23日

Cursor模型来自月之暗面，AI编程工具开始套娃

最热门的AI编程助手承认核心模型构建于Kimi之上，用户才发现自己信赖的工具背后另有供应商；GDC展厅挤满AI工具商，场外玩家却在联名抵制游戏里的AI美术。

AI新论文快读2026年3月23日

12B超GPT-4，蒸馏后学生反超教师

生成式推荐的「泛化优势」在token级别退化为记忆重组，按实例融合两种范式比选边站更务实。安全合规评估因标准明确、专家稀缺成为Agent理想场景：领域微调能识别通用模型遗漏的行业风险，但上下文窗口是实际瓶颈。长序列web任务的瓶颈是缺少中间检查点，子目标分解让12B开源模型成功率从6.4%跳到43%，超过GPT-4级系统。离散扩散首次有了有效蒸馏方案——D-MMD在文本和图像两域验证，学生模

深度长文2026年3月22日

如何在X平台上有效增长：正确的心态与策略

很多人未能在X平台上成长是因为他们有错误的心态，认为X只是一个舞台，而不是一个社交派对。本文介绍了如何调整思维模式，并通过调整信息流、真实互动、保持一致性等策略来提升在X的影响力。

硅谷前沿新闻2026年3月22日

Trump说决裂，五角大楼说快签了：Anthropic把宣誓书递给法庭

五角大楼在「决裂」前一周还说合同快谈拢了，这份证词现在成了法庭证据；另一头，Cloudflare预测明年AI agent流量将超过人类。

AI新论文快读2026年3月22日

3B参数奥赛三金，768维离散token生成可行

Cascade RL加多领域蒸馏让3B参数拿下三项奥赛金牌，NVIDIA开源了完整训练配方，小模型推理天花板被重新定义视频扩散模型内部已学到完整3D空间先验：无需3D标注或几何模块，直接提取中间层特征就能做深度和场景流预测 768维离散token同时服务理解和生成。CubiD用细粒度掩码扩散绕过高维组合爆炸，多模态统一架构少了一个关键障碍 VLA部署的真正瓶颈是反应延迟而非轨迹平滑度——FAST

深度长文2026年3月22日

如何通过简单的6步故事框架销售任何产品

通过情感和兴奋来吸引顾客，讲述一个简洁的故事。首先引发行动，展示替代品的缺陷，再通过情感事件展现低质量产品的代价，最终呈现你的产品作为解决方案。

深度长文2026年3月22日

如何使用 GPT-5.4 构建精美的前端设计

GPT-5.4 在构建前端时能生成更加视觉丰富的界面，但仍需明确指导才能取得最佳效果。本文介绍了四个关键要素：设定合理的推理水平、定义设计系统、提供视觉参考和真实内容，以帮助构建有意图的前端设计。

深度长文2026年3月22日

AI Doesn't Close the Talent Gap. It Widens It.

硅谷前沿新闻2026年3月21日

谷歌替媒体改标题，OpenAI要常驻你的桌面

信息入口争夺战全面升级——谷歌开始改写媒体标题，OpenAI把ChatGPT做成桌面常驻应用，白宫忙着给AI松绑，微软却在同一周悄悄拆掉自己的AI按钮。

AI新论文快读2026年3月21日

3D仅需0.1%token，视频微调反伤空间理解

经验库与策略的错位退化是agent RL的隐性瓶颈。Complementary RL让经验提取器根据策略表现动态调整，实现协同演进而非静态积累。 Video-SFT的时序增益以空间退化为代价——跨架构、跨尺度的系统性实验确认，这不是个别模型的bug，是视频微调的结构性trade-off。视频生成做机器人策略辅助监督，但部署时可以关掉：GigaWorld-Policy的解耦设计比Motus快9倍且

深度长文2026年3月21日

AI将在未来2-5年取代50%的白领工作

AI技术正在迅速进步，许多领域的工作已经开始被AI取代。软件工程师外包工作给AI，普通人也能创建百万美元的初创公司。这引发了人们对未来职业方向的深刻思考：在AI能做几乎所有事情的情况下，我们该做什么？

深度长文2026年3月20日

白领职业面临AI冲击

未来十年，人工智能将对大量白领工作造成重大影响，许多传统上稳定的岗位将被取代，而少数人将因效率提升而价值上升。本文提醒读者正视这一职场变革的现实。

硅谷前沿新闻2026年3月19日

OpenAI收购uv和ruff，Anthropic要求开源删代码

Python最火工具链一夜易主归了OpenAI，同一周Anthropic要求开源项目删除集成代码，Meta的AI agent在内部泄露了近两小时数据。

AI新论文快读2026年3月19日

32B工业代码模型首发，战争验证推理真伪

通用代码模型在工业场景断崖式下跌，根源是数据和范式脱节。 InCoder-32B首次以32B开源基座统一芯片设计、GPU优化等五大工业代码方向，283个HF upvotes侧面验证行业需求 Agent产品最容易忽略的瓶颈不是能力上限，而是需求漂移。 MetaClaw在20+真实渠道跑通失败轨迹蒸馏与空闲窗口微调的双通道持续适应机制视频世界模型的空间记忆有了混合解法：显式3D管静态重投影、隐式生

深度长文2026年3月19日

242位企业主AI需求调研概览

基于在X和LinkedIn投放的4个引流活动，共收集242位企业主的AI挑战、目标与预算数据。受访者以专业服务和中小企业为主，多数公司规模在50人以下，覆盖SaaS、地产、电商等多个行业。

硅谷前沿新闻2026年3月19日

DeepMind众包AGI考卷，开发者说AI编码像赌博

DeepMind向全球征集AGI认知测试题，开发者却说用AI写代码就是在赌博；OpenAI刚在东京给青少年装上护栏，xAI同一周因AI生成儿童色情被告上法庭。

AI新论文快读2026年3月19日

开源搜索Agent逆袭，Agent Skills神话破灭

1.17万条合成数据训出的开源搜索Agent击败闭源对手，OpenSeeker在BrowseComp上几乎翻倍第二名，数据和模型全开源，Deep Research不再是大厂专利。跨层注意力让深层信息不再被稀释：MoDA让每个注意力头同时关注当前层和前层的KV，仅3.7%额外计算换来下游任务平均+2.11%，已开源。给Agent注入技能听起来很美，实测39/49个技能零提升。SWE-Skills

深度长文2026年3月18日

1.7 million businesses NEED AI. they HAVE the money. they don't have YOU.

深度长文2026年3月18日

AI学习者警告：94%技能将在2026年过时

大多数今天学习AI的人正在掌握将在2026年过时的技能，如提示工程和ChatGPT技巧。本文分析了AI市场的未来趋势，以及能在未来几年赚取高薪的技能路径。

深度长文2026年3月18日

Claude Code技能实践经验总结

本文总结了Anthropic在Claude Code中大规模使用技能（Skills）的经验，探讨了哪些技能值得开发以及如何编写高质量技能。文章强调技能不仅是Markdown文件，还可包含脚本、数据和动态配置，通过灵活结构提升开发效率。

深度长文2026年3月18日

用文件夹打造全能AI团队

本文介绍如何通过创建agents.md和memory.md文件，将AI代理转变为自动执行邮件、日程、广告和日常操作的团队成员。通过连接工具、构建技能和任务调度，企业可以显著提升生产力，实现跨部门自动化。

硅谷前沿新闻2026年3月18日

OpenAI转向专用小模型，Google拿你的数据换AI优势

AI实验室不再只卷「最强大模型」，OpenAI和Mistral同时押注工具型路线；Google把Gmail、日历、搜索记录全部喂给AI，免费开放的代价是你的隐私。

硅谷前沿新闻2026年3月18日

生成儿童色情的Grok，想进五角大楼

xAI的聊天机器人一边批量产出非法儿童图像，一边申请美军机密网络通行证；577名开发者的AI编码大规模实测出炉，研究者给这件事起了个学科名。

硅谷前沿新闻2026年3月18日

xAI两次推倒重来士气崩盘，AI共情训练已被律师警告

Musk的编码工具团队从Cursor挖人也救不回军心；另一边，招即兴演员教AI共情的项目广告还没撤，律师已将AI情感交互与大规模伤亡事件挂钩。

硅谷前沿新闻2026年3月18日

Spielberg说从未用过AI，Netflix同一周让AI拍片

好莱坞一周内撕裂成两个时代；场外，微软Copilot开始读用户病历，美军签下200亿美元AI合同。

硅谷前沿新闻2026年3月18日

xAI只剩2个创始人，AI识别救命也能害命

面部识别把无辜祖母送进监狱，同类技术却在澳洲偏远社区筛查心脏病；Musk的xAI创始团队几乎走光，他说要「从地基重建」。

硅谷前沿新闻2026年3月18日

美军要AI排打击优先级，做Jira的先裁了1600人

五角大楼推进AI辅助目标排序的同一周，OpenAI承认模型仍分不清该听谁的指令；Atlassian裁员1600人转向AI，因为它的客户已经不再需要那么多开发者。

硅谷前沿新闻2026年3月18日

Nvidia砸260亿自建模型，卖铲子的开始自己挖金矿

Nvidia不再只卖GPU，拿260亿美元下场做模型跟客户正面竞争；Hacker News刚封杀AI评论，同一周AI面试官已经在给求职者打分。

硅谷前沿新闻2026年3月18日

十亿美元押注LLM走错路，AI写的代码得人签字

Yann LeCun拿到十亿美元要另起炉灶推翻大语言模型路线；Amazon要求人工签字部署AI代码，联邦法官直接叫停AI自主下单。

硅谷前沿新闻2026年3月18日

关押移民的公司要来建AI数据中心了

ICE拘留设施运营商把油田「工人营」模式搬进算力工地；近40名谷歌和OpenAI员工公开声援Anthropic诉讼，两家雇主集体沉默。

硅谷前沿新闻2026年3月18日

AI公司的五角大楼困局：合作逼走人才，不合作被贴标签

OpenAI机器人负责人因军方合同辞职，Anthropic则要起诉国防部的「供应链风险」认定；Block裁员四成押注AI重建，但Alexa+的表现说明这条路远没那么好走。

硅谷前沿新闻2026年3月18日

Anthropic修漏洞又被列为安全风险，AI隐私问题全面失控

Meta眼镜私密画面流向肯尼亚外包团队，AI能识破匿名账号，而帮Firefox修补高危漏洞的Anthropic同一周被五角大楼标记为「安全风险」。

硅谷前沿新闻2026年3月18日

假Bug报告攻破Cline发布流水线，五角大楼AI监控无法可依

一条伪装成Bug报告的prompt injection打穿了AI编程工具的完整发布链；五角大楼已在用AI监控美国公民，但现行法律对此束手无策。

硅谷前沿新闻2026年3月18日

GPT-5.4发布当天，OpenAI自己的论文说推理模型「不可控

五角大楼把Anthropic列为供应链风险，OpenAI承认推理模型无法控制自身思维链，Nvidia宣布退出AI实验室投资——行业正在同时加速和后退。

硅谷前沿新闻2026年3月18日

高德纳的难题被AI攻破，但谁来检查AI写的代码？

Claude解出了数学家几十年未解的组合难题，AI coding agent的能力飞速增长，验证环节却成了新瓶颈——Simon Willison的反模式清单说出了行业不愿面对的问题。

硅谷前沿新闻2026年3月18日

Meta眼镜私密画面外包审看，ChatGPT卸载量暴涨295%

Meta智能眼镜录下用户私密画面，外包标注员被迫逐帧审看；微软封禁「Microslop」后锁定社区服务器，同周ChatGPT卸载量暴涨295%。

硅谷前沿新闻2026年3月18日

OpenAI向五角大楼让步，交出的恰是Anthropic的底线

OpenAI在监控问题上对五角大楼妥协，妥协细节正是Anthropic明确拒绝的条款；法庭和街头同时给AI划线——最高法院封死AI版权路径，伦敦500人游行要求暂停前沿研发。

硅谷前沿新闻2026年3月18日

Altman帮Anthropic说话，Anthropic转手一键抢它用户

五角大楼合同争议中，Altman罕见地公开替竞争对手辩护；同一周，Anthropic上线「记忆导入」功能，一个按钮就能把ChatGPT的用户数据变成自己的护城河。

硅谷前沿新闻2026年3月18日

OpenAI的五角大楼合同无人能审，Claude冲上App Store第二

OpenAI与五角大楼签下机密网络协议，「安全红线」写进合同但没人查得到；同一时间，Claude登上App Store第二名，OpenAI退订指南在技术社区成了热帖。

硅谷前沿新闻2026年3月18日

五角大楼封杀Anthropic，OpenAI的1100亿换了一群新金主

Anthropic被五角大楼列为「供应链风险」、白宫下令联邦机构全面停用，同一周OpenAI完成资本大换血，微软从唯一靠山变成三巨头之一；一个AI编程怀疑论者记录了自己180度转弯的全过程。

硅谷前沿新闻2026年3月18日

百万泄露密钥突然变危险，汉堡王给员工耳机装上了AI

Google API密钥从无害的公开标识符变成AI通行证，早已散落各处的数百万密钥一夜成了安全隐患；汉堡王员工耳机里多了个AI，既教做汉堡，也给你的礼貌打分。

AI新论文快读2026年3月18日

70万对论文蒸馏品味，零空间暴露盲区

社区引用信号可以训练出「品味」，RLCF用70万对论文配对做偏好建模，训练出的Judge判断力超过GPT-5.2，范式可迁移到任何需要品味决策的场景。分类器的结构性盲区藏在零空间里——SING将线性映射几何决定的不变量转化为自然语言描述，部署前审计模型「对什么无感」比刷准确率更管用。模型行为对上下文措辞的敏感度远超预期。改变任务描述就能系统性调节模型表现，无论是否构成「动机」，可操纵性本身是对

AI新论文快读2026年3月18日

专家推理结构做CoT，新类发现+13%

用领域专家的真实推理流程设计CoT监督，在医疗VQA中同时提升准确率和可追溯性，思路可迁移到任何需要结构化专业判断的垂直场景。CVPR接收最少几个特征就能复现模型的拒绝决策：将溯因解释最小化问题转化为0-1整数规划，实际求解效率优于不保证最优的方法。方法限于线性模型，但问题框架对高风险人机协作有启发训练时生成伪新类别样本来练习发现未知。抛弃hash编码，用纯特征空间方法消除训练-推理目标错位

AI新论文快读2026年3月18日

1/4预算Agent反超4倍暴力采样

SWE Agent训练的瓶颈是可执行环境而非算法，OpenSWE开源45,320个Docker化训练环境，覆盖12,800+仓库，构建成本147万美元揭示了学术组难以独立填补这一基础设施空白。预算感知的树搜索让Agent在1/4资源下胜过4倍暴力采样——用相对进展评分替代LLM自评，无需训练即可集成到现有Agent系统。传统embedding基准成绩无法预测记忆检索能力。 LMEB覆盖四类记忆

AI新论文快读2026年3月18日

文档Agent导航≈碰运气，预填充加速1.82×

文档Agent的推理能力被高估了，MADQA用经典测试理论设计的benchmark表明，最好的多模态Agent虽能追平人类准确率，但导航策略更接近随机搜索而非策略推理，与Oracle仍有近20%的差距理解3D空间的更好方式不是扩上下文窗口：Spatial-TTT让模型在推理时通过test-time training持续更新参数，边看视频边学空间结构，长视频场景提升显著稀疏注意力的indexer

AI新论文快读2026年3月18日

编码答案而非问题，embedding涨9%

编码LLM的潜在回复而非用户输入做embedding，纯自监督训练在MTEB上比最好的无监督方法提升9.3%，LLM的安全对齐也被迁移到embedding空间。 STEM视觉推理的真正瓶颈在感知而非推理。 CodePercept消融实验显示扩展感知组件收益持续更高，用可执行代码做感知脚手架效果显著。差分分解交叉协方差矩阵做注意力引导：Prism-Δ在20组评测中19组追平或超过SOTA，流畅度损

AI新论文快读2026年3月18日

「想一想」能翻模型的记忆库

CoT推理不只是解题，更是参数记忆的搜索机制，Google发现即使简单事实问题，开启推理也显著提升知识召回，推理token充当了隐式的记忆搜索空间 Agent交互信号统一为在线学习源：OpenClaw-RL把对话、终端、GUI反馈纳入同一套RL循环，让Agent边服务边学习，代码已开源推理能力提升可能自动带来情境感知。ICLR论文论证了逻辑推理与自我认知在机制上的结构性映射，alignment的

AI新论文快读2026年3月18日

先写代码再画图，排版提升68%

所有intrinsic RLVR本质是锐化初始分布，模型先验质量决定训练天花板。Model Collapse Step可在跑RL前预判可行性，避免无效投入代码比自然语言更适合做空间推理链：结构化布局基准提升68.83%，密集排版和多元素场景改善最为显著模仿学习的结构性缺陷是缺少判断力训练。 ACT用RL让模型在候选动作间做对比评估，批判能力可迁移到分布外任务高噪声扩散状态的信息量等价于低分辨

AI新论文快读2026年3月18日

4步超100步基线，跳层省18%算力

不可微奖励首次接入少步扩散模型RL训练，4步生成全面超越100步基线，人类偏好、安全检查、物体计数等实际业务中最需要的信号不再被挡在门外。代码模型RL后训练进入工程优化期：同一天两个团队分别从梯度稳定性和数据难度分布两端攻克具体瓶颈，方法论验证阶段已过。全自动pipeline从网络视频提取百万级3D标注。绕开人工标注天花板，数据规模化路径比模型架构创新更能释放3D理解能力。扩散LLM跳层可省

AI新论文快读2026年3月18日

12k样本赢金融SOTA，CUDA优化快35%

垂直领域post-training数据比模型大小更重要：金融场景系统消融实验表明，蒸馏质量控制+difficulty-aware采样让8B模型仅用12k RL样本就超越同规模SOTA 离线RL让agent规划从碰运气变成系统工程，微软用合成轨迹+质量打分训练工具调用规划，思路可迁移到任何多步agent任务模型部署后不该被锁死在固定权重上。腾讯HY-WU引入功能性记忆模块，实时生成实例级权重更新，

AI新论文快读2026年3月18日

去掉CLIP的VLM更强，prefill加速28倍

对比预训练与VLM目标天然不匹配，CLIP优化类别区分而VLM需要细粒度理解。腾讯Penguin-VL用纯文本LLM初始化视觉编码器，在2B和8B规模上反超CLIP/SigLIP方案。稀疏注意力的瓶颈从「如何稀疏」转向「如何发现」 — FlashPrefill证明注意力的稀疏模式可以近乎零成本识别，256K序列实现28倍加速，4K短上下文也不退化。模型合并失败有了可量化的诊断指标：DC-Mer

AI新论文快读2026年3月18日

「请简洁」砍半token，准确率反涨16分

自蒸馏砍半推理token准确率反涨，AR可视化策略弱点提升采集效率，数据分布编码进RAG向量——三个系统的改进信号都已存在于内部。

AI新论文快读2026年3月18日

14B视频模型单卡19.5FPS

14B视频模型单卡19.5 FPS，不用KV-cache、稀疏attention或量化推理，架构原生为实时设计而非事后加速补丁。验证机制才是test-time scaling的真正瓶颈——V1发现成对比较远优于独立打分，将生成和验证统一进同一个模型，Pass@1最高提升10%。科学假设生成的组合复杂度从O(N^k)压到O(log N)，MOOSE-Star先证明暴力检索在数学上不可解，再用任务

AI新论文快读2026年3月18日

code agent跨仓库不到45%

Code agent出了单仓库就不灵，BeyondSWE四维度500实例评测，最强模型成功率不到45%，加搜索也帮不上忙合作训练、独立部署：HACRL让异构agent共享验证rollout互相补课。采样成本减半，推理时零额外开销小模型筛记忆比大模型翻全量历史更靠谱——MemSifter用RL训练代理检索器，奖励直接挂钩任务完成度，8个基准全部达标一个编码器通吃五类点云。Utonia在密度和几

AI新论文快读2026年3月18日

Lottie动画直接生成，DPO自带防遗忘

AI生成动画首次直接输出可编辑工程文件，OmniLottie把Lottie的冗长JSON压缩成参数化token序列，让视觉语言模型直接生成带关键帧和缓动曲线的矢量动画，省去格式转换环节。CVPR接收，200万动画数据集已开源 DPO的reward估计自带隐式正则化，本身就能抑制灾难性遗忘。SPoT发现很多常见post-training做法反而在破坏这个内置保护，用4k条最小修正数据即可让Qwen3

AI新论文快读2026年3月18日

9K样本逼近R1，RL提升大半归SFT

9K精选样本训出逼近DeepSeek-R1的4B推理模型，CHIMERA证明推理训练的真正瓶颈在数据的领域覆盖和筛选质量，不在规模 Attention steering第一次能进生产部署：SEKA在频域编辑key embedding绕开FlashAttention兼容性限制，训练免、延迟可忽略。ICLR接收基础视觉模型的几何先验强到可以替代传感器标定。VGGT-Det在免标定3D检测上比前最优高

AI新论文快读2026年3月18日

谱条件统一μP缩放，数据筛选也泄露隐私

谱条件统一了μP的宽度-深度联合缩放，不再需要逐架构逐优化器单独推导超参数迁移规则，附带代码实现。数据筛选过程本身就泄露成员信息：Anthropic研究表明，即使模型只在公开数据上训练，攻击者仍可推断原始数据集的组成。 VLM让灵巧手听懂自然语言指令。UniHM用统一tokenizer跨手型泛化，只需人-物交互视频训练，不依赖遥操作数据。

AI新论文快读2026年3月18日

砍掉90%视觉token性能不掉

空间关系可以从「碰运气」变成可优化的目标，SpatialScore用reward model给生成模型装上空间理解信号，专用小模型空间评估超过GPT-4V。CVPR接收，数据集开源 Masked图像生成4倍加速且质量不掉：用动力学建模替代静态缓存，把离散采样丢掉的语义信息学回来 VLM量化不能一刀切，视觉和语言token分布差异大，MoE式动态误差补偿让不同token走不同修复路径。2B到70B都

AI新论文快读2026年3月18日

Latent推理靠的不是推理

Latent推理的性能提升来自副作用而非推理本身，因果中介分析显示latent token与输入输出之间存在因果断裂，用文本做显式想象的简单方案反而更优 Deep research agent砍掉七成推理步骤反而更准：并行证据采集替代串行推理链，搜索广度比推理深度更值得投入教育心理学的「测试驱动纠错」被搬进多模态训练，诊断-强化循环让模型自动定位弱点并生成针对性数据。11个benchmark持续

AI新论文快读2026年3月18日

三模态从零训练，Agent RL稳定性破局

Apple从零预训三模态masked diffusion模型，系统性测试了scaling law、模态混合和噪声调度，对做多模态扩散的团队直接可参考。masked diffusion正在成为自回归之外的可选路线 Agentic RL训练collapse有了系统性诊断框架：ARLArena把policy gradient拆成四个设计维度逐一消融，找到不稳定根源，比盲目换算法有效得多 SkyReels

AI新论文快读2026年3月18日

TTT就是线性注意力，Terminal Agent数据配方开源

TTT架构被证明等价于线性注意力算子，NVIDIA团队的形式化证明将两个独立研究社区的技术积累打通，高效序列建模的设计空间大幅缩减终端Agent的训练数据工程首次系统公开：从种子任务生成到技能组合、训练策略对比，全套数据集和模型权重开源。8B模型准确率从2.5%跳到13.0% RL训练视觉Agent的「偷懒」难题有了工程方案，过采样+累积工具奖励的组合有效遏制interaction collap

深度长文2026年3月17日

成为AI工程师应聚焦实战能力

许多初学者在学习路径上迷失，陷入理论、教程或工具的碎片化学习，难以获得实际能力。要成为AI工程师，关键不是掌握所有领域，而是学会在现实中构建有用的AI系统。

深度长文2026年3月17日

NVIDIA GTC 2026 Post Keynote Reaction: What It Means, What I Got Right, What Surprised Me

深度长文2026年3月16日

If I Started Over as a Designer in 2026, Here’s What I’d Do: A Complete Roadmap

深度长文2026年3月15日

Claude构建AI代理的完整课程

这篇文章结合了所有资源，带你在不到15分钟内掌握Claude的AI代理架构，包括单一代理循环到并行运行的多代理团队。你将深入了解Claude的代理生态系统，比99%的人都要了解得更透彻。

深度长文2026年3月15日

AI真正的赚钱层：被忽视的基础设施堆栈

文章指出，大多数人只看到像ChatGPT这样的AI应用层，但真正巨额资本正流向能源、芯片和数据中心等基础设施层。通过分析AI五层价值链与历史上的电力革命类比，作者认为未来最大的利润可能集中在底层基础设施而非应用产品。

深度长文2026年3月14日

真正的战略思维：不仅仅是制定更好的计划

真正的战略思维不仅仅是制定计划，而是理解系统、预测他人反应，并找到关键的影响点。本文介绍了通过博弈论、系统动力学等学科来培养战略思维的十本书，帮助读者思考更深层次的问题。

深度长文2026年3月14日

用AI代理管理公司，同时保留全职工作

作者在保留全职工作的同时，通过5个AI代理管理VoxYZ公司，实现自动处理产品、内容和客户服务。文章讲述了系统运作方式、为何没有辞职，以及可在两周内开始的实践路径。

深度长文2026年3月13日

科技淘金热：抓住下一个财富浪潮

每十年左右，世界都会迎来一次科技“淘金热”，如90年代的互联网、2000年代的移动技术和2010年代的加密货币，这些都为早期投资者创造了巨大财富。未能投资于这些重大技术进步的人，往往会错失良机，因此，积极关注并投资最佳技术进步至关重要。

深度长文2026年3月13日

用AI打造创业者的“战略团队”：三套系统实现10倍效率

作者认为多数创始人只把AI当写作工具，而真正高效的做法是给AI完整的业务背景，让其参与决策。通过“首席战略官系统”“内容团队系统”和“语音工作流系统”，可以把AI变成全天候的战略与运营支持团队，大幅提升效率与决策质量。

深度长文2026年3月13日

高薪岗位招聘中的五项新必备技能趋势

作者分析了500个金融、营销、运营、咨询和科技领域的高薪高级职位招聘信息，发现五项技能正在迅速成为必备要求。这些技能从2024年几乎无人提及，到2026年逐渐普及，预计到2027年将出现在大多数职位描述中。

深度长文2026年3月12日

新手告别随性编程：五步构建-检查-修复循环

本文针对新手开发者，强调在AI辅助编程时代，仅追求代码编写速度不足以保证项目成功。文章提出一个“五步构建系统”，指导新手如何通过持续的构建、检查与修复循环，实现既快速又可靠的开发，从而避免“在我机器上能跑”等常见问题。

深度长文2026年3月12日

I want to learn how to use Claude Skills (full course)

我把自己找到的所有资源整合在一起，制作了一门完整的 Claude Skills 课程。不到 10 分钟，你就能构建并部署你的第一个自定义技能。读完这篇文章后，你对 Claude Skills 的理解将超过 99% 的人（是的，真的）。你即

深度长文2026年3月12日

这5项技能将在2027年价值每小时400美元，你还有6个月抢先学会

现在，几乎没有人具备这些技能。6个月后，这个机会窗口就会关闭。这就是区分每小时400美元与每小时75美元的关键。到2027年中，人们掌握这5项技能将能赚取每小时400美元。

深度长文2026年3月11日

全天候运行的开源AI代理如何创造真实收入

OpenClaw 是一个可在电脑或廉价云服务器上 24/7 运行的开源 AI 代理，能够连接 WhatsApp、Telegram 或 Discord 并自动执行发送邮件、编写和部署代码等任务。短短几周内项目在 GitHub 获得超过 26 万星标，越来越多开发者和创业者开始利用它探索多种可行的收入模式。

深度长文2026年3月11日