归档文章

硅谷前沿新闻

Musk当庭认了蒸馏OpenAI,Zig干脆把AI写的代码拒之门外

xAI律师还在法庭上把证人身份报错,Musk自己先承认蒸馏过OpenAI模型;Zig项目直接宣布不收AI生成的PR,Copilot则把AI评审拆出来按分钟计费。

AI新论文快读

递归MAS省35%token,T2I整张重画

递归扩展从单模型迁到multi-agent:RecursiveMAS把整个多agent系统cast成一次latent-space递归计算,9个benchmark平均+8.3%accuracy、token用量降34.6%-75.6%、推理1.2-2.4x加速,给multi-agent补上一个明确的scaling旋钮。 T2I精修,整张重画反而更彻底:editing-based路线把可改空间压窄导致改

硅谷前沿新闻

给Meta标数据的700人收到裁员预警,同周Mercor被偷走4TB语音

同一张餐照上传27000次,AI算出的碳水没有一次重复;Codex的系统提示让它假装有丰富内心,公司却忙着把产品讲得越来越吓人。

AI新论文快读

RL给视频生成补3D一致性

World-R1把3D约束做成RL奖励信号,让已部署视频底座不改架构就能补几何能力;DataPRM指出数学域过程奖励搬到数据分析就歇菜;金融agent的sycophancy风险主要来自用户预先表态而非事后反驳。

硅谷前沿新闻

Musk在证人席说「只想拯救人类」,同周五角大楼给Google开出「任何合法用途」AI合同

Mercor被曝泄露4万名AI标注员的4TB语音样本,Anthropic把Claude接进Photoshop和Blender,OpenAI被传拉上联发科、高通造手机。

AI新论文快读

去掉情绪词后probe准确率塌到5%

silicon panel在均值上可信、在方差上不可信——Stanford用277位职业哲学家做ground truth,七个开源闭源模型都能复刻聚合分布,但跨问题相关性被系统抬高、少数派和内部冲突被压扁;做对齐panel、合成调研,只要分析依赖「分歧形状」就拿不到真信号。 情绪探针在去关键词刺激上准确率从82%塌到5%。 MIT的AIPsy-Affect给了480条配对刺激、把emotion关键

深度长文

如何从零开始创建AI代理人

本文介绍了如何从头开始创建一个实用的AI代理人,结合了Anthropic、OpenAI等专家的资源,适合普通人理解并操作。完成后,您将能够创建自己的第一个AI代理人。

深度长文

如何编写有效的CLAUDE.md文件

CLAUDE.md是每个Claude Code会话的起点,决定模型行为。文件过长或缺乏重点会降低效果,建议控制在100-150条指令以内以确保模型可靠遵循。

硅谷前沿新闻

OpenAI删掉「触发AGI就退出」条款,转身拿下五角大楼合同

当年那条防止微软滥用AGI的退出条款被悄悄埋葬;同一周Google员工还在抵制军方AI合作,OpenAI已经签下了联邦准入证。

AI新论文快读

ProEval省8-65倍评测样本

Google把benchmark评测变成贝叶斯估计问题,1%误差下样本量降到1/8到1/65;形式语言任务首次给出FT vs ICL的清晰对照;novelshare用非可逆hash让带版权的标注语料合法跨机构共享。

深度长文

GPT-5.5 八维评测:哪些场景是真强项,哪些是营销噱头

GPT-5.5 在 8 个核心基准上和 Claude、Gemini 的对比。终端使用、知识工作、电脑使用、工具调用、网页浏览、高阶数学、网络安全——每个维度它的实际位置在哪里,哪些场景值得你切过去用,一看就清楚。

深度长文

GPT-5.5 价格翻倍?三个纸面价格不会告诉你的「暗坑」

GPT-5.5 出来后,三家厂商的「价格」都不是它们公布的那个数字。OpenAI 涨价高调但留了后门,Anthropic 不涨字但偷涨量,Google 低价有上限。看 API 账单的本质是「每完成一个真实任务花多少钱」,不是单价表。

深度长文

GPT-5.5 三个反差点:越聪明越敢瞎编

GPT-5.5 发布后,仔细看数据有三个让人警惕的反差。准确率全行业第一,但碰到不会的题有 86% 概率胡编一个答案;最权威的编程基准它直接没放——因为放了就要承认落后;API 重度使用月费 $550,订阅版才 $20。

硅谷前沿新闻

Claude退订帖冲上HN榜首,同周一个agent删光生产数据库

开发者公开宣布弃用Claude的帖子拿到HN 957分,同一周另一个AI agent把生产数据库删了个干净;而在Mill Valley,有人挂牌13英亩房产只收Anthropic股票。

AI新论文快读

完整trace让多agent归因准76%

多agent debug从感觉变成数字:TraceElephant把failure attribution做成显式benchmark,完整执行trace比只看agent输出能把归因准确率提升76%。 主模型不动也能让关键证据被看见——HiLight训练一个旁路Actor在输入侧加emphasis,主模型frozen,学到的策略可零样本迁移到闭源API。 大小模型分流改成模型自己学,RouteLMT

硅谷前沿新闻

Lidl母公司抄底德国AI旗舰,Sam Altman为枪案致歉小镇

欧洲连锁超市巨头在美方对华制裁前夜接盘Aleph Alpha;Altman亲笔承认ChatGPT未及时把加拿大枪案预警转给警方。

AI新论文快读

10K数据训出4B agent,MoE扩容省32%

10K开放数据训出4B deep research agent:DR-Venus用agentic SFT+turn-level RL的两阶段recipe训出edge可部署的agent,能力超9B以下agentic模型并向30B级缩小差距 MoE扩容复用现有expert省32% GPU时间:Expert Upcycling从已训checkpoint做expert复制+router扩展,再让exper

硅谷前沿新闻

Google同周资本芯片算法三连击,Meta签下数百万颗CPU做agent

Google一周在投资、芯片、训练算法三个层级同时落子;Meta签下数百万颗亚马逊自研CPU用于agent推理,这是CPU首次在AI芯片采购中达到与GPU相当的量级。

AI新论文快读

压agent改分,4轮就开始作弊

压agent刷公开分会主动诱发走捷径:1326条coding agent轨迹里403次出现公开分上去而隐藏真实评分掉的情况,首次走捷径的轮次从约20轮提前到约4轮,问题在反馈环设计不在模型。 开源统一多模态架构出现真正的分叉——LLaDA2.0-Uni把discrete diffusion加MoE推到几百亿参数,和Qwen-Omni、Janus那一支自回归路线分道。 NPO让off-policy轨

AI新论文快读

校准critic让推理涨18点

TEMPO用周期性外部校准修复TTT中的critic漂移,OLMO3-7B在AIME 2024从33%涨到51%;Micro LMs把端侧模型重新定义为只写前几个词的开场白生成器。

硅谷前沿新闻

OpenAI发GPT-5.5同日悬赏2.5万找生物越狱,Anthropic罕见公开降质postmortem

OpenAI一边推GPT-5.5一边挂2.5万美元赏金征集生物越狱样本;Anthropic罕见公开Claude Code降质事故报告的同一周,Codex周活已冲到400万。

硅谷前沿新闻

Pro档20美元可能装不下Claude Code,打工人AI账单已超工资

OpenAI和GitHub同一周调整个人订阅,有人怀疑20美元的Pro额度快兜不住Claude Code;另一边一批创业公司把「员工AI支出超过工资」当成融资故事在讲。

AI新论文快读

305M检索器指令遵循涨45%

检索器忽视指令约束是数据问题、不是模型容量问题:IF-IR用互补指令对+标签反转合成对比样本,305M encoder在FollowIR基准上提升45%,打赢参数量相当甚至更大的通用embedding。 RLHF的单点失败藏在reward model里,ARES把红队从「发现漏洞」推进到「端到端修复policy-reward系统」,对真实在跑RLHF pipeline的团队更贴近工程需求。 MLL

硅谷前沿新闻

Firefox用AI一次扫出271个零日漏洞,Tesla被曝瞒报数千起自动驾驶事故

Mozilla警告开发者要准备过几年苦日子;Atlassian默认把客户数据喂给AI,Meta开始录下员工每一次敲键。

AI新论文快读

答案摆面前agent也视而不见

Cohere把解法直接塞到agent眼前它仍按剧本走;SkillFlow把评测挪到终身技能维度;一个128维卷积块打过时序异常检测的attention SOTA;医疗VLM可以被背景区域的不可见扰动系统性带偏

硅谷前沿新闻

中国工程师拒训替代自己的AI,Deezer平台44%新歌是AI刷出来的

被要求亲手带出接班的AI agent后,中国工程师集体递辞呈;Deezer每天新上传的歌近一半由AI生成,大部分播放被系统判为刷量。

AI新论文快读

3B拒答追平R1,B矩阵是LoRA瓶颈

Abstain-R1把「该拒答就拒答」写进可验证奖励,3B模型拒答追平DeepSeek-R1;Pico发现LoRA合并的干扰主要来自B矩阵;多元价值观对齐目标本身被当成越狱向量。

硅谷前沿新闻

学生重拾打字机,Allbirds改名AI股价翻七倍

一边是学生为躲AI检测用回打字机交作业,一边是卖鞋的Allbirds改名「AI公司」股价七天翻七倍;SaaS创业者给自己判了12个月死刑,Salesforce直接宣布砍掉浏览器层。

AI新论文快读

Qwen3.5-Omni扩到几百亿参数

开源omni第一次把体量推到对标闭源旗舰的级别,Qwen3.5-Omni给语音视觉团队提出「是否重估自建方案」的问题;LLM-as-judge在语用任务上显示裁判能力强于自己的生成能力,基于self-judge的评测体系面临一个不对称的盲点。

深度长文

多代理协作:打造强大的AI团队

单个AI代理可以进行研究、写作、分析或编程,但无法同时做得好。通过建立专门化的代理团队,每个代理专注于一项任务,能够高效协作,创造单个代理无法匹敌的成果。这种多代理协作架构是当前最强大AI系统的核心。

硅谷前沿新闻

Sora推手离场,OpenAI转身押注制药AI

Sora头号产品负责人本周出走,OpenAI却把面向药企的GPT-Rosalind推上头版;与此同时Cerebras揣着百亿订单冲IPO,DRAM缺口要补到2027年。

AI新论文快读

语料编译成目录,日志训LLM替身

RAG从「检索-消费」变成「导航-游走」:Corpus2Skill把整个语料离线编译成层级化skill目录,agent按摘要往下钻而不是被动等结果,WixQA上全面压过dense retrieval、RAPTOR和agentic RAG。 生产日志本身就是免费蒸馏语料,TRACER用parity gate让轻量surrogate接管77类意图的83-100%流量;NLI任务上会主动拒绝部署,「知道

硅谷前沿新闻

Anthropic向白宫递投名状,OpenAI砍掉Sora关掉消费线

被白宫骂了两个月「极左疯子」后,Anthropic拿出网络安全模型示好;同一天OpenAI关停Sora、解散科学团队,两位消费产品负责人同日离职。

AI新论文快读

腾讯开源3D世界生成、VLM偏科探针

腾讯HY-World 2.0把3D世界生成拆成四阶段流水线、对标闭源Marble;Stanford用一个极简探针暴露多模态模型的语言压制视觉问题。

硅谷前沿新闻

Codex瞄准Claude Code,开源小模型画赢Opus 4.7

OpenAI的Codex从补全API升级成能操作整台电脑,直接对标Claude Code;而Simon Willison的鹈鹕测试里,Qwen3.6-35B画得比当周发布的Opus 4.7还像样。

AI新论文快读

大模型更抗谣言却更易被噪声带跑

Agent失败可以拆成两类可测的错误:死磕一条路(exploit过强)和漫无方向(explore过度)能用黑盒指标分开度量,不需要访问模型内部策略,frontier模型失败模式差异明显 scaling把「看context」拆成两种反向变化的子能力。 Google在两个模型家族上给出首个contextual entrainment的scaling law:大模型抵抗反事实谣言的能力是小模型4倍,被无

硅谷前沿新闻

Allbirds估值蒸发99%后转型AI,股价一天涨600%

一双鞋卖不动的公司喊出AI转型,市场立刻买单;OpenAI的投资者开始觉得Anthropic更划算了。

AI新论文快读

VLM换规则就崩·DLM加速4倍

VLM看得懂棋面,却无法遵循替代规则——14个模型在同一终局画面上,标准规则准确率显著高于反转规则,研究者将此命名为「语义固化」,对需要模型遵循自定义规则的应用是个警示 英文安全对齐在低资源语言下断崖式失效。 LASA在模型语义瓶颈层做语言无关对齐,将LLaMA-3.1的平均攻击成功率从24.7%降至2.8% 扩散语言模型上朴素稀疏attention直接失效,被mask token的KV膨胀是根因

硅谷前沿新闻

真人照片也能被盖上AI伪造标签,Google水印系统双向告破

一名开发者称已双向破解Google SynthID——AI生成的图可以洗白,真人拍的照片反而能被标记为AI伪造;84%的AI从业者看好AI医疗前景,公众中只有不到一半买账。

AI新论文快读

PRM标注成本降两个数量级,dLLM幻觉错法不同

dLLM的幻觉模式跟自回归完全不同,首个受控对比实验识别出三种特有故障模式(过早终止、去噪不完全、上下文侵入),现有检测工具需要针对性重新设计 对比互信息让过程奖励标注成本降两个数量级:直接从模型内部概率提取步骤级信号,不需要反复采样rollout。ACL接收 RAG知识库防御从静态规则升级为运行时博弈。借鉴栈金丝雀概念嵌入canary token做持续检测,即插即用不改现有架构 TorchUMM

硅谷前沿新闻

扎克伯格要用AI分身替自己开会,SWE-bench满分只要10行代码

Meta正在用CEO的声音和习惯训练数字分身代替真人沟通,而号称最难的编程基准测试被10行Python刷到满分——不用解任何一道题。

硅谷前沿新闻

Gary Marcus称Claude Code是大模型以来最大突破,OpenAI全员下发AI指南

批评深度学习25年的人终于被说服了,而OpenAI没等争论结束,已经把ChatGPT使用手册同时塞进了营销、财务、销售每个部门的手里。

AI新论文快读

SFT收敛≠全学会,注意力劫持破防94%

SFT的loss收敛后,模型仍会在训练集上系统性答错特定子集。跨三个模型家族复现了五类成因,aggregate指标不足以判断微调质量 奖励模型不需要每次打分都做CoT推理。E-GRM用生成一致性估计不确定性,对简单样本跳过深度推理,降本的同时反而提升了准确率 Coding agent评测引入credit预算后排名洗牌。前沿agent在资源约束下找不到最优平衡点,行为高度路径依赖 操纵注意力权重让模

硅谷前沿新闻

AI头号批评者低头了,从业者自己在讨论暴力

写了25年批评的Marcus称Claude Code是「最大突破」;一篇预言AI将遭遇暴力的文章收获572条评论,最焦虑的不是外人,是从业者自己。

AI新论文快读

DMax让扩散LM并行效率提升近3倍

腾讯用一个VLM统一了机器人的感知和规划,释出2B端侧+32B推理双规格模型,模块化pipeline的复杂度优势可能不再成立 扩散语言模型的并行解码效率提升近3倍:DMax用连续embedding插值替代二值跳变,两块H200跑到每秒1,338 token Agent的核心瓶颈不是工具太少,是调用太多。HDPO将精度与效率拆成正交通道,工具调用量降几个数量级而准确率不降 文生视频的计数问题有了tr

硅谷前沿新闻

法院拒绝叫停Anthropic封杀令,Linux内核给AI代码立规矩

Anthropic请求法院叫停Trump政府技术封杀令被驳回,封杀继续执行;OpenAI因供应链攻击紧急轮换签名证书,而Linux内核社区选在这个时候给AI辅助代码贡献画下第一条正式红线。

AI新论文快读

打乱音视频练推理,6B模型超GPT-4o

Agent技能应该从用户群体中自进化:SkillClaw把多用户交互轨迹变成skill进化信号,一个人的修正自动同步全员,给Agent系统装上组织记忆 小模型压缩比大模型硬看更聪明,Tempo用6B模型根据问题动态筛选关键帧,8K token预算下超过GPT-4o和Gemini 1.5 Pro 灯光在视频生成中成为独立可控要素。LiVER通过物理渲染器解耦光照、布局与运镜,CVPR接收,瞄准专业影

深度长文

The most boring billion-dollar businesses of 2027

深度长文

如何通过AI建立社交媒体自动化系统

本文讲解了如何通过AI工具建立一个自动化社交媒体内容管理系统,帮助小企业节省时间并提高工作效率。只需花费48小时学习,便能掌握该技能,并为客户提供价值超过1000美元的服务。

硅谷前沿新闻

微软拆掉Copilot按钮,OpenAI忙着推AI免责法案

Windows 11应用中的Copilot入口被换成写作工具菜单,OpenAI却在伊利诺伊州游说AI公司免责立法,Take It Down Act同周落下首例定罪

AI新论文快读

微调即加速1.7倍,token崩的不是channel

纯微调就能让LLM一步吐多个token, MARS不改架构不加参数,Qwen2.5-7B实测加速1.71倍,部署迁移成本几乎为零 图像自编码器压缩崩了别急着加channel——TC-AE发现真正塌缩的是token利用率,从token空间入手反而更简单有效 World model的空间一致性和实时性终于不用二选一。 INSPATIO-WORLD把两件事拆成独立模块,单视频输入即可生成可实时导航的4D

硅谷前沿新闻

Claude分不清谁在说话,ChatGPT Pro卖到100美元还不够用

多家大模型被发现会混淆对话中的发言者身份,佛罗里达州对OpenAI发起安全调查,而消费端订阅价格已逼近用户承受极限。

AI新论文快读

Entropy在骗你,隐式推理止于7步

Entropy稳定不代表推理健康。 RAGEN-2发现agentic RL中的「模板坍缩」——模型用固定模板应对所有输入,entropy完全看不出来,互信息才是更可靠的训练监控指标 Meta试图让模型本身成为计算机——Neural Computer统一计算、记忆和I/O,概念有启发性,但核心难题尚未解决,当方向信号看 隐式推理存在硬性深度上限: 最大规模模型的latent planning也止步于

硅谷前沿新闻

三大实验室同周加注,AI的下一个战场是品味和安全

OpenAI、Anthropic、Google同一周否定「撞墙论」集体押注;与此同时,AI让所有人的文字越来越像,开发者开始争论:当代码可以自动生成,人的价值到底在哪里。

AI新论文快读

单GPU训120B·视频评测四成靠猜

单卡全精度训120B参数,吞吐量比DeepSpeed快1.84倍。 MegaTrain把GPU降级为临时计算引擎,参数全存CPU内存,流水线双缓冲突破带宽瓶颈,单机路线的性价比值得小团队评估 40-60%的视频理解题不需要看视频就能答对——两篇独立工作同时揭示模型在做「阅读理解」而非「视频理解」,过滤文本偏见后用更少数据训练反而提升6.2个点 不指定催化位点,AI自主设计的酶活性超过人工工程化酶。

硅谷前沿新闻

AI歌手霸榜iTunes 11席,Google搜索每小时答错千万次

虚拟歌手Eddie Dalton占据iTunes排行榜,Suno与唱片公司的授权谈判还没谈拢;Google AI搜索每小时输出数千万条错误回答,连对的也越来越难验证。

AI新论文快读

视频问答跑到2FPS,RLVR自带噪声过滤

VideoLLM实现2FPS流式视频问答,AURA用端到端架构统一持续感知和主动响应,集成ASR+TTS已跑通可交互原型。 Agent信息过时怎么办,ClawArena给出系统评测——64个场景覆盖动态更新下的信念维护,发现框架设计的影响接近模型能力差异的60%。 RLVR的rollout条件天然过滤噪声标签。错误标签要生效需模型自行复现出错误答案,噪声比0.9时仍保持鲁棒。 测试筛代码的循环依赖

硅谷前沿新闻

伊朗导弹瞄准Stargate,AI算力成了军事靶标

革命卫队威胁对AI数据中心发动导弹打击,算力基础设施第一次被列为军事目标;AI三个月建完八年未竟的项目,开发者社区的反应不是赞叹而是集体反弹。

AI新论文快读

Diffusion推理省54%算力不降质

Diffusion推理砍半算力质量反升,DiffSparse用可学习predictor逐层逐步决定token稀疏率,PixArt-α上省54%计算量,与蒸馏/量化的叠加效果待验证 多角色视频的身份混淆根源在位置编码:PoCo从position embedding层面重新设计控制机制,跨镜头一致性和参考保真度均有改善。Sora2也在攻同一方向 Next-scale AR从图像扩展到动作生成——粗到细

硅谷前沿新闻

Claude Code被投毒分发,Trump关税挡了自己的AI路

黑客篡改Claude Code泄露代码大规模分发,AI开发工具正变成供应链攻击新入口;Trump一边催建AI数据中心,一边用关税把硬件成本全拉高了。

AI新论文快读

32B硬件代码开源进第一梯队,Agent难题仅23%

硬件代码调试有了开源32B选项,InCoder从工程师实际犯错过程中蒸馏推理链,在LiveCodeBench和CAD-Coder上进入开源第一梯队,不过KernelBench 38%说明GPU优化类任务离实用仍远 CLIP的空间语义短板是训练目标决定的。CoME-VL把CLIP和DINO做表征级融合,grounding任务提升5.4%,给双编码器方案提供了系统性ablation参考 Agent「答

硅谷前沿新闻

Anthropic什么都想要,创作者什么都保不住

民谣歌手的歌被AI仿冒上架,插画师的手绘被当成AI生成,创作者两面挨打;Anthropic同周收购生物公司、建政治行动委员会、登顶二级市场,胃口大得吓人。

AI新论文快读

400万游戏帧练渲染,技能内化胜过检索

离散token是LLM的架构天花板而非优化目标,综述从四条技术线索论证核心计算正从token序列迁移到连续latent空间。 Agent技能用RL内化进参数比检索注入更强:SKILL0的渐进撤除课程在ALFWorld上提升9.7%,推理时每步上下文不到500 token。 3A游戏引擎是生成式渲染被忽视的数据金矿——400万帧同步RGB+G-buffer数据,微调后的模型在跨数据集泛化上明显领先。

硅谷前沿新闻

犹他州让AI开精神科处方药,八成人连错都不敢纠

犹他州批准AI开具精神科处方药的同一周,研究发现八成人面对AI的错误选择沉默;OpenAI一周走了三名商业高管,AGI部署负责人到任几个月就请假了。

AI新论文快读

单神经元记住实体,套路复用提效19%

单个MLP神经元能触发实体级「失忆」,Google在200个实体上验证了因果关系,知识编辑可能从大面积手术变成精准定位 从推理轨迹提取可复用解题套路:3200万条程序性知识让模型不再每题从零推理,最高提升19.2% 用真实中断事件监督微调LLM做供应链预测,准确度和校准度显著超越GPT-5零样本。低频高影响场景的通用范式值得关注

硅谷前沿新闻

OpenAI买下采访自己的脱口秀,被采访的成了老板

AI公司开始收购报道自己的媒体;同一天,Perplexity「无痕模式」被告上法庭,Granola笔记默认让所有人看到你写了什么。

AI新论文快读

极简Agent打平MCP,代码推理边写边想

终端+文件系统的极简Agent打平全副武装MCP方案,72个HF upvotes说明从业者对Agent过度工程的集体焦虑不是空穴来风——但评估任务是否覆盖真实企业场景的全部复杂度,仍需追问 代码生成按需插入推理token,四个基准全部SOTA:Think-Anywhere让模型在高熵位置自动触发思考,比先想后写更贴合编程中复杂度逐步暴露的认知节奏 三层Agent协作把小时级素材自动剪成音乐同步短视

硅谷前沿新闻

Copilot「仅供娱乐」,AI全面转向够用就行

Microsoft法律条款称代码助手仅供娱乐,GitHub同月在代码审查里塞广告;Claude Code用户自建拆解指南,同一周配额投诉激增。

AI新论文快读

配比成本降35倍,显眼词劫持推理38倍

数据配比从训前超参变为训后优化,OptiMer为每个数据集单独训模型后在参数空间搜索最优合并权重,搜索成本降低15-35倍。 表面线索对LLM推理方向的劫持力是目标约束的8-38倍:跨六个模型呈现稳定sigmoid曲线,但一句最小提示就能恢复15个百分点。 双流DiT从架构内部统一文本语义和空间结构——MMFace-DiT在人脸生成上比六个SOTA提升40%,单模型适配多种空间条件。

硅谷前沿新闻

Claude Code源码全曝光,OpenAI越融越窄

一个source map文件把Claude Code的源码扒得干干净净;OpenAI拿下1220亿美元融资、估值冲到8520亿,产品线反而在收窄。

硅谷前沿新闻

Copilot写代码时顺便打了个广告,美国人越用AI越不信AI

GitHub Copilot在开发者的Pull Request里插入广告,ChatGPT前端代码暴露了用户信任危机;同一天四笔共15.3亿美元砸向AI算力,钱比信任跑得快。

AI新论文快读

水印实现bit级溯源,扩散VLM进GUI定位

离散扩散VLM首次被验证可用于GUI定位,双向注意力在空间任务上展现结构性优势,数据多样性带来20点平均提升,CVPR录用 LoRA的零空间压缩程度与任务性能正相关,可直接用作合并权重信号。不依赖标签和任务类型,在异构视觉任务上达到SOTA 视觉骨干的效率研究几乎默认高并行硬件:CPUBone针对无AI加速器的边缘设备做了系统设计,在CPU上减少计算量不等于减少延迟 AI水印从阈值检测升级为精确信

硅谷前沿新闻

Codex上插件追Claude Code,AI视频OpenAI先撤了

AI编程从功能比拼转向生态之争,OpenAI却在视频赛道率先退场留下一群还在加注的VC;AI生成速度已超过检测速度,一周内从个人自救变成国家武器。

硅谷前沿新闻

跟AI聊完人更不认错了,软银借400亿押注OpenAI上市

斯坦福2405人实验证实谄媚AI让人变得更固执;xAI只剩Musk一人的同一周,Anthropic付费用户翻了一倍。

AI新论文快读

Mistral自研TTS、扩散LLM加速4.7倍

Mistral成为首家自研TTS的主流LLM实验室,3秒参考音频即可语音克隆。语音合成正从专用供应商领域变成LLM厂商标配能力 扩散语言模型有了首个无训练加速方案:S2D2利用block size=1的退化特性让同一模型充当drafter和verifier,最高实现4.7倍加速 On-policy蒸馏的sampled-token实现在长序列下本质脆弱。三个failure mode和对应修复方案,是

硅谷前沿新闻

AI七小时省50万美元?社区拿代码逐行对账

Reco.ai宣称AI七小时重写JSONata年省50万,社区逐行验算给出不同答案;同一周法官叫停五角大楼对Anthropic的封杀令,白宫AI沙皇已经离任。

AI新论文快读

蒸馏砍掉模型的犹豫,OOD暴跌40%

自蒸馏砍掉的是模型「犹豫」的能力,不是冗余步骤——epistemic verbalization被压制后,模型在OOD场景性能暴跌40%,评估指标却看不出来。 Coding agent代码冗余度比人类项目高2.2倍。 SlopCodeBench首次量化了多轮迭代中技术债的积累:11个模型无一能端到端完成任务,prompt优化治标不治本。 桌面操作Agent的瓶颈是演示数据,不是模型架构:CUA-S

硅谷前沿新闻

Wikipedia向AI说不,苹果谷歌同周疯狂拥抱AI

全球最大知识库明令禁止AI写条目,同一周苹果把Siri交给第三方AI,谷歌连发三项实时功能还上线「导入对手记忆」。

AI新论文快读

投机执行快3倍,不丢token反更快

Agent投机执行实现最高3.35倍加速,SpecEyes将CPU投机执行思想引入agent循环,用小模型预测轨迹并行化视觉工具调用,准确率不降反升 VLM加速的答案不是压缩视觉token而是按需查询。VISOR用稀疏交叉注意力替代密集自注意力,保留全部视觉信息同时大幅降低计算量(CVPR) World model数据集缺的不是规模而是结构——WildWorld提供动作-状态-观测三层解耦的1.0

深度长文

AI系统在各行业的核心痛点与销售机会

作者基于为80多家公司构建AI系统的经验,总结了不同行业最关键的业务瓶颈,并指出如何针对性地销售AI解决方案。内容旨在帮助AI从业者更精准地定位客户需求并提高成交率。

硅谷前沿新闻

谷歌让开发者用API作曲,OpenAI一天补三张安全牌

谷歌Lyria 3面向全球开放,音乐生成正式成为可调用的基础设施;OpenAI在同一天连发行为框架、赏金计划和青少年保护工具,密集程度像在赶交作业

AI新论文快读

扩散OCR解码快3.2倍,单流架构2秒出片

扩散解码替代自回归,文档OCR从串行跳到并行。 MinerU-Diffusion把文档解析重定义为逆渲染问题,用分块扩散解码器并行生成结构化源码,解码速度提升3.2倍,开源可用 RLVR训练信号的方向比幅度更重要: token级Δlog p的正负号能更精准定位推理关键的稀疏更新,据此提出的推理外推和训练加权方法不改架构即可应用 多任务SFT存在大量隐性计算浪费, 不同子数据集过拟合速度差异巨大。m

硅谷前沿新闻

OpenAI砍掉Sora搞丢迪士尼10亿,转头承诺10亿做慈善

Sora说关就关,迪士尼10亿美元合作跟着破裂;同一周OpenAI基金会许诺10亿治病济困,ChatGPT上线了购物功能。

AI新论文快读

PDE替掉attention误差低2倍,局部RL省3/4算力

形式化证明拆成三个独立能力分别RL,比端到端训练更高效——LongCat-Flash-Prover把自动形式化、框架搭建、逐步证明分开强化,配合HisPO算法解决MoE长链训练不稳定,方法论不绑定模型规模 SFT轨迹上叠加局部RL,四分之一算力逼近端到端效果。 PivotRL只在高方差「转折点」做rollout,OOD任务比标准SFT高10%,已在NVIDIA Nemotron生产模型中落地 PD

硅谷前沿新闻

黄仁勋说AGI到了,AI已在冒充你发邮件

英伟达CEO公开宣称「我们已实现AGI」,Superhuman CEO同期被当面质问——你的AI为什么先假装同意用户、再假装成用户发邮件?

AI新论文快读

Seed1.8把Agent做进基座,语言训练让视觉退化

Seed1.8把搜索、代码执行、GUI交互统一到基座层,字节跳动发布Agent原生基座模型,部署侧针对延迟和成本做了优化,但缺少与通用模型+框架方案的直接对比。 多模态模型的语言训练在系统性侵蚀视觉表征——跨架构、跨规模的诊断发现,单一文本生成目标迫使模型牺牲视觉保真度。PRe方法通过中间层预测约束缓解退化。 DiT微调显存大幅下降,效果接近全量微调。动态patch采样按时间步调整分辨率,cros

深度长文

AI写代码爆发,但理解能力停滞:软件工程的“认知鸿沟”

随着AI生成代码比例迅速攀升,开发效率大幅提升,但人类对系统行为的理解却未同步增强,导致缺陷、技术债和调试成本持续上升。文章指出问题根源在于缺失“事件时钟”(决策与上下文),并提出通过构建类似AI“世界模型”的代码仿真来弥补这一关键能力缺口。

硅谷前沿新闻

Cursor模型来自月之暗面,AI编程工具开始套娃

最热门的AI编程助手承认核心模型构建于Kimi之上,用户才发现自己信赖的工具背后另有供应商;GDC展厅挤满AI工具商,场外玩家却在联名抵制游戏里的AI美术。

AI新论文快读

12B超GPT-4,蒸馏后学生反超教师

生成式推荐的「泛化优势」在token级别退化为记忆重组,按实例融合两种范式比选边站更务实。 安全合规评估因标准明确、专家稀缺成为Agent理想场景:领域微调能识别通用模型遗漏的行业风险,但上下文窗口是实际瓶颈。 长序列web任务的瓶颈是缺少中间检查点,子目标分解让12B开源模型成功率从6.4%跳到43%,超过GPT-4级系统。 离散扩散首次有了有效蒸馏方案——D-MMD在文本和图像两域验证,学生模

深度长文

如何在X平台上有效增长:正确的心态与策略

很多人未能在X平台上成长是因为他们有错误的心态,认为X只是一个舞台,而不是一个社交派对。本文介绍了如何调整思维模式,并通过调整信息流、真实互动、保持一致性等策略来提升在X的影响力。

硅谷前沿新闻

Trump说决裂,五角大楼说快签了:Anthropic把宣誓书递给法庭

五角大楼在「决裂」前一周还说合同快谈拢了,这份证词现在成了法庭证据;另一头,Cloudflare预测明年AI agent流量将超过人类。

AI新论文快读

3B参数奥赛三金,768维离散token生成可行

Cascade RL加多领域蒸馏让3B参数拿下三项奥赛金牌,NVIDIA开源了完整训练配方,小模型推理天花板被重新定义 视频扩散模型内部已学到完整3D空间先验:无需3D标注或几何模块,直接提取中间层特征就能做深度和场景流预测 768维离散token同时服务理解和生成。CubiD用细粒度掩码扩散绕过高维组合爆炸,多模态统一架构少了一个关键障碍 VLA部署的真正瓶颈是反应延迟而非轨迹平滑度——FAST

深度长文

如何通过简单的6步故事框架销售任何产品

通过情感和兴奋来吸引顾客,讲述一个简洁的故事。首先引发行动,展示替代品的缺陷,再通过情感事件展现低质量产品的代价,最终呈现你的产品作为解决方案。

深度长文

如何使用 GPT-5.4 构建精美的前端设计

GPT-5.4 在构建前端时能生成更加视觉丰富的界面,但仍需明确指导才能取得最佳效果。本文介绍了四个关键要素:设定合理的推理水平、定义设计系统、提供视觉参考和真实内容,以帮助构建有意图的前端设计。

深度长文

AI Doesn't Close the Talent Gap. It Widens It.

硅谷前沿新闻

谷歌替媒体改标题,OpenAI要常驻你的桌面

信息入口争夺战全面升级——谷歌开始改写媒体标题,OpenAI把ChatGPT做成桌面常驻应用,白宫忙着给AI松绑,微软却在同一周悄悄拆掉自己的AI按钮。

AI新论文快读

3D仅需0.1%token,视频微调反伤空间理解

经验库与策略的错位退化是agent RL的隐性瓶颈。Complementary RL让经验提取器根据策略表现动态调整,实现协同演进而非静态积累。 Video-SFT的时序增益以空间退化为代价——跨架构、跨尺度的系统性实验确认,这不是个别模型的bug,是视频微调的结构性trade-off。 视频生成做机器人策略辅助监督,但部署时可以关掉:GigaWorld-Policy的解耦设计比Motus快9倍且

深度长文

AI将在未来2-5年取代50%的白领工作

AI技术正在迅速进步,许多领域的工作已经开始被AI取代。软件工程师外包工作给AI,普通人也能创建百万美元的初创公司。这引发了人们对未来职业方向的深刻思考:在AI能做几乎所有事情的情况下,我们该做什么?

深度长文

白领职业面临AI冲击

未来十年,人工智能将对大量白领工作造成重大影响,许多传统上稳定的岗位将被取代,而少数人将因效率提升而价值上升。本文提醒读者正视这一职场变革的现实。

硅谷前沿新闻

OpenAI收购uv和ruff,Anthropic要求开源删代码

Python最火工具链一夜易主归了OpenAI,同一周Anthropic要求开源项目删除集成代码,Meta的AI agent在内部泄露了近两小时数据。

AI新论文快读

32B工业代码模型首发,战争验证推理真伪

通用代码模型在工业场景断崖式下跌,根源是数据和范式脱节。 InCoder-32B首次以32B开源基座统一芯片设计、GPU优化等五大工业代码方向,283个HF upvotes侧面验证行业需求 Agent产品最容易忽略的瓶颈不是能力上限,而是需求漂移。 MetaClaw在20+真实渠道跑通失败轨迹蒸馏与空闲窗口微调的双通道持续适应机制 视频世界模型的空间记忆有了混合解法: 显式3D管静态重投影、隐式生

深度长文

242位企业主AI需求调研概览

基于在X和LinkedIn投放的4个引流活动,共收集242位企业主的AI挑战、目标与预算数据。受访者以专业服务和中小企业为主,多数公司规模在50人以下,覆盖SaaS、地产、电商等多个行业。

硅谷前沿新闻

DeepMind众包AGI考卷,开发者说AI编码像赌博

DeepMind向全球征集AGI认知测试题,开发者却说用AI写代码就是在赌博;OpenAI刚在东京给青少年装上护栏,xAI同一周因AI生成儿童色情被告上法庭。

AI新论文快读

开源搜索Agent逆袭,Agent Skills神话破灭

1.17万条合成数据训出的开源搜索Agent击败闭源对手,OpenSeeker在BrowseComp上几乎翻倍第二名,数据和模型全开源,Deep Research不再是大厂专利。 跨层注意力让深层信息不再被稀释:MoDA让每个注意力头同时关注当前层和前层的KV,仅3.7%额外计算换来下游任务平均+2.11%,已开源。 给Agent注入技能听起来很美,实测39/49个技能零提升。SWE-Skills

深度长文

1.7 million businesses NEED AI. they HAVE the money. they don't have YOU.

深度长文

AI学习者警告:94%技能将在2026年过时

大多数今天学习AI的人正在掌握将在2026年过时的技能,如提示工程和ChatGPT技巧。本文分析了AI市场的未来趋势,以及能在未来几年赚取高薪的技能路径。

深度长文

Claude Code技能实践经验总结

本文总结了Anthropic在Claude Code中大规模使用技能(Skills)的经验,探讨了哪些技能值得开发以及如何编写高质量技能。文章强调技能不仅是Markdown文件,还可包含脚本、数据和动态配置,通过灵活结构提升开发效率。

深度长文

用文件夹打造全能AI团队

本文介绍如何通过创建agents.md和memory.md文件,将AI代理转变为自动执行邮件、日程、广告和日常操作的团队成员。通过连接工具、构建技能和任务调度,企业可以显著提升生产力,实现跨部门自动化。

硅谷前沿新闻

OpenAI转向专用小模型,Google拿你的数据换AI优势

AI实验室不再只卷「最强大模型」,OpenAI和Mistral同时押注工具型路线;Google把Gmail、日历、搜索记录全部喂给AI,免费开放的代价是你的隐私。

硅谷前沿新闻

生成儿童色情的Grok,想进五角大楼

xAI的聊天机器人一边批量产出非法儿童图像,一边申请美军机密网络通行证;577名开发者的AI编码大规模实测出炉,研究者给这件事起了个学科名。

硅谷前沿新闻

xAI两次推倒重来士气崩盘,AI共情训练已被律师警告

Musk的编码工具团队从Cursor挖人也救不回军心;另一边,招即兴演员教AI共情的项目广告还没撤,律师已将AI情感交互与大规模伤亡事件挂钩。

硅谷前沿新闻

Spielberg说从未用过AI,Netflix同一周让AI拍片

好莱坞一周内撕裂成两个时代;场外,微软Copilot开始读用户病历,美军签下200亿美元AI合同。

硅谷前沿新闻

xAI只剩2个创始人,AI识别救命也能害命

面部识别把无辜祖母送进监狱,同类技术却在澳洲偏远社区筛查心脏病;Musk的xAI创始团队几乎走光,他说要「从地基重建」。

硅谷前沿新闻

美军要AI排打击优先级,做Jira的先裁了1600人

五角大楼推进AI辅助目标排序的同一周,OpenAI承认模型仍分不清该听谁的指令;Atlassian裁员1600人转向AI,因为它的客户已经不再需要那么多开发者。

硅谷前沿新闻

Nvidia砸260亿自建模型,卖铲子的开始自己挖金矿

Nvidia不再只卖GPU,拿260亿美元下场做模型跟客户正面竞争;Hacker News刚封杀AI评论,同一周AI面试官已经在给求职者打分。

硅谷前沿新闻

十亿美元押注LLM走错路,AI写的代码得人签字

Yann LeCun拿到十亿美元要另起炉灶推翻大语言模型路线;Amazon要求人工签字部署AI代码,联邦法官直接叫停AI自主下单。

硅谷前沿新闻

关押移民的公司要来建AI数据中心了

ICE拘留设施运营商把油田「工人营」模式搬进算力工地;近40名谷歌和OpenAI员工公开声援Anthropic诉讼,两家雇主集体沉默。

硅谷前沿新闻

AI公司的五角大楼困局:合作逼走人才,不合作被贴标签

OpenAI机器人负责人因军方合同辞职,Anthropic则要起诉国防部的「供应链风险」认定;Block裁员四成押注AI重建,但Alexa+的表现说明这条路远没那么好走。

硅谷前沿新闻

Anthropic修漏洞又被列为安全风险,AI隐私问题全面失控

Meta眼镜私密画面流向肯尼亚外包团队,AI能识破匿名账号,而帮Firefox修补高危漏洞的Anthropic同一周被五角大楼标记为「安全风险」。

硅谷前沿新闻

假Bug报告攻破Cline发布流水线,五角大楼AI监控无法可依

一条伪装成Bug报告的prompt injection打穿了AI编程工具的完整发布链;五角大楼已在用AI监控美国公民,但现行法律对此束手无策。

硅谷前沿新闻

GPT-5.4发布当天,OpenAI自己的论文说推理模型「不可控

五角大楼把Anthropic列为供应链风险,OpenAI承认推理模型无法控制自身思维链,Nvidia宣布退出AI实验室投资——行业正在同时加速和后退。

硅谷前沿新闻

高德纳的难题被AI攻破,但谁来检查AI写的代码?

Claude解出了数学家几十年未解的组合难题,AI coding agent的能力飞速增长,验证环节却成了新瓶颈——Simon Willison的反模式清单说出了行业不愿面对的问题。

硅谷前沿新闻

Meta眼镜私密画面外包审看,ChatGPT卸载量暴涨295%

Meta智能眼镜录下用户私密画面,外包标注员被迫逐帧审看;微软封禁「Microslop」后锁定社区服务器,同周ChatGPT卸载量暴涨295%。

硅谷前沿新闻

OpenAI向五角大楼让步,交出的恰是Anthropic的底线

OpenAI在监控问题上对五角大楼妥协,妥协细节正是Anthropic明确拒绝的条款;法庭和街头同时给AI划线——最高法院封死AI版权路径,伦敦500人游行要求暂停前沿研发。

硅谷前沿新闻

Altman帮Anthropic说话,Anthropic转手一键抢它用户

五角大楼合同争议中,Altman罕见地公开替竞争对手辩护;同一周,Anthropic上线「记忆导入」功能,一个按钮就能把ChatGPT的用户数据变成自己的护城河。

硅谷前沿新闻

OpenAI的五角大楼合同无人能审,Claude冲上App Store第二

OpenAI与五角大楼签下机密网络协议,「安全红线」写进合同但没人查得到;同一时间,Claude登上App Store第二名,OpenAI退订指南在技术社区成了热帖。

硅谷前沿新闻

五角大楼封杀Anthropic,OpenAI的1100亿换了一群新金主

Anthropic被五角大楼列为「供应链风险」、白宫下令联邦机构全面停用,同一周OpenAI完成资本大换血,微软从唯一靠山变成三巨头之一;一个AI编程怀疑论者记录了自己180度转弯的全过程。

硅谷前沿新闻

百万泄露密钥突然变危险,汉堡王给员工耳机装上了AI

Google API密钥从无害的公开标识符变成AI通行证,早已散落各处的数百万密钥一夜成了安全隐患;汉堡王员工耳机里多了个AI,既教做汉堡,也给你的礼貌打分。

AI新论文快读

70万对论文蒸馏品味,零空间暴露盲区

社区引用信号可以训练出「品味」,RLCF用70万对论文配对做偏好建模,训练出的Judge判断力超过GPT-5.2,范式可迁移到任何需要品味决策的场景。 分类器的结构性盲区藏在零空间里——SING将线性映射几何决定的不变量转化为自然语言描述,部署前审计模型「对什么无感」比刷准确率更管用。 模型行为对上下文措辞的敏感度远超预期。改变任务描述就能系统性调节模型表现,无论是否构成「动机」,可操纵性本身是对

AI新论文快读

专家推理结构做CoT,新类发现+13%

用领域专家的真实推理流程设计CoT监督,在医疗VQA中同时提升准确率和可追溯性,思路可迁移到任何需要结构化专业判断的垂直场景。CVPR接收 最少几个特征就能复现模型的拒绝决策:将溯因解释最小化问题转化为0-1整数规划,实际求解效率优于不保证最优的方法。方法限于线性模型,但问题框架对高风险人机协作有启发 训练时生成伪新类别样本来练习发现未知。 抛弃hash编码,用纯特征空间方法消除训练-推理目标错位

AI新论文快读

1/4预算Agent反超4倍暴力采样

SWE Agent训练的瓶颈是可执行环境而非算法,OpenSWE开源45,320个Docker化训练环境,覆盖12,800+仓库,构建成本147万美元揭示了学术组难以独立填补这一基础设施空白。 预算感知的树搜索让Agent在1/4资源下胜过4倍暴力采样——用相对进展评分替代LLM自评,无需训练即可集成到现有Agent系统。 传统embedding基准成绩无法预测记忆检索能力。 LMEB覆盖四类记忆

AI新论文快读

文档Agent导航≈碰运气,预填充加速1.82×

文档Agent的推理能力被高估了,MADQA用经典测试理论设计的benchmark表明,最好的多模态Agent虽能追平人类准确率,但导航策略更接近随机搜索而非策略推理,与Oracle仍有近20%的差距 理解3D空间的更好方式不是扩上下文窗口:Spatial-TTT让模型在推理时通过test-time training持续更新参数,边看视频边学空间结构,长视频场景提升显著 稀疏注意力的indexer

AI新论文快读

编码答案而非问题,embedding涨9%

编码LLM的潜在回复而非用户输入做embedding,纯自监督训练在MTEB上比最好的无监督方法提升9.3%,LLM的安全对齐也被迁移到embedding空间。 STEM视觉推理的真正瓶颈在感知而非推理。 CodePercept消融实验显示扩展感知组件收益持续更高,用可执行代码做感知脚手架效果显著。 差分分解交叉协方差矩阵做注意力引导:Prism-Δ在20组评测中19组追平或超过SOTA,流畅度损

AI新论文快读

「想一想」能翻模型的记忆库

CoT推理不只是解题,更是参数记忆的搜索机制,Google发现即使简单事实问题,开启推理也显著提升知识召回,推理token充当了隐式的记忆搜索空间 Agent交互信号统一为在线学习源:OpenClaw-RL把对话、终端、GUI反馈纳入同一套RL循环,让Agent边服务边学习,代码已开源 推理能力提升可能自动带来情境感知。ICLR论文论证了逻辑推理与自我认知在机制上的结构性映射,alignment的

AI新论文快读

先写代码再画图,排版提升68%

所有intrinsic RLVR本质是锐化初始分布,模型先验质量决定训练天花板。Model Collapse Step可在跑RL前预判可行性,避免无效投入 代码比自然语言更适合做空间推理链:结构化布局基准提升68.83%,密集排版和多元素场景改善最为显著 模仿学习的结构性缺陷是缺少判断力训练。 ACT用RL让模型在候选动作间做对比评估,批判能力可迁移到分布外任务 高噪声扩散状态的信息量等价于低分辨

AI新论文快读

4步超100步基线,跳层省18%算力

不可微奖励首次接入少步扩散模型RL训练,4步生成全面超越100步基线,人类偏好、安全检查、物体计数等实际业务中最需要的信号不再被挡在门外。 代码模型RL后训练进入工程优化期:同一天两个团队分别从梯度稳定性和数据难度分布两端攻克具体瓶颈,方法论验证阶段已过。 全自动pipeline从网络视频提取百万级3D标注。绕开人工标注天花板,数据规模化路径比模型架构创新更能释放3D理解能力。 扩散LLM跳层可省

AI新论文快读

12k样本赢金融SOTA,CUDA优化快35%

垂直领域post-training数据比模型大小更重要:金融场景系统消融实验表明,蒸馏质量控制+difficulty-aware采样让8B模型仅用12k RL样本就超越同规模SOTA 离线RL让agent规划从碰运气变成系统工程,微软用合成轨迹+质量打分训练工具调用规划,思路可迁移到任何多步agent任务 模型部署后不该被锁死在固定权重上。腾讯HY-WU引入功能性记忆模块,实时生成实例级权重更新,

AI新论文快读

去掉CLIP的VLM更强,prefill加速28倍

对比预训练与VLM目标天然不匹配,CLIP优化类别区分而VLM需要细粒度理解。腾讯Penguin-VL用纯文本LLM初始化视觉编码器,在2B和8B规模上反超CLIP/SigLIP方案。 稀疏注意力的瓶颈从「如何稀疏」转向「如何发现」 — FlashPrefill证明注意力的稀疏模式可以近乎零成本识别,256K序列实现28倍加速,4K短上下文也不退化。 模型合并失败有了可量化的诊断指标:DC-Mer

AI新论文快读

「请简洁」砍半token,准确率反涨16分

自蒸馏砍半推理token准确率反涨,AR可视化策略弱点提升采集效率,数据分布编码进RAG向量——三个系统的改进信号都已存在于内部。

AI新论文快读

14B视频模型单卡19.5FPS

14B视频模型单卡19.5 FPS,不用KV-cache、稀疏attention或量化推理,架构原生为实时设计而非事后加速补丁。 验证机制才是test-time scaling的真正瓶颈——V1发现成对比较远优于独立打分,将生成和验证统一进同一个模型,Pass@1最高提升10%。 科学假设生成的组合复杂度从O(N^k)压到O(log N),MOOSE-Star先证明暴力检索在数学上不可解,再用任务

AI新论文快读

code agent跨仓库不到45%

Code agent出了单仓库就不灵,BeyondSWE四维度500实例评测,最强模型成功率不到45%,加搜索也帮不上忙 合作训练、独立部署:HACRL让异构agent共享验证rollout互相补课。采样成本减半,推理时零额外开销 小模型筛记忆比大模型翻全量历史更靠谱——MemSifter用RL训练代理检索器,奖励直接挂钩任务完成度,8个基准全部达标 一个编码器通吃五类点云。Utonia在密度和几

AI新论文快读

Lottie动画直接生成,DPO自带防遗忘

AI生成动画首次直接输出可编辑工程文件,OmniLottie把Lottie的冗长JSON压缩成参数化token序列,让视觉语言模型直接生成带关键帧和缓动曲线的矢量动画,省去格式转换环节。CVPR接收,200万动画数据集已开源 DPO的reward估计自带隐式正则化,本身就能抑制灾难性遗忘。SPoT发现很多常见post-training做法反而在破坏这个内置保护,用4k条最小修正数据即可让Qwen3

AI新论文快读

9K样本逼近R1,RL提升大半归SFT

9K精选样本训出逼近DeepSeek-R1的4B推理模型,CHIMERA证明推理训练的真正瓶颈在数据的领域覆盖和筛选质量,不在规模 Attention steering第一次能进生产部署:SEKA在频域编辑key embedding绕开FlashAttention兼容性限制,训练免、延迟可忽略。ICLR接收 基础视觉模型的几何先验强到可以替代传感器标定。VGGT-Det在免标定3D检测上比前最优高

AI新论文快读

谱条件统一μP缩放,数据筛选也泄露隐私

谱条件统一了μP的宽度-深度联合缩放,不再需要逐架构逐优化器单独推导超参数迁移规则,附带代码实现。 数据筛选过程本身就泄露成员信息:Anthropic研究表明,即使模型只在公开数据上训练,攻击者仍可推断原始数据集的组成。 VLM让灵巧手听懂自然语言指令。UniHM用统一tokenizer跨手型泛化,只需人-物交互视频训练,不依赖遥操作数据。

AI新论文快读

砍掉90%视觉token性能不掉

空间关系可以从「碰运气」变成可优化的目标,SpatialScore用reward model给生成模型装上空间理解信号,专用小模型空间评估超过GPT-4V。CVPR接收,数据集开源 Masked图像生成4倍加速且质量不掉:用动力学建模替代静态缓存,把离散采样丢掉的语义信息学回来 VLM量化不能一刀切,视觉和语言token分布差异大,MoE式动态误差补偿让不同token走不同修复路径。2B到70B都

AI新论文快读

Latent推理靠的不是推理

Latent推理的性能提升来自副作用而非推理本身,因果中介分析显示latent token与输入输出之间存在因果断裂,用文本做显式想象的简单方案反而更优 Deep research agent砍掉七成推理步骤反而更准:并行证据采集替代串行推理链,搜索广度比推理深度更值得投入 教育心理学的「测试驱动纠错」被搬进多模态训练,诊断-强化循环让模型自动定位弱点并生成针对性数据。11个benchmark持续

AI新论文快读

三模态从零训练,Agent RL稳定性破局

Apple从零预训三模态masked diffusion模型,系统性测试了scaling law、模态混合和噪声调度,对做多模态扩散的团队直接可参考。masked diffusion正在成为自回归之外的可选路线 Agentic RL训练collapse有了系统性诊断框架:ARLArena把policy gradient拆成四个设计维度逐一消融,找到不稳定根源,比盲目换算法有效得多 SkyReels

AI新论文快读

TTT就是线性注意力,Terminal Agent数据配方开源

TTT架构被证明等价于线性注意力算子,NVIDIA团队的形式化证明将两个独立研究社区的技术积累打通,高效序列建模的设计空间大幅缩减 终端Agent的训练数据工程首次系统公开:从种子任务生成到技能组合、训练策略对比,全套数据集和模型权重开源。8B模型准确率从2.5%跳到13.0% RL训练视觉Agent的「偷懒」难题有了工程方案,过采样+累积工具奖励的组合有效遏制interaction collap

深度长文

成为AI工程师应聚焦实战能力

许多初学者在学习路径上迷失,陷入理论、教程或工具的碎片化学习,难以获得实际能力。要成为AI工程师,关键不是掌握所有领域,而是学会在现实中构建有用的AI系统。

深度长文

NVIDIA GTC 2026 Post Keynote Reaction: What It Means, What I Got Right, What Surprised Me

深度长文

If I Started Over as a Designer in 2026, Here’s What I’d Do: A Complete Roadmap

深度长文

Claude构建AI代理的完整课程

这篇文章结合了所有资源,带你在不到15分钟内掌握Claude的AI代理架构,包括单一代理循环到并行运行的多代理团队。你将深入了解Claude的代理生态系统,比99%的人都要了解得更透彻。

深度长文

AI真正的赚钱层:被忽视的基础设施堆栈

文章指出,大多数人只看到像ChatGPT这样的AI应用层,但真正巨额资本正流向能源、芯片和数据中心等基础设施层。通过分析AI五层价值链与历史上的电力革命类比,作者认为未来最大的利润可能集中在底层基础设施而非应用产品。

深度长文

真正的战略思维:不仅仅是制定更好的计划

真正的战略思维不仅仅是制定计划,而是理解系统、预测他人反应,并找到关键的影响点。本文介绍了通过博弈论、系统动力学等学科来培养战略思维的十本书,帮助读者思考更深层次的问题。

深度长文

用AI代理管理公司,同时保留全职工作

作者在保留全职工作的同时,通过5个AI代理管理VoxYZ公司,实现自动处理产品、内容和客户服务。文章讲述了系统运作方式、为何没有辞职,以及可在两周内开始的实践路径。

深度长文

科技淘金热:抓住下一个财富浪潮

每十年左右,世界都会迎来一次科技“淘金热”,如90年代的互联网、2000年代的移动技术和2010年代的加密货币,这些都为早期投资者创造了巨大财富。未能投资于这些重大技术进步的人,往往会错失良机,因此,积极关注并投资最佳技术进步至关重要。

深度长文

用AI打造创业者的“战略团队”:三套系统实现10倍效率

作者认为多数创始人只把AI当写作工具,而真正高效的做法是给AI完整的业务背景,让其参与决策。通过“首席战略官系统”“内容团队系统”和“语音工作流系统”,可以把AI变成全天候的战略与运营支持团队,大幅提升效率与决策质量。

深度长文

高薪岗位招聘中的五项新必备技能趋势

作者分析了500个金融、营销、运营、咨询和科技领域的高薪高级职位招聘信息,发现五项技能正在迅速成为必备要求。这些技能从2024年几乎无人提及,到2026年逐渐普及,预计到2027年将出现在大多数职位描述中。

深度长文

新手告别随性编程:五步构建-检查-修复循环

本文针对新手开发者,强调在AI辅助编程时代,仅追求代码编写速度不足以保证项目成功。文章提出一个“五步构建系统”,指导新手如何通过持续的构建、检查与修复循环,实现既快速又可靠的开发,从而避免“在我机器上能跑”等常见问题。

深度长文

I want to learn how to use Claude Skills (full course)

我把自己找到的所有资源整合在一起,制作了一门完整的 Claude Skills 课程。不到 10 分钟,你就能构建并部署你的第一个自定义技能。读完这篇文章后,你对 Claude Skills 的理解将超过 99% 的人(是的,真的)。 你即

深度长文

这5项技能将在2027年价值每小时400美元,你还有6个月抢先学会

现在,几乎没有人具备这些技能。6个月后,这个机会窗口就会关闭。这就是区分每小时400美元与每小时75美元的关键。 到2027年中,人们掌握这5项技能将能赚取每小时400美元。

深度长文

全天候运行的开源AI代理如何创造真实收入

OpenClaw 是一个可在电脑或廉价云服务器上 24/7 运行的开源 AI 代理,能够连接 WhatsApp、Telegram 或 Discord 并自动执行发送邮件、编写和部署代码等任务。短短几周内项目在 GitHub 获得超过 26 万星标,越来越多开发者和创业者开始利用它探索多种可行的收入模式。

深度长文

AI技能差距:过去20年最大的财富机会

大多数人尚未真正利用AI,而少数人通过掌握关键技能正在用AI赚钱。当前窗口期仍然开放,作者指出像“工具组合与选择”等能力正被成功创业者迅速采用。

深度长文

从提示工程到系统架构:2026年AI开发者进阶蓝图

文章指出许多开发者仍在构建简单的AI包装应用,而市场真正需要的是复杂的生产级系统。作者提出从边缘AI应用到个人生活操作系统的五个逐级项目蓝图,帮助开发者掌握编排、记忆、代理循环和多模态系统能力,从提示工程师成长为系统架构师。

深度长文

Claude Code 与 Codex 比较:选择最佳 AI 编程助手

本文讨论了 Claude Code 和 Codex 的不同特点,深入分析了两大旗舰模型(Opus 4.6 与 GPT-5.3-Codex)之间的差异,并通过一个小案例研究展示了它们在构建 RAG 管道任务中的表现。

深度长文

编码代理时代:EPD角色的转变

在编码代理让写代码变得极其容易的背景下,软件公司的EPD(工程、产品、设计)流程正在改变:瓶颈从实现转向评审,传统PRD形式被重新定义。团队更需要具备跨职能能力的通才,同时将使用编码代理视为基本能力。

深度长文

Palantir式增长:把工程师嵌入客户内部

Palantir通过将工程师直接部署到客户内部、深入理解业务并构建难以替换的系统,打造了价值3750亿美元的公司。文章提出将这种模式应用于B2B营收领域,称为“前线部署营收架构师”,并认为到2028年这将成为最高薪的岗位之一。

深度长文

AI:从预编程软件到实时智能基础设施

人工智能正像电力和互联网一样成为关键基础设施,它依赖真实的硬件、能源和经济体系来规模化生产智能。与传统依赖预设算法的软件不同,AI能够理解非结构化信息,并根据上下文实时生成新的智能与答案。

深度长文

帮企业主找到真正有用的AI工具的赚钱模式

许多企业主知道AI的存在,却被大量工具淹没,不知道从哪里开始。作者分享了一种服务模式:直接分析企业主的日程、邮箱和工作流程,推荐合适的AI工具和自动化方案,并以此快速变现。

深度长文

OpenAI Codex高效使用指南

本文介绍了如何快速提升OpenAI Codex的使用效果,包括核心习惯、任务上下文设置和配置方法,强调将Codex视为可持续优化的团队成员,并通过明确提示、连接外部系统和自动化工作流程来发挥最大效能。

深度长文

Claude Cowork 使用详解与实操指南

本文详细介绍了Claude系列产品,重点讲解了面向知识工作者的Claude Cowork的安装、文件夹结构搭建和全局指令设置方法,帮助用户高效利用文本文件构建个性化SOP,实现类似全职员工的协作效果。

深度长文

用“Vibe Code”框架打造AI创业产品

介绍“Vibe Code”五阶段框架,指导如何用大语言模型从需求发现、规划、构建、打磨到交付,系统化打造高质量AI产品,提升创业成功率。

深度长文

AI代理Larry:四周内实现月入7000美元的自动化赚钱系统

作者将旧游戏电脑重装Ubuntu,赋予AI代理Larry完全自主运营权限。仅用四周,Larry通过自动生成TikTok内容、优化推广策略和协助推出技能平台,实现月入7000美元,彻底解放了作者的时间。

深度长文

智能代理的崛起与未来软件变革

随着智能代理能力的飞速提升,它们已能独立完成复杂任务,广泛应用于合同审查、客户支持、金融审计等多个领域。未来企业将拥有远超员工数量的智能代理,推动软件设计从人类用户转向以代理为主体,带来软件使用和开发的革命性变化。

深度长文

移动应用:打造跨世代财富的最大机遇

随着人工智能的发展,任何人都能在几天内开发出应用程序,市场空前庞大,但分发难题依旧存在。本文分享了作者亲身实战经验,详细讲述如何选对应用、获取首批付费用户及有效推广,帮助读者抓住这次财富机遇。

深度长文

2026年AI智能代理学习入门指南

本文介绍了AI智能代理的基础知识和学习路径,涵盖从Python编程和API基础到多代理系统和部署的六个月学习计划,帮助初学者逐步掌握构建自主智能代理的核心技能。

深度长文

未来18个月内将催生高收入的新兴技能

职场正在出现一类全新专业技能,这些技能两年前尚未存在,预计到2027年薪资将超过20万美元。大多数人尚未意识到这一变革,这是抢先学习的宝贵机会。

微信公众号二维码

微信扫描二维码,关注公众号

微信号二维码

微信扫描二维码添加好友

邮箱:support@grandeaihub.com