在过去的几个月里,代理(agents)开始发生了一些重大变化。去年接近尾声时,我们开始达到一个节点,即编程代理能够完成更长时间运行的任务,而且在开发过程中不再需要大量的人工引导。

这些代理不再是带有基本工具的聊天机器人。相反,这些代理通常拥有自己的沙盒计算环境,能够编写和运行代码来解决遇到的任何问题,直接与API和CLI交互,拥有自己的文件系统和长期记忆,等等。这套核心原语、代理工具最佳实践的整体进展,以及代理在工具使用和软件开发上的惊人模型进步,展示了能够应对投向它们的任何任务的代理愿景。

虽然最初这些架构是由Claude Code、Devin、Codex、Factory、Cursor或Replit等编程代理定义的,但我们最近已经跨越鸿沟,进入了包括Claude Cowork、Perplexity Computer、Manus以及当然还有将事情推进更远未来的OpenClaw这样的针对个人体验和知识工作的各个领域,这些代理都在其持久环境中24/7运行。

由于能力的快速提升,代理将被引入几乎所有的工作领域。代理将被部署来审查每一个合约,处理大多数客户支持案例的前线,审核每家公司的财务,梳理每一篇用于药物发现的医学研究,生成几乎所有编写的代码,创建大多数销售和咨询演示,在网络上为消费者进行交易,总体上参与社会中几乎所有具有经济价值的任务。

这不仅仅是执行我们今天已经做的任务。我们将使用代理做远远超过以前的事情——使用代理运行此前负担不起的模拟,使用代理以多种不同方案原型设计每一个想法,因为启动成本低且关闭容易,我们将追求更多项目,并且我们会对每一条数据进行审查,而不仅仅是抽样信息。

综合所有这些因素,我们可以预见,几乎所有组织的员工将拥有多个代理代表他们工作,不难想象一家企业中,每个人对应有100倍或1000倍的代理数量。由于数以万亿计的代理在运行,代理将成为未来所有软件的主要用户。

鉴于大多数软件是为人使用而构建的,这意味着我们将看到未来软件构成的重大转变。那么,接下来是什么?

做代理想要的东西。

Paul Graham闻名于将构建软件的原则简化为:做一些人们想要的东西。

这一建议催生了21世纪一些最大的成功软件案例,并推动了构建简单易用、易于采纳、解决明确问题且无术语门槛、拥有直观定价的工具的运动。

现在,未来的道路是制作代理想要的软件。虽然代理的最大用户往往是开发者或至少高度技术化的用户,他们常常有自己的工具偏好,但在代理为知识工作者执行任何类型任务的世界里,这种偏好将逐渐消失。除非企业已设有标准,代理将主导任何特定工作流程的采用。

这可能涉及他们注册的工具、他们编写的代码、他们使用的库、他们利用的技能等。对代理来说更易采用且能最好解决代理(及用户)问题的平台,将比那些做不到的走得更快更远。代理不会去参加你的网络研讨会或看到你的广告;它们只会使用完成工作的最佳工具,而你会希望那个工具是你的。

这条建议的最大含义是,你所构建的一切都必须以API为先。如果某个功能没有API,它就等于不存在。如果无法通过CLI或MCP服务器暴露,你就处于劣势。如果你的API混乱且路径冲突,代理将难以使用,你的有用性也会大打折扣。在Box,我们专注于为代理构建文件系统,我们不断审视API的各个方面,以找出在代理世界中哪些地方的可用性会崩溃,而这种可用性通常只在用户体验设计中被考虑。

就像为用户设计意味着在构建软件时设身处地为用户着想一样,考虑代理会遇到的情况也同样如此。比如,YCombinator的Jared Friedman提醒大家:“即使是最好的开发者工具,大多仍然不允许通过API注册账户。在Claude时代这是一个大漏洞,因为这意味着Claude无法自行注册。现在,将所有账户管理功能放进API应该是基本要求。”如果代理无法轻松注册和使用你的服务,你基本上就失去了代理这群用户。

在未来代理成为软件最大使用者的世界,这也对商业模式有重大影响。在某些情况下,启动代理的用户席位可能适合基于席位的软件商业模式,但大量代理使用场景并不完全对应现有用户,或者它们的工作量发生了根本变化。例如,代理只需几句话或几行文字,就可能在软件内完成相当于数小时的人类工作,并仅将最终结果暴露给终端用户。

这最终意味着某些软件部分的商业模式会进化,因为任何想在代理时代生存的工具都需要将某种形式的消费或基于使用量的商业模式内置于系统,甚至支持代理自行支付这些服务。

代理的下一代基础设施与工具

“把电脑交给人类是个好主意,把电脑给电脑则是更好的主意,让电脑能为我们的工作创造出相同的产出。”——Aravind Srinivas,Perplexity

随着代理拥有自己的计算机,可以编写和执行代码,调用常用技能来执行重复动作,以及访问外部工具和服务,这为代理使用全新技术集创造了机会。想象一下用户在电脑上的操作,代理需要为此设计一套类似的能力。

这些核心服务其中一些自然来自现有厂商,因为代理会调用现有数据,或因为人与代理用户在系统上的协作或连接带来价值。同样,也将出现全新类别,因为问题空间与人类用户之前的需求大相径庭,设计服务必须从头开始。

例如,显然代理将需要自己的基础设施和前所未有的规模。未来的超大规模云计算提供商(新的或现有的)将建立在这样一种理念之上:未来的服务器场不是用来运行我们的应用,而是用来运行我们的代理。E2B、Daytona、Modal和Cloudflare都在推动这一方向,这些沙箱环境将具备前所未有的计算规模。

代理还需要访问企业中的核心文件,并能够管理自己的记忆和长时间运行的工作,这正是我们在Box专注构建的内容。同样,主要企业系统需要转为API优先,才能使代理访问组织的关键服务和数据,如HRIS、CRM、工作流、数据湖和其他主要系统。那些提供最无缝代理工具以从任何地点操作数据的产品,将最有机会赢得未来的工作负载。

代理还可能需要身份,并具备与他人沟通的能力。例如,Agentmail为代理提供了自己的持久邮箱。Parallel、Exa等正在重建网络搜索,适应代理成为最大网络信息爬取者的世界。许多类型的代理将需要管理自己的预算,使用Stripe或Coinbase等钱包支付,我们或许终于迎来了微交易的实际应用,代理可以访问付费工具和信息。

安全、合规与治理将成为代理的重要挑战。在代理访问和处理敏感信息,或执行受监管工作流(如制药或银行)时,企业必须治理并保存代理所做的所有工作。长期运行的代理可能需要自己的身份,能够认证服务,对其可采取的操作类型和可访问的数据施加严格控制。我们需要开发全新的软件和平台来应对这些挑战,就像我们长期为人和应用程序建立的体系一样。

总体而言,我们显然正在进入一个全新的软件时代,需要专门为大规模代理设计和构建我们的工具。在一个有数万亿代理执行任务的世界里,这将开启一种与软件合作的全新方式。