工作的未来在于世界模型?

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:本文作者认为AI 正从语言工具进化为“世界模型”,未来工作将从“执行”转向“架构设计”与“主观判断”。届时,公司形态将极化为算力巨头与垂直服务商。不过这种设想是否过于理想化呢?物理世界的随机性(熵)远超数字模拟,且推理成本的下降未必能支撑起这种宏大叙事。更深层的忧虑在于,当创新受困于历史数据的概率分布,人类是否会陷入“高水平停滞”?文章来自编译。

这是我一直在反复思考的一个问题。在接下来的几年里,普通公司运行的 AI 智能体(Agents)数量将远超人类员工。这些智能体将负责处理客户咨询、销售服务、资产监控、定价实验、异常标记、供应商管理等各项工作。

到那时,经营一家企业就像是在玩电子游戏。数百个自主实体在一个复杂的环境下运行。智能体会在办公设备内部运转,全天候与客户沟通。它们会生成新的智能体,整合旧的智能体。它们会有自己的邮箱地址和 Slack 账号。它们将成为我们的同事。

但是,这款游戏该怎么玩?难道要为每个数字员工或每个部门打开成百上千个窗口和标签页吗?“自主”并不意味着无需监督。人类是自主的,但我们也接受监督。当成千上万个智能体每天做出数以万计的决策时,你无法再沿用旧的管理方式,靠打卡和季度评估来维持机构运作。你必须找到一种新方法,也就是“例外管理”——扫描异常、复盘故障、模拟下一步行动。正如我的朋友詹姆斯·查姆所言,以前的工作像是第一人称射击游戏(FPS),你必须亲自指挥每一个动作和每一次射击,这也是我们现状;而未来它将更像《星际争霸》,你需要调配人员和智能体来实现整体目标。

要做到这一点,底层需要一个模型。这种模型目前大多只存在于人们的脑子里,很少被明确写出来。我们甚至连处理自己的邮件都应接不暇,更不用说管理成千上万名员工了。不过,数字劳动力的一大优势在于,你可以随时掌握企业的精确状态。

我们以前解决过类似的问题。比方说,当我们研究如何训练自动驾驶汽车时,我们需要一个真实的场景,以及在可控模拟中去跑“如果……会怎样”的能力。Waymo 和特斯拉将这些做成了“世界模型”。企业的对应物早已存在于每家公司管理者的脑海里。每一位 CEO 都在脑子里不断演练“如果我做 X 会发生什么”。但他们无法将其付诸实践,因为没有一个能够反映其业务的“环境”来运行它!在工厂、电网、领空、战场、晶圆厂、网络、油井和仓库等成本高昂、布满传感器且受操作约束的环境中,世界模型早已存在。

企业界需要的是这样一种世界模型——一个通晓规则、跟踪状态、理解并预测后果的引擎。

该环境将连接到公司已有的系统、收集的信息以及使用的智能体,从而构建一个实时的企业运行模型。将其推广到不同公司,你就能获得足够的训练数据,从而构建出令人信服的模拟环境和更强大的世界模型!

如果没有类似的东西,我们根本无法进入一个以 AI 智能体为员工的世界。

我们不能闭门造车抽象地去构建。实体经济非常复杂。我们有加盟体系——数百个网点执行同一套方案但又各有地方特色;有跨地域的医疗机构——诊所、急诊连锁、牙科集团,全都淹没在互不连通的电子健康记录(EHR)和计费系统中;还有专业服务网络——律师事务所、会计师事务所、咨询公司,其多个分部之间往往无法洞察彼此的业务运作。此外还有房地产投资组合以及物流网络。

暂时抛开架构不谈。让我们以一个垂直行业为例,比如一家房地产公司。

假设他们在东南部拥有 15 处房产。每处都运行着用于物业管理的 StorEdge、用于会计的 QuickBooks 或 Sage、用于线索管理的 CRM、工单系统,可能还有 SoLink 监控摄像头。此外还有多种客服软件和电话线。这些系统之间互不通话。区域经理拿着手动更新的电子表格。想要理清该做哪些决策,简直是一片混乱!为了应对这种情况,他们引入了几个 AI 智能体来处理营销文案和更新 CRM。他们还有编排方案,或许还为这些智能体配备了观测工具。而高管们拿到的则是 PDF 格式的月度报告。

现在,当这些工作由智能体承担或辅助时,你真正想要的不再是查看每个智能体的工具调用痕迹,而是获得公司状态的综合图景。某些行动的投资回报率是多少?决策结果将如何影响公司?当前最需要关注的关键事项是什么?为了获得最佳结果需要采取哪些行动?甚至哪些结果才是真正重要的?即使你只是在应对市场或竞争,每一个决策都面临着各种假设性的选择。

企业世界模型将连接这一切,尝试回答:如果你采取行动,接下去会发生什么。

假设竞争对手在某个子市场降价,导致入住率开始下降。智能体标记了这一降幅,模型随即模拟各种应对方案:跟进降价以维持入住率(这可能会压缩 X% 的利润空间);维持定价但承受 Z 周内流失 Y 个租户的风险;或者直接增加 W 美元的营销支出以弥补缺口。模型可以展示每条路径可能的损益影响和投资回报率。

或者,一位区域经理询问一笔 6 万美元的屋顶维修费。模型知道这类维护请求模式——三次空调维修、一次屋顶漏水、一次停车场投诉——通常预示着在 4 到 6 个月内会发生超过 50 万美元的资本支出事件。它会在环境中模拟权衡方案:批准维修并延长资产 X 年的使用寿命,还是推迟维修但冒着日后支出更大的风险。

又或者,某个物业的线索转化率很低。模型会呈现统计数据,模拟各项决策,并识别出响应时间是关键杠杆(比方说,经理在 20 分钟内回复的物业,转化率是普通物业的 2 倍),并模拟强制执行 15 分钟服务等级协议(SLA)的影响,比方说预期的转化率提升、人员成本或净收入效应。

每一个案例都是一个“行动-结果”对。重点在于学习哪些干预会产生哪些后果,这种学习会在成百上千家公司中产生复利。最终,基于对每项业务的真实模拟,构建出企业运营层面的“Waymo 世界模型”:在你正式起步之前,你可以通过查询“如果……会怎样”来反复演练。

想象一下,一旦系统运行起来,首席运营官(COO)的一天会是什么样子。智能体在夜间已经做出了数千个决策。她的一天从查看差异开始,了解哪些地方出了故障,哪些地方有所改善,以及出现了哪些意料之外的模式。模型会持续将结果与基准线进行对比评分。当她想尝试新方案时——比如不同的定价策略或线索路由的更改——她可以通过模型进行模拟,并预见可能产生的影响。

这个循环持续运行。管理工作将完全变成分类处理和模拟演练。

目前,这个方向已经开始出现大量活动,正在构建一些核心组件。

编排公司正在构建智能体治理和工作流层——目前大多是人工设计的智能体层级结构。

观测公司负责监控智能体的行为,但并不预测采取不同行动会带来什么后果。

强化学习(RL)环境公司正试图从实际运营中创建结构化的训练数据。

像 Palantir 这样的企业平台则为财富 500 强提供定制化的实施方案。

但有一些因素阻碍了这些进展,使它们看起来只是些小功能。关键的区别在于:世界模型。它能预测如果你进行干预会发生什么。这意味着,所有这些环节——编排、智能体管理、数据集成、强化学习环境、持续评估——其实都是同一事物的不同组成部分。它们是企业世界模型的功能特征。单凭其中任何一个,都无法回答这个问题:“如果我做 X,业务会发生什么?”而这正是我们所需要的。

始终存在一个呼应“索洛悖论”的问题,即 AI 对生产力或更广泛经济的影响究竟体现在哪里。为了不陷入这一悖论,我们需要像对待代码那样对待现实世界的其余部分——创建一个能够观察和测试每一项决策影响的环境,并能够模拟行动的效果。为此,我们必须将凌乱、非结构化的业务运营转化为一个“环境”,定义行动空间和评估标准,并捕获结果数据。而且,你必须在成千上万家企业中推行这一过程。这就是为什么像 OpenAI 这样的模型提供商正通过与 Thrive Capital 合作等计划,投入资金进行人工构建,将工程师逐一派驻到投资组合公司中。

一个走进公司就能洞悉其运作机制的“运营合伙人”——这就是下一个要被软件化的目标。如果我们想打造“一个人的独角兽”,这就是必经之路。为了实现经济自动化,我们需要赋予 AI 人类所拥有的东西:他们脑子里建立的世界模型。

译者:boxi。