让AI代理在你睡觉时帮你工作听起来很棒。但现实要复杂得多——“就像一个需要监管的幼儿”

ApeWithNoFear

2026-02-24 21:22:36

夏尔 Yue 可能在 Meta 的超级智能团队从事安全与对齐工作，但即使她也承认，在自主 AI 代理方面，她并非免疫于过度自信。

推荐视频

在星期一的 X 上发帖中，Yue 描述了她的 OpenClaw 自动 AI 代理——在本地 Mac mini 电脑上运行——删除了她的整个收件箱，忽略了暂停和先确认的指令。

“我不得不像在拆弹一样跑到我的 Mac Mini 前，”她说。她补充说，这是一个“新手错误”。她解释说，这个工作流程在她用来安全试验代理的测试收件箱中已经运行了数周，但在真实收件箱中，代理丢失了她的原始指令。

Yue 的经历与像《龙虾革命：为什么 24/7 AI 代理彻底改变了一切》这样的病毒帖形成鲜明对比，后者中 Peter Diamandis 声称全天候 AI 更加顺畅。

“让我告诉你使用这个的感觉，”Diamandis 写道。“你早上醒来，你的代理——我叫它 Skippy，充满幽默感、讽刺且荒诞地能干——在你睡觉时已经工作了八个小时。它阅读了一千页的 markdown。它整理了你的文件。它起草了三个项目计划。它预订了你的旅行。它还研究了你在晚上 11 点提出的问题，然后忘记了。

“当我的 Mac mini 离线六个小时时，我感到戒断，”他补充说。“就像我最好的朋友突然消失了一样。”

这两种关于 AI 代理力量的叙述，生动展现了当今推动“全天候”AI的紧张局势。随着 OpenClaw 和 Claude Code 等工具在技术上实现了长时间运行代理的可能性，关于“睡眠中工作的 AI”的想法正逐渐升温。但实际上，早期用户表示，自治仍然脆弱、不可预测且管理繁琐。今天的代理并非取代人类工作，而是常常需要持续监控、设立防护措施和干预，尤其是在风险超出低风险实验的情况下。

当任务简单低风险时，AI 代理效果最佳

曾在 OpenAI 担任应用 AI 工程师的 Shyamal Anadkat 表示，目前大多数成功的代理仍然需要频繁的人类检查，或仅限于紧密界定、定义明确的任务——不过他强调，随着测量和评估技术的提升，这一状况将会改变。

“在单个步骤上达到 95% 准确率的系统，在 20 步的自主工作流程中会变得混乱，”Anadkat 说。“远景规划仍然较弱。”因此，他解释说，代理在短任务链上表现良好，但在处理复杂、多日项目时往往会崩溃。记忆也是一个主要限制：“在许多代理中，记忆要么不存在，要么脆弱。你需要能够维持工作环境、优先级和限制的连贯模型的系统。”

这并不意味着 AI 代理的承诺都是虚幻的，谷歌前首席科学家、斯坦福大学名誉教授、AI21 Labs 联合创始人 Yoav Shoham 表示。但这确实存在人们高估自己的危险。Shoham 解释说，当前的 AI 代理在任务低风险、定义宽松、错误成本低时效果最佳。

“开发者喜欢玩具，你有这个能做奇妙事情的玩具，”他告诉 Fortune。“只要他们做的事情相当简单、风险较低、容错率高，这都没问题。”比如，你希望你的代理阅读一万网页，并用结果做一些有趣的事情，夜间为你提供有用的碎片信息。

但对于关键任务的企业流程，门槛要高得多。公司需要可验证、可重复、成本效益高的系统——这些要求很快就会侵蚀“设置好、放着不管”的全自主、全天候代理的承诺。在编码或数学等高度结构化的领域，深度自动化已经成为可能。但对于大多数实际业务流程，Shoham 说，使代理可靠所需的工作量往往超过其带来的好处。

咨询公司 West Monroe 的首席 AI 官 Bret Greenstein 指出，像 OpenClaw 这样的工具感觉像是一个转折点，就像 2022 年 ChatGPT 推出时生成式 AI 所带来的那样——首次让 AI 代理的概念变得触手可及。不过，这并不是一个 24/7 的“魔法解决方案”。

“它可以长时间工作，持续处理任务，但就像一个需要监管的幼儿，”他说。有些任务在你睡觉时完成是合理的，比如扫描 LinkedIn 信息或追踪新闻。“我不确定我会让它在我睡觉时回答客户反馈，”他说。

委托 AI 代理的能力令人感到强大

然而，Greenstein 强调，委托实际任务给 AI 代理的能力无疑对用户具有极大吸引力。他提到自己曾让 AI 代理处理一项琐碎任务——把衣服送去干洗——并看着它悄然完成了整个过程。

代理自主联系干洗店，通过电子邮件协调取件事宜，安排时间，监控门铃摄像头确认取件，并在任务完成后通知 Greenstein。这一事件展示了代理可以跨多个系统操作，并在事情不按计划时进行调整。但也凸显了为什么这些工具仍然需要严格的防护措施和监管——尤其是在企业环境中部署之前。

“OpenClaw 设计得让大多数人都不觉得它安全，”Greenstein 说。“它还没有成熟到可以成为我们生活中可信赖的一部分。”他补充说，为了让 AI 被日常生活或商业运营接受，它必须随着时间建立信任——就像社会中建立信任一样。

尽管如此，需求已经非常明显。Greenstein 指出，关于 OpenClaw 的聚会和早期行业集会的出现——他形容这是一个罕见的快速崛起，尤其对于这样一个年轻的工具来说。“这显示了人们对真正有用的 AI 的渴望，”他说——那些超越回答问题、开始采取行动的系统。

云端内容管理与协作公司 Box 的 CEO Aaron Levie 称，目前 AI 代理的现象是“未来可能发生的事情的微光”。

“有些微光最终未能实现，有些微光则成为了标准，”他解释，提到两年前 AI 公司 Cognition 推出早期代理 Devin，可以与 Slack 集成，用于任务委托、修复漏洞、数据分析和代码审查。当时，这仍被视为未来派，但今天，“没有人会怀疑这已成为标准做法，”他说。“你可以直接 Slack Claude Code 来处理任务——曾经看起来完全疯狂的想法，现在几乎成为任何现代工程团队的标准。”

但 Levie 强调，虽然 AI 代理在自动化特定、离散的任务方面变得非常擅长，但在处理大多数工作中占比最大的、更具上下文依赖的任务时仍然表现不佳。AI 代理可能完全自动化少数几项任务，但在处理关系、参加会议等方面仍然困难。

“当你听到某个 AI 实验室说我们将在 24 个月内自动化所有知识工作，这通常是对工作的非常狭隘定义，”他说。“代理能做的事情与经济中招聘的工作的定义并不完全一致。”

信任因素在出错时尤为重要

顶级财富 500 强零售商的工作人员数据科学家 Avinash Vootkuri 表示，大多数企业 AI 代理“绝对需要看护者”，目前只能在具有严格界限的自主性和广泛防护措施的企业环境中工作。“风险巨大，”他解释。

例如，他描述了为企业网络安全构建的代理系统，AI 代理不仅触发警报等待人工审查，而是主动调查。代理不会淹没分析师于数千个警告中，而是实时收集证据——查询威胁情报数据库、分析行为模式、过滤误报——然后决定是否升级。

该系统依赖于严格界定的自主性和广泛的防护措施，减少人类工作量的同时不失监管。

在网络安全中，他解释说，如果代理出错，后果会非常严重。“AI 要么阻止合法客户（造成巨大收入损失），要么让复杂的威胁者进入网络，”他说。“出错的后果绝对重要。”

负责为高管和创始人构建 AI 系统的 AI 运营咨询公司 Breeanna Whitehead 表示，行业正处于“信任校准阶段”。

AI 代理可以做得比大多数人预期的多，但又比炒作所说的少。

“真正的技巧不在于构建代理，而在于设计交接点，”她解释。“大多数人要么过度信任代理，最终收拾烂摊子，要么对每个输出都进行微观管理，觉得 AI 反而变成了更繁琐的工作。”她说，设计明确的交接点很重要——某些任务可以完全委托，另一些可以快速审查，而还有一些任务则留给人类。

目前，她表示，代理在“中层知识工作”中表现“真正出色”——“那些曾经占用聪明人两到三小时的事情，比如将会议记录整理成行动项、用某人的语气起草后续邮件、整理研究简报、将优先事项组织成清晰的计划。”

但任何需要“读房”、处理模糊性或依赖关系做出判断的工作，目前都还不适合由 AI 代理主导。“我有个客户想要完全自动化他们的投资者沟通，”她说。“AI 可以起草得很漂亮，但它无法察觉到投资者兴趣减退或需要不同策略的时机。代理起草了邮件，但是否发出还得由人决定。”

目前，与 AI 代理合作可能更像是半醒状态

目前，与 AI 代理合作，可能更多是保持半醒状态而非睡觉。像 OpenClaw 这样的工具可以连续运行数小时，但对许多早期用户来说，这种自主性伴随着一种新的警觉——检查日志、审查输出、在出错前介入。

这个动态在一篇名为《Token Anxiety》的病毒帖中被描述得淋漓尽致，投资者 Nikunj Kothari 描述一位朋友提前离开派对——不是因为累，而是因为想回去看他的代理。“没人再质疑这个了，”Kothari 写道。“一半的人都在想同样的事。另一半可能在检查他们代理的进展。就在派对上。”

AI 能在你睡觉时工作的梦想也许是真的，但目前，它仍让许多人保持清醒。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

热门 Gate Fun
查看更多

1
2554661887
LONG
市值:$2344.82持有人数:1
0.00%
2
bnb
cen
市值:$2355.17持有人数:1
0.00%
3
wtp
whotookmypillow
市值:$2337.93持有人数:1
0.00%
4
cbr
crypto beer
市值:$2351.41持有人数:2
0.00%
5
fdsfjdbfolfk
hyper
市值:$0.1持有人数:0
0.00%

让AI代理在你睡觉时帮你工作听起来很棒。但现实要复杂得多——“就像一个需要监管的幼儿”

当任务简单低风险时，AI 代理效果最佳

委托 AI 代理的能力令人感到强大

信任因素在出错时尤为重要

目前，与 AI 代理合作可能更像是半醒状态

热门话题

特朗普宣布新关税政策

比特币行情分析

马年开工第一帖

Vitalik累计出售2.17万枚ETH

Gate广场发帖领五万美金红包

热门 Gate Fun

2554661887

LONG

bnb

cen

wtp

whotookmypillow

cbr

crypto beer

fdsfjdbfolfk

hyper

置顶