Harness火了——但人們沒看懂它真正要吃掉誰

金色财经_ · 2026-03-29T03:42:44+00:00

Palo Alto 早上，咖啡剛端上來，Alan Walker 低頭刷到 Anthropic 那篇 harness 文章，抬頭只說了一句：“很多人以為這是模型又進步了一點。錯了，這是流程開始背叛人。”這篇文章表面在講工程設計，講 planner、generator、evaluator，講怎麼讓 Claude 連續跑幾小時、做更複雜的產品。大多數人看到這裡，就停了。他們會覺得：哦，原來就是 agent 更複雜了，prompt 更長了，工作流更細了。但 Alan 說，真正值得看的從來不是表層功能，而是權力在往哪一層轉移。過去一個複雜任務要做成，必須有人拆需求、有人執行、

金色财经_

2026-03-29 03:42:44

Palo Alto 早上，咖啡刚端上来，Alan Walker 低头刷到 Anthropic 那篇 harness 文章，抬头只说了一句：

“很多人以为这是模型又进步了一点。错了，这是流程开始背叛人。”

这篇文章表面在讲工程设计，讲 planner、generator、evaluator，讲怎么让 Claude 连续跑几小时、做更复杂的产品。

大多数人看到这里，就停了。他们会觉得：

哦，原来就是 agent 更复杂了，prompt 更长了，工作流更细了。

但 Alan 说，真正值得看的从来不是表层功能，而是权力在往哪一层转移。

过去一个复杂任务要做成，必须有人拆需求、有人执行、有人检查、有人返工、有人兜底。

现在 Anthropic 做的不是让模型更像一个聪明员工，而是让整个系统开始接管原本属于人的那一层组织权、监督权和验收权。

Harness 不是外挂。Harness 是机器开始长出“管理层”。

这才是它真正吓人的地方。

01 不是工具，是“管工具的那层”

很多人看到 harness，第一反应是：这不就是另一个 agent 框架吗？

这个理解太浅了。

普通工具的本质，是听命令然后执行。你点一下，它干一下。你不说，它不动。

但 harness 已经不是这个逻辑了。它真正做的，是把原来藏在人类团队里的那层分工结构给软件化：

谁来理解需求，谁来拆成阶段，谁来执行，谁来检查，谁发现问题之后有权打回重做。

也就是说，Anthropic 不是在堆更多功能，而是在把“怎么组织工作”这件事本身写进系统里。

这一步为什么重要？因为过去最难复制的，从来不是单点能力，而是组织能力。

会写代码的人很多。

能把十几个人、十几个步骤、十几轮返工组织起来，最后稳定交付的人，很少。

而 harness 碰的，恰恰就是这层最贵的东西。

工具提升效率，组织决定产出。

单个模型只是劳动力，Harness 开始摸到了公司结构。

当 AI 不只是会干活，而是开始会分工、会交接、会追责，它就已经不是一个“工具升级”那么简单了。

02 不是更聪明，是更不容易烂尾

模型最迷惑人的地方，就是它在短任务里总显得很聪明。

问它一个问题，回得头头是道；让它写一段代码，也常常像模像样。于是很多人误以为：既然短任务都能做，长任务不就是多跑一会儿吗？

完全不是。

长任务真正难的地方，从来不是某一步不会做，而是连续几十步之后还能不失真、不失控、不自我欺骗。

人类做项目时也一样。最怕的不是不会，而是做到后面开始乱：

需求记不清了，

目标开始漂移了，

前后逻辑不一致了，

最后最擅长的不是把事做完，而是写一个看起来像做完了的总结。

Anthropic 那篇文章里提到的核心问题，本质上就是这个：

模型在长期任务里会逐渐掉魂。上下文越长，状态越乱，越容易提前进入一种“差不多得了”的心理幻觉。

Harness 的价值，不是在让它更灵，而是在让它不那么散、不那么虚、不那么容易糊弄过去。

拆阶段、做交接、定 contract、独立评估、失败回滚，这些看起来像流程细节，实际上都是在解决同一个底层问题：

智能可以不稳定，但交付不能靠运气。

所以你要真看懂 harness，得先看懂一件事：

未来真正值钱的，不是谁偶尔能打出一个惊艳 demo。

而是谁能让系统在几个小时、几天、甚至更长时间里，持续把事往前推，而且不烂尾。

会写，不稀奇。

写到最后还没崩，才稀奇。

灵光一现不值钱，稳定交付才值钱。

Alan 说，Anthropic 这篇里最冷的一刀，不是 planner，也不是 generator，而是 evaluator。

为什么？

因为大模型有一个和人类极其相似的毛病：自己做的东西，总觉得还行。

只要没有外部约束，它很容易给出一种“总体不错”“基本完成”“核心功能已经具备”的自我评价。

问题是，这种评价很多时候不是谎言，而是一种系统性的自我宽容。

人类公司里，为什么很多项目最后会翻车？

因为干活的人往往最会替自己找理由。

做的人说已经差不多了，

验收的人懒得深看，

于是一个“差不多”的东西就被一路放行，最后到了用户手里爆炸。

Anthropic 很狠的一点，是直接把这件事拆开：

干活的是一个角色，

挑错的是另一个角色。

前者负责推进，后者负责怀疑。

这背后的逻辑非常深：

一旦生产权和评价权分开，系统就开始真正形成闭环。

而且更可怕的是，Anthropic 并不是只让 evaluator 说几句“我觉得这里不好”。它是在尽量把“挑错”结构化：

功能要测，页面要点，接口要查，数据库状态要看，设计质量也被拆成可评分的维度。

这意味着什么？

意味着很多过去被人类神秘化的判断权，正在被一点点拆成流程、标准和阈值。

最先被自动化的，往往不是体力，而是挑刺。

一旦“这东西到底行不行”被流程化，很多人的经验护城河就会开始漏水。

过去很多岗位真正值钱，不是因为会生产，而是因为有权说“这东西算不算过”。

现在，这个权力开始从人手里松动了。

03 最狠的一刀，是不准它自己夸自己

Alan 说，Anthropic 这篇里最冷的一刀，不是 planner，也不是 generator，而是 evaluator。

为什么？

因为大模型有一个和人类极其相似的毛病：自己做的东西，总觉得还行。

只要没有外部约束，它很容易给出一种“总体不错”“基本完成”“核心功能已经具备”的自我评价。

问题是，这种评价很多时候不是谎言，而是一种系统性的自我宽容。

人类公司里，为什么很多项目最后会翻车？

因为干活的人往往最会替自己找理由。

做的人说已经差不多了，

验收的人懒得深看，

于是一个“差不多”的东西就被一路放行，最后到了用户手里爆炸。

Anthropic 很狠的一点，是直接把这件事拆开：

干活的是一个角色，

挑错的是另一个角色。

前者负责推进，后者负责怀疑。

这背后的逻辑非常深：

一旦生产权和评价权分开，系统就开始真正形成闭环。

而且更可怕的是，Anthropic 并不是只让 evaluator 说几句“我觉得这里不好”。它是在尽量把“挑错”结构化：

功能要测，页面要点，接口要查，数据库状态要看，设计质量也被拆成可评分的维度。

这意味着什么？

意味着很多过去被人类神秘化的判断权，正在被一点点拆成流程、标准和阈值。

最先被自动化的，往往不是体力，而是挑刺。

一旦“这东西到底行不行”被流程化，很多人的经验护城河就会开始漏水。

过去很多岗位真正值钱，不是因为会生产，而是因为有权说“这东西算不算过”。

现在，这个权力开始从人手里松动了。

04 先被吃掉的，不是程序员，是“差不多就行”

一看到这种文章，很多人条件反射就是一句：程序员是不是要完了？

Alan 说，这种问法太表面，也太懒。

Harness 第一波吃掉的，不是某个职业名称。

它先吃掉的，是一种长期存在、而且在几乎所有知识工作里都很常见的生存方式：

需求不清楚，先做着；

中途做歪了，后面再补；

效果一般，但能跑；

文档没写清楚，不过团队里大家都懂；

上线先上，问题回来再修。

说白了，这是一整套基于模糊空间和人类弹性的工作方式。

很多项目之所以还能往前走，不是因为流程真的清晰，而是因为中间总有人靠经验、靠补位、靠临时判断把坑填上了。

Harness 正在干的事，恰恰相反。

它在压缩模糊空间。

它在压缩借口空间。

它在压缩“我以为”“差不多”“应该可以”的生存空间。

先定义这一轮什么叫 done，再允许开工；

做不满足，就打回；

验不通过，就继续；

不要感觉，要证据。

这套逻辑一旦往前推进，最危险的从来不是最会写代码的人，而是最依赖灰色地带生存的人。

Harness 吃掉的不是程序员，先吃掉的是模糊。

不是每个人都会被替代，但每个靠含糊活着的位置都会先贬值。

以前很多岗位靠信息差活着，以后很多岗位会死在标准差上。

05 它为什么偏偏现在火了

很多人会问，这种工作流式的东西以前也有人做，为什么偏偏这次大家开始认真了？

因为以前底模不够强。

说得再直白一点：

以前很多这类框架，看起来很美，跑起来很重，结果却不够硬。

你搭了一堆流程、堆了一堆角色、写了一堆规则，最后只是把一个不太可靠的模型，包装成一个更复杂的不太可靠系统。

所以过去很多人对 agent、workflow、scaffold 这套东西失去耐心，也很正常。

不是方向错了，而是底盘没到那个阶段。

现在不一样了。

模型一旦跨过某个阈值，很多原来像装饰的流程，开始第一次释放真实价值。

因为当底模足够强时，流程不再是在扶一个废柴，而是在放大一个本来就已经能连续工作的系统。

这就是 harness 现在突然显得“有点真了”的原因。

不是它的理念今天才出现，而是模型终于强到能吃到流程红利了。

Alan 那句说得很准：

模型能力是发动机，Harness 是变速箱。

以前没有好发动机，再好的变速箱也是摆设。

但当发动机已经够猛，变速箱才开始决定谁能上高速，谁还在原地轰油门。

所以这波不是单纯的技术流行，而是行业在发出一个更深的信号：

未来的竞争，不只是谁模型更强，而是谁更先把模型编进生产系统。

06 “人默认站在中间”

最后 Alan 把杯子放下，说了那天最冷的一句：

“以前是人盯着软件干活，以后是软件盯着软件干活。”

这句话为什么扎心？

因为它点破了 harness 真正改写的不是某一个岗位，而是一个更底层、过去几乎没人怀疑过的前提：

在数字劳动里，默认应该有一个人站在中间。

他来拆任务，

他来盯进度，

他来判断质量，

他来协调返工，

他来兜最后的底。

这个“默认站在中间的人”，可能叫程序员，可能叫 PM，可能叫 TL，可能叫设计负责人，可能叫 QA，也可能叫项目经理。

名字不重要。

重要的是，过去整个数字生产系统默认离不开这样一个人类中枢。

Harness 真正动到的，就是这个中枢位置。

它不是说今天立刻把人赶走，而是在一点点证明：

原来有些拆解可以系统来做，

原来有些监督可以系统来做，

原来有些验收可以系统来做，

原来有些回滚和重试，也可以不用人先发现再处理。

当这件事被证明得越来越多，人的位置就不会一下消失，但会开始下沉。

从默认中心，变成例外介入；

从全程盯盘，变成只处理边角问题；

从流程主人，变成流程观察者。

这才是 harness 真正吃掉的东西。

不是程序员。

不是产品经理。

不是 QA。

而是这几个角色背后那个更深的假设：

人类默认是流程的中心。

而一旦这个前提开始松动，后面的故事就都不一样了。

工具时代，比的是谁更会用工具。

Harness 时代，比的是谁更早接受：

自己不再天然处在系统正中央。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人按讚了這條動態

打賞
1
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
成長值抽獎贏金條
105.23萬熱度
#
震盪行情交易策略
3.97萬熱度
#
比特幣震盪走弱
10108.86萬熱度
#
美聯儲加息預期再起
86.6萬熱度
#
川普稱打擊暫緩期延長10天
709.41萬熱度

熱門 Gate Fun
查看更多

1
BROSS
BROSS
市值:$2255.17持有人數:1
0.00%
2
ygb
toket
市值:$2258.62持有人數:1
0.00%
3
Cartoon
Cartooncoin
市值:$2292.29持有人數:2
0.14%
4
紫薇币
ZW
市值:$2258.62持有人數:1
0.00%
5
get
get
市值:$2271.8持有人數:2
0.00%

Harness火了——但人們沒看懂它真正要吃掉誰

01 不是工具，是“管工具的那层”

02 不是更聪明，是更不容易烂尾

03 最狠的一刀，是不准它自己夸自己

04 先被吃掉的，不是程序员，是“差不多就行”

05 它为什么偏偏现在火了

06 “人默认站在中间”

熱門話題

成長值抽獎贏金條

震盪行情交易策略

比特幣震盪走弱

美聯儲加息預期再起

川普稱打擊暫緩期延長10天

熱門 Gate Fun

BROSS

BROSS

ygb

toket

Cartoon

Cartooncoin

紫薇币

ZW

get

get

置頂