Harness火了——但人們沒看懂它真正要吃掉誰

Palo Alto 早上,咖啡刚端上来,Alan Walker 低头刷到 Anthropic 那篇 harness 文章,抬头只说了一句:

“很多人以为这是模型又进步了一点。错了,这是 流程开始背叛人。”

这篇文章表面在讲工程设计,讲 planner、generator、evaluator,讲怎么让 Claude 连续跑几小时、做更复杂的产品。

大多数人看到这里,就停了。他们会觉得:

哦,原来就是 agent 更复杂了,prompt 更长了,工作流更细了。

但 Alan 说,真正值得看的从来不是表层功能,而是 权力在往哪一层转移。

过去一个复杂任务要做成,必须有人拆需求、有人执行、有人检查、有人返工、有人兜底。

现在 Anthropic 做的不是让模型更像一个聪明员工,而是 让整个系统开始接管原本属于人的那一层组织权、监督权和验收权。

Harness 不是外挂。Harness 是 机器开始长出“管理层”。

这才是它真正吓人的地方。

01 不是工具,是“管工具的那层”

很多人看到 harness,第一反应是:这不就是另一个 agent 框架吗?

这个理解太浅了。

普通工具的本质,是听命令然后执行。你点一下,它干一下。你不说,它不动。

但 harness 已经不是这个逻辑了。它真正做的,是把原来藏在人类团队里的那层分工结构给 软件化:

谁来理解需求,谁来拆成阶段,谁来执行,谁来检查,谁发现问题之后有权打回重做。

也就是说,Anthropic 不是在堆更多功能,而是在 把“怎么组织工作”这件事本身写进系统里。

这一步为什么重要?因为过去最难复制的,从来不是单点能力,而是 组织能力。

会写代码的人很多。

能把十几个人、十几个步骤、十几轮返工组织起来,最后稳定交付的人,很少。

而 harness 碰的,恰恰就是这层最贵的东西。

工具提升效率,组织决定产出。

单个模型只是劳动力,Harness 开始摸到了公司结构。

当 AI 不只是会干活,而是开始会分工、会交接、会追责,它就已经不是一个“工具升级”那么简单了。

02 不是更聪明,是更不容易烂尾

模型最迷惑人的地方,就是它在短任务里总显得很聪明。

问它一个问题,回得头头是道;让它写一段代码,也常常像模像样。于是很多人误以为:既然短任务都能做,长任务不就是多跑一会儿吗?

完全不是。

长任务真正难的地方,从来不是某一步不会做,而是 连续几十步之后还能不失真、不失控、不自我欺骗。

人类做项目时也一样。最怕的不是不会,而是做到后面开始乱:

需求记不清了,

目标开始漂移了,

前后逻辑不一致了,

最后最擅长的不是把事做完,而是写一个看起来像做完了的总结。

Anthropic 那篇文章里提到的核心问题,本质上就是这个:

模型在长期任务里会逐渐掉魂。上下文越长,状态越乱,越容易提前进入一种“差不多得了”的心理幻觉。

Harness 的价值,不是在让它更灵,而是在让它 不那么散、不那么虚、不那么容易糊弄过去。

拆阶段、做交接、定 contract、独立评估、失败回滚,这些看起来像流程细节,实际上都是在解决同一个底层问题:

智能可以不稳定,但交付不能靠运气。

所以你要真看懂 harness,得先看懂一件事:

未来真正值钱的,不是谁偶尔能打出一个惊艳 demo。

而是谁能让系统在几个小时、几天、甚至更长时间里,持续把事往前推,而且不烂尾。

会写,不稀奇。

写到最后还没崩,才稀奇。

灵光一现不值钱,稳定交付才值钱。

Alan 说,Anthropic 这篇里最冷的一刀,不是 planner,也不是 generator,而是 evaluator。

为什么?

因为大模型有一个和人类极其相似的毛病:自己做的东西,总觉得还行。

只要没有外部约束,它很容易给出一种“总体不错”“基本完成”“核心功能已经具备”的自我评价。

问题是,这种评价很多时候不是谎言,而是一种 系统性的自我宽容。

人类公司里,为什么很多项目最后会翻车?

因为干活的人往往最会替自己找理由。

做的人说已经差不多了,

验收的人懒得深看,

于是一个“差不多”的东西就被一路放行,最后到了用户手里爆炸。

Anthropic 很狠的一点,是直接把这件事拆开:

干活的是一个角色,

挑错的是另一个角色。

前者负责推进,后者负责怀疑。

这背后的逻辑非常深:

一旦生产权和评价权分开,系统就开始真正形成闭环。

而且更可怕的是,Anthropic 并不是只让 evaluator 说几句“我觉得这里不好”。它是在尽量把“挑错”结构化:

功能要测,页面要点,接口要查,数据库状态要看,设计质量也被拆成可评分的维度。

这意味着什么?

意味着很多过去被人类神秘化的判断权,正在被一点点拆成 流程、标准和阈值。

最先被自动化的,往往不是体力,而是挑刺。

一旦“这东西到底行不行”被流程化,很多人的经验护城河就会开始漏水。

过去很多岗位真正值钱,不是因为会生产,而是因为有权说“这东西算不算过”。

现在,这个权力开始从人手里松动了。

03 最狠的一刀,是不准它自己夸自己

Alan 说,Anthropic 这篇里最冷的一刀,不是 planner,也不是 generator,而是 evaluator。

为什么?

因为大模型有一个和人类极其相似的毛病:自己做的东西,总觉得还行。

只要没有外部约束,它很容易给出一种“总体不错”“基本完成”“核心功能已经具备”的自我评价。

问题是,这种评价很多时候不是谎言,而是一种 系统性的自我宽容。

人类公司里,为什么很多项目最后会翻车?

因为干活的人往往最会替自己找理由。

做的人说已经差不多了,

验收的人懒得深看,

于是一个“差不多”的东西就被一路放行,最后到了用户手里爆炸。

Anthropic 很狠的一点,是直接把这件事拆开:

干活的是一个角色,

挑错的是另一个角色。

前者负责推进,后者负责怀疑。

这背后的逻辑非常深:

一旦生产权和评价权分开,系统就开始真正形成闭环。

而且更可怕的是,Anthropic 并不是只让 evaluator 说几句“我觉得这里不好”。它是在尽量把“挑错”结构化:

功能要测,页面要点,接口要查,数据库状态要看,设计质量也被拆成可评分的维度。

这意味着什么?

意味着很多过去被人类神秘化的判断权,正在被一点点拆成 流程、标准和阈值。

最先被自动化的,往往不是体力,而是挑刺。

一旦“这东西到底行不行”被流程化,很多人的经验护城河就会开始漏水。

过去很多岗位真正值钱,不是因为会生产,而是因为有权说“这东西算不算过”。

现在,这个权力开始从人手里松动了。

04 先被吃掉的,不是程序员,是“差不多就行”

一看到这种文章,很多人条件反射就是一句:程序员是不是要完了?

Alan 说,这种问法太表面,也太懒。

Harness 第一波吃掉的,不是某个职业名称。

它先吃掉的,是一种长期存在、而且在几乎所有知识工作里都很常见的生存方式:

需求不清楚,先做着;

中途做歪了,后面再补;

效果一般,但能跑;

文档没写清楚,不过团队里大家都懂;

上线先上,问题回来再修。

说白了,这是 一整套基于模糊空间和人类弹性的工作方式。

很多项目之所以还能往前走,不是因为流程真的清晰,而是因为中间总有人靠经验、靠补位、靠临时判断把坑填上了。

Harness 正在干的事,恰恰相反。

它在 压缩模糊空间。

它在 压缩借口空间。

它在 压缩“我以为”“差不多”“应该可以”的生存空间。

先定义这一轮什么叫 done,再允许开工;

做不满足,就打回;

验不通过,就继续;

不要感觉,要证据。

这套逻辑一旦往前推进,最危险的从来不是最会写代码的人,而是最依赖灰色地带生存的人。

Harness 吃掉的不是程序员,先吃掉的是模糊。

不是每个人都会被替代,但每个靠含糊活着的位置都会先贬值。

以前很多岗位靠信息差活着,以后很多岗位会死在标准差上。

05 它为什么偏偏现在火了

很多人会问,这种工作流式的东西以前也有人做,为什么偏偏这次大家开始认真了?

因为 以前底模不够强。

说得再直白一点:

以前很多这类框架,看起来很美,跑起来很重,结果却不够硬。

你搭了一堆流程、堆了一堆角色、写了一堆规则,最后只是把一个不太可 靠的模型,包装成一个更复杂的不太可靠系统。

所以过去很多人对 agent、workflow、scaffold 这套东西失去耐心,也很正常。

不是方向错了,而是底盘没到那个阶段。

现在不一样了。

模型一旦跨过某个阈值,很多原来像装饰的流程,开始第一次释放真实价值。

因为当底模足够强时,流程不再是在扶一个废柴,而是在放大一个本来就已经能连续工作的系统。

这就是 harness 现在突然显得“有点真了”的原因。

不是它的理念今天才出现,而是 模型终于强到能吃到流程红利了。

Alan 那句说得很准:

模型能力是发动机,Harness 是变速箱。

以前没有好发动机,再好的变速箱也是摆设。

但当发动机已经够猛,变速箱才开始决定谁能上高速,谁还在原地轰油门。

所以这波不是单纯的技术流行,而是行业在发出一个更深的信号:

未来的竞争,不只是谁模型更强,而是 谁更先把模型编进生产系统。

06 “人默认站在中间”

最后 Alan 把杯子放下,说了那天最冷的一句:

“以前是人盯着软件干活,以后是软件盯着软件干活。”

这句话为什么扎心?

因为它点破了 harness 真正改写的不是某一个岗位,而是一个更底层、过去几乎没人怀疑过的前提:

在数字劳动里,默认应该有一个人站在中间。

他来拆任务,

他来盯进度,

他来判断质量,

他来协调返工,

他来兜最后的底。

这个“默认站在中间的人”,可能叫程序员,可能叫 PM,可能叫 TL,可能叫设计负责人,可能叫 QA,也可能叫项目经理。

名字不重要。

重要的是,过去整个数字生产系统默认离不开这样一个 人类中枢。

Harness 真正动到的,就是这个中枢位置。

它不是说今天立刻把人赶走,而是在一点点证明:

原来有些拆解可以系统来做,

原来有些监督可以系统来做,

原来有些验收可以系统来做,

原来有些回滚和重试,也可以不用人先发现再处理。

当这件事被证明得越来越多,人的位置就不会一下消失,但会开始下沉。

从默认中心,变成 例外介入;

从全程盯盘,变成 只处理边角问题;

从流程主人,变成 流程观察者。

这才是 harness 真正吃掉的东西。

不是程序员。

不是产品经理。

不是 QA。

而是这几个角色背后那个更深的假设:

人类默认是流程的中心。

而一旦这个前提开始松动,后面的故事就都不一样了。

工具时代,比的是谁更会用工具。

Harness 时代,比的是谁更早接受:

自己不再天然处在系统正中央。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言