就在剛剛,Anthropic又出手了!Claude Code之父重磅官宣:**Claude Code新增代碼審查(Code Review)新功能。****這一次,它瞄準了一個價值500億美元的產業——代碼安全審計。**Anthropic剛剛發布的新功能,可以說是在用極其簡單粗暴的方式,直接挑戰整個代碼安全行業。有人驚呼:價值500億美元的行業,被Anthropic一夜干翻了!現在,可以坐等安全股大跌了。在Anthropic,幾乎每個PR都測試了此系統。經過數月的測試,結果如下:* 包含實質性審查意見的PR比例從16%增加到54%。 * 工程師認為審查結果錯誤的比例不到1%。 * 在大型Pull Request(1000行以上)中,84%的PR存在表面問題,平均每份PR存在7.5個問題。 目前,該功能已在Claude團隊和Enterprise測試版中作為研究預覽上線。**500億美元市場的惡夢**---------------Anthropic的這個產品,簡直是讓全球AI圈和網絡安全界(AppSec)發生了一場足以載入史冊的大地震。資深開發者紛紛驚呼,價值500億的代碼審計行業被端了!這是因為,在過去,大公司為了防止代碼裡的Bug或安全漏洞流向生產環境,每年要支付給傳統安全廠商(如Snyk、Checkmarx等)高達**5萬美金甚至更高的授權費**,雇佣專業團隊進行掃描和審計。**而現在,Claude卻可以直接派一隊AI智能體潛伏在你的PR裡,24小時待命。**而且,按token計算,它的單次Review成本,平均只要15-25美元!5萬美金和25美金,差了2000倍。這根本不是功能更新,這是給傳統代碼審計吹響了終結的號角。**Code Review,開發者最痛苦的環節**-------------------------如果你問一個任何一個工程團隊:軟件開發中最大的瓶頸環節,是哪一個?相信很多人的答案,都是代碼審查(Code Review)。過去幾年,AI寫代碼的能力是日新月異,突飛猛進,無論是GitHub Copilot、Cursor、Claude Code還是ChatGPT,用上這些工具的開發者,寫出的代碼量直接暴漲。結果,問題來了——雖然代碼被飛速產出,審代碼的人卻並沒有變多。Anthropic發現,過去一年裡,每位工程師的代碼產出增加了200%,但很多PR(Pull Request)只是被快速掃了一眼。連開發者自己都承認,**很多代碼審查,不過是在走流程而已。**於是,大量Bug、漏洞、邏輯問題就這樣被帶進生產環境。這也就是為什麼,很多企業願意花天價去買安全掃描工具。然而問題來了——這些工具並不聰明。傳統代碼掃描工具,到底有什麼問題?如果你用過傳統AppSec工具,比如Snyk、Checkmarx、Veracode、SonarQube等,你大概率會有這樣的感受:誤報太多了。原因在於,這些工具大多數基於靜態規則和已知漏洞庫,可以掃描代碼,卻無法真正理解代碼。經常發生的一個場景,就是工具提醒「可能有SQL注入風險」,開發者檢查了半天,卻發現沒有問題。於是大家慢慢開始忽略警告,而真正危險的問題,就往往被忽略過去。因此,企業仍然需要大量人工Code Review,而Anthropic這次做的,就是把它自動化。**Anthropic,扔出一個AI代碼審查軍團**--------------------------這一次,Claude Code Review的思路其實很簡單。在Claude Code中,系統可以自動分析Pull Request,並從多個角度進行檢查,例如:* 代碼規範是否符合項目規則 * 是否存在潛在bug * 修改是否與歷史代碼邏輯衝突 * 之前PR中提出的問題是否再次出現 最終,它們會輸出兩個結果:一個高信號總結評論,和一個具體代碼位置的inline評論。也就是說,你打開PR時,就能看到一份AI審查報告,看到真正重要的問題,而不是幾十頁的流水帳。「AI寫代碼,AI審查」的時代,終於還是來了。Claude自我循環、自我遞歸,苗頭出現了。隨著AI能力日益強大,以後人類唯一的作用可能就是打開AI開關了,鍵盤上只需要Claude按鍵了。**多Agent系統,Claude Code評審軍團出動**------------------------------Claude Code Review最大的特點就是,它不是一個AI,而是一個團隊。當一個PR被創建時,系統會自動啟動一支AI Agent團隊。據介紹,Claude新的代碼審查功能會派出多個AI「評審智能體」並行工作,每個智能體負責不同類型的檢查。這些智能體通過驗證來過濾誤報,並根據嚴重性對錯誤進行排序。最終結果會作為一條高信號的綜合評語,以及針對特定錯誤的內聯評論,呈現在PR上。審查規模會隨PR大小調整。大型或複雜的變更會獲得更多智能體和更深入的審閱;微小的變更則會快速通過。根據Anthropic的測試,平均評審時間約為20分鐘。最終,通過多Agent相互驗證,就可以減少誤報。這個過程中,它會重點查找邏輯錯誤、安全漏洞、邊界條件(edge case)缺陷和隱蔽的回歸問題。所有發現的問題都會按**嚴重等級(severity)**標記。* 紅色圓點表示普通問題,即合併代碼前應修復的bug; * 黃色圓點表示輕微問題,建議修復,但不會阻止合併; * 紫色圓點表示既存問題,非本次PR引入的bug。 每條審查評論還包含一個 **可折疊的推理說明(extended reasoning)**。展開後,你可以看到:* Claude 為何標記該問題 * 它是如何驗證這個問題確實存在的 需要注意的是,這些評論**不會自動批准或阻止PR合併**,因此不會破壞現有的代碼審查流程。默認情況下,Claude Code Review主要關注**代碼正確性(correctness)**。也就是說,它重點檢查:* 會導致生產環境故障的bug * 實際邏輯問題 而不會重點關注代碼格式、風格偏好、是否缺少測試等問題。如果希望擴展檢查範圍,需要用戶進行配置。**內部測試結果,堪稱恐怖**---------------Anthropic的內部測試結果,堪稱恐怖!也更加證明了,傳統的代碼審查,基本就是個笑話。內部數據實在是觸目驚心:只有16%的PR獲得了實質性的審查意見。在1000行以上的大型PR中,84%的代碼都被它揪出了問題,平均每個PR抓到7.5個Bug。為什麼?原因就是,工程師太忙了。Anthropic在過去一年裡,每個工程師的代碼產出增長了200%。代碼越來越多,誰還有功夫一行一行細看?而在實施該功能後,代碼庫中有實質性修復建議的PR比例,從16%暴漲到了54%。這意味著,以前有近40%的潛在屎山代碼,是在人類程序員眼皮子底下溜過的,而現在,它們全被Claude揪了出來。更恐怖的是小於50行的小PR,從前大家覺得,就這麼幾行,能有什麼問題。結果,其中的31%都被發現了問題,每三個小改動,就有一個藏著bug。而那些被揪出來的問題,工程師的認可度直接達到99%以上!只有不到1%的結果,被工程師標記為誤報。這個準確率,已經超過了絕大多數人類reviewer。Anthropic舉了自己內部的一個例子:對一個生產服務的一行代碼更改,看起來是常規操作,屬於通常會快速獲得批准的差異。但代碼審查將其標記為嚴重問題。該更改會導致身份驗證失效,這種故障模式在差異對比中容易被忽略,但一經指出就非常明顯。該問題在合併前得到了修復,工程師事後表示,他們自己可能不會發現這個問題。再講一個真實案例。iXsystems,一家做TrueNAS的公司,在用Code Review審查了一個ZFS加密相關的代碼重構。這是一個很深度的技術改動,review的人都是這個領域的專家。結果,Code Review干了一件讓所有人意外的事:它在「相鄰代碼」裡發現了一個潛在的bug。那個bug不在這次改動的核心範圍,只是代碼「恰好被改動涉及到了」。這個類型不匹配的問題,會導致每次同步時悄悄擦除加密密鑰緩存。這是一個隱藏了很久很久的bug,一直就在那裡,沒有人發現。人類專家幾乎不可能發現,因為它不在diff裡,不是要關注的重點,但說不定某一天,它就會炸掉你的系統。但是,現在Code Review一下子將它揪出。**行業大洗牌,來了**------------現在,安全公司和SaaS廠商都在哀嚎。每年收5萬美金的代碼安全公司,還能活多久?不是它們的技術不好,而是商業邏輯變了。如果Anthropic可以用智能體團隊,花20美元就能解決深度的業務邏輯安全審計,誰還會去買那些動輒幾萬美金、誤報率還高得離譜的傳統掃描器?如果你還在手動Review幾千行代碼,或者還在為高昂的安全審計費買單,醒醒吧,時代變了。今夜,AppSec行業的股票,可能真的要感受一下AI的寒意了。本文來源:新智元風險提示及免責條款 市場有風險,投資需謹慎。本文不構成個人投資建議,也未考慮到個別用戶特殊的投資目標、財務狀況或需要。用戶應考慮本文中的任何意見、觀點或結論是否符合其特定狀況。據此投資,責任自負。
Anthropic深夜血洗500億美金行業!代碼審計末日來臨
就在剛剛,Anthropic又出手了!
Claude Code之父重磅官宣:Claude Code新增代碼審查(Code Review)新功能。
這一次,它瞄準了一個價值500億美元的產業——代碼安全審計。
Anthropic剛剛發布的新功能,可以說是在用極其簡單粗暴的方式,直接挑戰整個代碼安全行業。
有人驚呼:價值500億美元的行業,被Anthropic一夜干翻了!
現在,可以坐等安全股大跌了。
在Anthropic,幾乎每個PR都測試了此系統。
經過數月的測試,結果如下:
包含實質性審查意見的PR比例從16%增加到54%。
工程師認為審查結果錯誤的比例不到1%。
在大型Pull Request(1000行以上)中,84%的PR存在表面問題,平均每份PR存在7.5個問題。
目前,該功能已在Claude團隊和Enterprise測試版中作為研究預覽上線。
500億美元市場的惡夢
Anthropic的這個產品,簡直是讓全球AI圈和網絡安全界(AppSec)發生了一場足以載入史冊的大地震。
資深開發者紛紛驚呼,價值500億的代碼審計行業被端了!
這是因為,在過去,大公司為了防止代碼裡的Bug或安全漏洞流向生產環境,每年要支付給傳統安全廠商(如Snyk、Checkmarx等)高達5萬美金甚至更高的授權費,雇佣專業團隊進行掃描和審計。
而現在,Claude卻可以直接派一隊AI智能體潛伏在你的PR裡,24小時待命。
而且,按token計算,它的單次Review成本,平均只要15-25美元!
5萬美金和25美金,差了2000倍。
這根本不是功能更新,這是給傳統代碼審計吹響了終結的號角。
Code Review,開發者最痛苦的環節
如果你問一個任何一個工程團隊:軟件開發中最大的瓶頸環節,是哪一個?
相信很多人的答案,都是代碼審查(Code Review)。
過去幾年,AI寫代碼的能力是日新月異,突飛猛進,無論是GitHub Copilot、Cursor、Claude Code還是ChatGPT,用上這些工具的開發者,寫出的代碼量直接暴漲。
結果,問題來了——雖然代碼被飛速產出,審代碼的人卻並沒有變多。
Anthropic發現,過去一年裡,每位工程師的代碼產出增加了200%,但很多PR(Pull Request)只是被快速掃了一眼。
連開發者自己都承認,很多代碼審查,不過是在走流程而已。
於是,大量Bug、漏洞、邏輯問題就這樣被帶進生產環境。
這也就是為什麼,很多企業願意花天價去買安全掃描工具。
然而問題來了——這些工具並不聰明。
傳統代碼掃描工具,到底有什麼問題?
如果你用過傳統AppSec工具,比如Snyk、Checkmarx、Veracode、SonarQube等,你大概率會有這樣的感受:誤報太多了。
原因在於,這些工具大多數基於靜態規則和已知漏洞庫,可以掃描代碼,卻無法真正理解代碼。
經常發生的一個場景,就是工具提醒「可能有SQL注入風險」,開發者檢查了半天,卻發現沒有問題。
於是大家慢慢開始忽略警告,而真正危險的問題,就往往被忽略過去。
因此,企業仍然需要大量人工Code Review,而Anthropic這次做的,就是把它自動化。
Anthropic,扔出一個AI代碼審查軍團
這一次,Claude Code Review的思路其實很簡單。
在Claude Code中,系統可以自動分析Pull Request,並從多個角度進行檢查,例如:
代碼規範是否符合項目規則
是否存在潛在bug
修改是否與歷史代碼邏輯衝突
之前PR中提出的問題是否再次出現
最終,它們會輸出兩個結果:一個高信號總結評論,和一個具體代碼位置的inline評論。
也就是說,你打開PR時,就能看到一份AI審查報告,看到真正重要的問題,而不是幾十頁的流水帳。
「AI寫代碼,AI審查」的時代,終於還是來了。
Claude自我循環、自我遞歸,苗頭出現了。
隨著AI能力日益強大,以後人類唯一的作用可能就是打開AI開關了,鍵盤上只需要Claude按鍵了。
多Agent系統,Claude Code評審軍團出動
Claude Code Review最大的特點就是,它不是一個AI,而是一個團隊。
當一個PR被創建時,系統會自動啟動一支AI Agent團隊。
據介紹,Claude新的代碼審查功能會派出多個AI「評審智能體」並行工作,每個智能體負責不同類型的檢查。
這些智能體通過驗證來過濾誤報,並根據嚴重性對錯誤進行排序。最終結果會作為一條高信號的綜合評語,以及針對特定錯誤的內聯評論,呈現在PR上。
審查規模會隨PR大小調整。
大型或複雜的變更會獲得更多智能體和更深入的審閱;微小的變更則會快速通過。根據Anthropic的測試,平均評審時間約為20分鐘。
最終,通過多Agent相互驗證,就可以減少誤報。
這個過程中,它會重點查找邏輯錯誤、安全漏洞、邊界條件(edge case)缺陷和隱蔽的回歸問題。
所有發現的問題都會按**嚴重等級(severity)**標記。
紅色圓點表示普通問題,即合併代碼前應修復的bug;
黃色圓點表示輕微問題,建議修復,但不會阻止合併;
紫色圓點表示既存問題,非本次PR引入的bug。
每條審查評論還包含一個 可折疊的推理說明(extended reasoning)。
展開後,你可以看到:
Claude 為何標記該問題
它是如何驗證這個問題確實存在的
需要注意的是,這些評論不會自動批准或阻止PR合併,因此不會破壞現有的代碼審查流程。
默認情況下,Claude Code Review主要關注代碼正確性(correctness)。
也就是說,它重點檢查:
會導致生產環境故障的bug
實際邏輯問題
而不會重點關注代碼格式、風格偏好、是否缺少測試等問題。
如果希望擴展檢查範圍,需要用戶進行配置。
內部測試結果,堪稱恐怖
Anthropic的內部測試結果,堪稱恐怖!也更加證明了,傳統的代碼審查,基本就是個笑話。
內部數據實在是觸目驚心:只有16%的PR獲得了實質性的審查意見。
在1000行以上的大型PR中,84%的代碼都被它揪出了問題,平均每個PR抓到7.5個Bug。
為什麼?原因就是,工程師太忙了。
Anthropic在過去一年裡,每個工程師的代碼產出增長了200%。代碼越來越多,誰還有功夫一行一行細看?
而在實施該功能後,代碼庫中有實質性修復建議的PR比例,從16%暴漲到了54%。
這意味著,以前有近40%的潛在屎山代碼,是在人類程序員眼皮子底下溜過的,而現在,它們全被Claude揪了出來。
更恐怖的是小於50行的小PR,從前大家覺得,就這麼幾行,能有什麼問題。
結果,其中的31%都被發現了問題,每三個小改動,就有一個藏著bug。
而那些被揪出來的問題,工程師的認可度直接達到99%以上!只有不到1%的結果,被工程師標記為誤報。
這個準確率,已經超過了絕大多數人類reviewer。
Anthropic舉了自己內部的一個例子:對一個生產服務的一行代碼更改,看起來是常規操作,屬於通常會快速獲得批准的差異。但代碼審查將其標記為嚴重問題。
該更改會導致身份驗證失效,這種故障模式在差異對比中容易被忽略,但一經指出就非常明顯。
該問題在合併前得到了修復,工程師事後表示,他們自己可能不會發現這個問題。
再講一個真實案例。
iXsystems,一家做TrueNAS的公司,在用Code Review審查了一個ZFS加密相關的代碼重構。
這是一個很深度的技術改動,review的人都是這個領域的專家。
結果,Code Review干了一件讓所有人意外的事:它在「相鄰代碼」裡發現了一個潛在的bug。
那個bug不在這次改動的核心範圍,只是代碼「恰好被改動涉及到了」。這個類型不匹配的問題,會導致每次同步時悄悄擦除加密密鑰緩存。
這是一個隱藏了很久很久的bug,一直就在那裡,沒有人發現。
人類專家幾乎不可能發現,因為它不在diff裡,不是要關注的重點,但說不定某一天,它就會炸掉你的系統。
但是,現在Code Review一下子將它揪出。
行業大洗牌,來了
現在,安全公司和SaaS廠商都在哀嚎。
每年收5萬美金的代碼安全公司,還能活多久?
不是它們的技術不好,而是商業邏輯變了。
如果Anthropic可以用智能體團隊,花20美元就能解決深度的業務邏輯安全審計,誰還會去買那些動輒幾萬美金、誤報率還高得離譜的傳統掃描器?
如果你還在手動Review幾千行代碼,或者還在為高昂的安全審計費買單,醒醒吧,時代變了。
今夜,AppSec行業的股票,可能真的要感受一下AI的寒意了。
本文來源:新智元
風險提示及免責條款