史上首個 AI 造 AI!GPT-5.3 參與開發自己,科幻照進現實

Market Whisper

OpenAI 發布 GPT-5.3-Codex,首個「參與創造自己」的模型,調試自己代碼、管理部署、診斷測試。Karpathy 稱此次改版「最接近 AI 起飛場景」。

AI 開始造 AI 的技術奇點突破

OpenAI 官方帳號發布:GPT-5.3-Codex 正式上線,這是「第一個參與創造自己的模型」。什麼意思?就是說,這個 AI 在開發過程中,幫忙調試了自己的訓練程式碼、管理了自己的部署流程、診斷了自己的測試結果。說人話就是:AI 開始造 AI 了。

前 OpenAI 研究員、特斯拉 AI 總監 Andrej Karpathy 看完直接發推文:「這是我見過最接近科幻小說中 AI 起飛場景的東西。」這種來自頂級 AI 研究者的評價極具分量,因為 Karpathy 親身經歷了 AI 發展的多個關鍵階段,他的判斷基於深刻的技術理解。

AI 自我迭代自己,這不是行銷話術。根據 OpenAI 內部揭露,GPT-5.3-Codex 在開發過程中做了這些事:分析訓練日誌標記失敗的測試、給訓練腳本和設定檔提建議修復方案、生成部署配方、總結評估異常供人類審查。這意味著什麼?AI 不再只是工具,它開始成為開發團隊的一員,而且是能改進自己的那種。

這種自我參與開發的能力突破了傳統 AI 的定位。以往 AI 模型完全由人類設計、訓練和部署,AI 是被動的產物。現在 GPT-5.3 在自己的誕生過程中發揮了主動作用,雖然仍在人類監督下,但這種角色轉變具有深遠意義。它暗示了一種可能性:未來的 AI 模型可能大部分由 AI 自己設計和優化,人類僅提供方向和最終審查。

GPT-5.3 自我參與開發的四大行為

分析訓練日誌:自動標記失敗測試,識別訓練過程中的異常

建議修復方案:對訓練腳本和配置文件提出改進建議

生成部署配方:自動化部署流程,減少人工操作

總結評估異常:將複雜的評估結果整理成人類可理解的報告

MIT 最近發表的 SEAL 論文(arXiv:2506.10943)描述了一種能在部署後持續學習的 AI 架構,無需重新訓練就能自我進化。值得注意的是,部分 SEAL 研究者現已加入 OpenAI。這意味著 AI 從「靜態工具」變成了「動態系統」,學習不再止步於部署,推理和訓練的邊界正在消融。GPT-5.3 可能正是這種新架構的首個商業化應用。

77.3% 碾壓 Claude 的基準測試屠殺

2 月 5 日,OpenAI 和 Anthropic 僅僅相隔 20 分鐘,就都發表了新一代模型。先是 Anthropic 發布 Claude Opus 4.6,接著 OpenAI 推出 GPT-5.3-Codex,中門對狙。既然 OpenAI 想用 GPT-5.3-Codex 狙擊別人家的新模型,那肯定得有點本事。數據不會騙人,GPT-5.3-Codex 一上線就在多個行業基準測試中刷新了紀錄。

Terminal-Bench 2.0 測試 AI 在真實終端環境中的操作能力,編譯程式碼、訓練模型、配置伺服器這些實際工作。GPT-5.3-Codex 得分 77.3%,而 GPT-5.2-Codex 只有 64.0%,Claude Opus 4.6 據報道是 65.4%。世代之間提升 13 個百分點,這在 AI 領域已經是個巨大的飛躍。77.3% vs 65.4% 的對比顯示,GPT-5.3 在實際工程任務上建立了顯著優勢。

SWE-Bench Pro 是一個專門測試真實軟體工程能力的基準,涵蓋 Python、JavaScript、Go、Ruby 四種程式語言。GPT-5.3-Codex 拿下了 56.8% 的成績,超過了前代 GPT-5.2-Codex 的 56.4%,繼續保持行業第一。更關鍵的是,OpenAI 透露,GPT-5.3-Codex 在達到這個分數時使用的輸出 token 數量是所有模型中最少的,這意味著它不僅準確,而且高效。

OSWorld-Verified 測試 AI 在視覺化桌面環境中完成生產力任務的能力,編輯電子表格、製作簡報、處理文件等。GPT-5.3-Codex 得分 64.7%,而人類的平均值是 72%。這意味著它在電腦操作任務上已經接近普通人的表現,比前代幾乎增加了一倍。這種接近人類水平的表現,使得 AI 首次能夠真正勝任辦公室工作,而非僅是輔助工具。

Claude 反擊 100 萬 Token 與 Agent Teams

更值得關注的是,Claude Opus 4.6 首次在 Opus 級模型中支援 100 萬 token 上下文視窗(beta),可以一次性處理整個程式碼庫或數百頁文檔,並推出了 Agent Teams 功能,多個 AI 智能體可以同時協作編程、測試、寫文檔,這種「AI 團隊作戰」的模式,正在將編程從個人技能變成協作工作。

當 OpenAI 和 Anthropic 在同一天、同一時刻發布旗艦模型,這場競爭不再是單純的技術比拼,而是關於 AI 未來形態的路線之爭:是 OpenAI 的「自我進化」路線,還是 Anthropic 的「多智能體協作」路線?OpenAI 的策略是讓單一 AI 越來越強大,甚至能夠改進自己。Anthropic 的策略是讓多個 AI 協作,通過分工和協同來完成複雜任務。

100 萬 token 的上下文是技術突破。這相當於約 75 萬個英文單詞或 300 萬個中文字符,足以容納一個中型軟體項目的全部代碼或一本厚厚的技術文檔。這種容量使得 Claude 能夠「看到」整個項目的全貌,而非片段式理解。對於大型項目的架構分析和重構,這種全局視野至關重要。

Agent Teams 則是將協作概念引入 AI。一個 Agent 負責寫代碼,另一個負責測試,第三個負責寫文檔,它們之間可以通信和協調。這種模式模仿了人類軟體團隊的工作方式,可能比單一超級 AI 更適合某些場景。然而,多 Agent 協作也引入了新的複雜性:如何協調、如何避免衝突、如何保證一致性。

兩種路線各有優劣。OpenAI 的自我進化路線更激進,若成功可能引發指數級的能力提升,但也可能失控。Anthropic 的多 Agent 路線更保守,通過分散能力來降低單點風險,但協調成本可能限制效率。當 AI 開始在野外進化,治理問題將從「它有多聰明」轉向「我們如何管理一個持續變化的系統」。而當兩家頂級 AI 公司在 20 分鐘內連續發布突破性模型,留給人類思考和準備的時間窗口,正在以肉眼可見的速度縮小。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

一周精选丨告别“龙虾”狂欢,回归加密本源,Hyperliquid是本周最热项目

PANews编者按:PANews精选了一周的优质内容,帮助大家利用周末时间查漏补缺,点击标题即可阅读。 宏观视角 a16z:致加密创始人,企业不买最好的技术 区块链创始人如何向企业销售?本文揭示企业不买“最好”技术,而选择破坏最小的升级路径。结合真实案例,分享将区块链技术包装成企业可接受方案的关 马斯克最新访谈:AI已进入自我进化循环,人类正从“回路”中消失 马斯克在科技峰会透露,特斯拉擎天柱3人形机器人即将投产,AI已进入自我改进阶段。他预测未来经济将高速增长并转向通缩,商品服务产出远超货币供给,甚至预言“钱不再重要”。 对话Bitwise首席信息官:量子计算与AI威胁被夸大,

PANews2分鐘前

美股收盘三大指数均下跌,加密概念股 UPXI 涨超 19%

3月14日,美股三大指数收跌,道指跌0.26%,标普500跌0.61%,纳指跌0.93%。加密概念股表现不一,UPXI涨超19.3%。同时,去中心化RWA交易平台msx.com上线数百种RWA代币,包括美股及ETF。

GateNews34分鐘前

美股昨夜高开低收,加密货币概念股涨幅回吐

3月14日美股表现不佳,道指跌0.25%,标准普尔500指数跌0.6%,纳指跌0.93%。部分科技股下滑,Adobe跌7.5%,Meta跌3.8%。纳斯达克中国金龙指数上涨0.75%。加密货币概念股涨幅回吐。

GateNews53分鐘前

布伦特原油期货连续第二日收于每桶 100 美元以上,创三年多来新高

Gate News 消息,3 月 14 日,布伦特原油(国际基准油价)期货价格连续第二个交易日收于每桶 100 美元以上,创下三年多来的最高水平。布伦特原油期货收于每桶 103.14 美元,美国 WTI 原油(美国基准油价)期货收于每桶 99 美元附近,为 2022 年 7 月以来的最高水平。与此同时,中东冲突持续蔓延,世界各国领导人正努力解决石油市场历史上最大的冲击。

GateNews57分鐘前

消息人士:Meta 计划裁员至少 20%,或为 2023 年以来最大规模

Gate News 消息,3 月 14 日,据外媒援引消息人士称,Meta 计划进行大规模裁员,可能会影响 20% 或更多的员工。Meta 此举旨在抵消人工智能基础设施方面的高额投入,并为提高人工智能辅助员工的效率做好准备。上述人士表示,裁员日期尚未确定,规模也未最终敲定。如果确定裁员比例为 20%,这将是 Meta 自 2022 年底和 2023 年初进行「效率年」重组以来最重大的一次裁员。

GateNews1小時前

三菱日联分析师:伊朗战争引发油价上涨或促部分央行加息,澳元受益明显

3月14日,三菱日联分析师指出,虽然油价上涨可能促使央行加息,但在经济疲弱情况下,加息对货币通常不利。澳元因市场预期美国加息和能源价格上涨,成为表现最佳的G10货币之一。

GateNews1小時前
留言
0/400
暫無留言