英國 AI 安全研究所(AI Security Institute, AISI)5 月 1 日發布針對 OpenAI GPT-5.5 的網路攻擊能力評估報告,指 GPT-5.5 在 Expert 難度測試的成功率為 71.4%、Anthropic Claude Mythos Preview 為 68.6%,差距落在統計誤差範圍內。GPT-5.5 也是繼 Mythos 之後第二個能自主完成 AISI 32 步驟「The Last Ones」企業網路全程模擬入侵的 AI 系統。AISI 警告,這顯示 AI 攻擊能力的快速進步可能屬於一個「整體趨勢」,而非單一突破事件。
Expert 難度測試:71.4% vs 68.6%、差距落於誤差內
AISI 是英國科學、創新與技術部下的 AI 安全研究機構。本次測試是 AISI 針對 frontier AI 模型攻擊性網路能力的最新一輪評估。在最高 Expert 難度題目,GPT-5.5 平均成功率 71.4%、Mythos Preview 68.6%,兩者差距落在統計誤差範圍內,意味目前 OpenAI 與 Anthropic 旗艦模型的攻擊能力已實質持平。
32 步驟模擬企業網路入侵測試「The Last Ones」是 AISI 最具挑戰性的評估項目:GPT-5.5 在 10 次嘗試中自主完成 2 次(無人工介入),Mythos Preview 在 10 次中完成 3 次。這個項目過去只有 Mythos 完成過,GPT-5.5 是第二個達標的模型。另一項測試中,GPT-5.5 用約 10 分鐘破解一道反向工程題,而人類安全專家平均需要 12 小時。
Universal jailbreak:6 小時紅隊開發即可繞過所有惡意查詢過濾
AISI 研究員在測試中也發現一個「universal jailbreak」(通用越獄)攻擊向量:在所有測試的惡意網路查詢類別中,這個攻擊都能誘使 GPT-5.5 輸出有害內容、包含多輪 agentic 對話情境。AISI 表示,紅隊專家花約 6 小時就開發出這個 jailbreak。
對 OpenAI 而言,這個 universal jailbreak 的存在意味即使 GPT-5.5-Cyber 部署在 trusted access 計畫等限縮存取的場景,仍可能被技術熟練的對手繞過。OpenAI 在 GPT-5.5 system card 中已揭露網路安全相關評估,但 AISI 的獨立第三方評估提供更具公信力的同儕基準。
後續觀察:AISI 下一輪評估時程、OpenAI 對 jailbreak 的應對
下一個觀察點是 AISI 在 Mythos 與 GPT-5.5 之後的下一輪 frontier 模型評估時程,以及 OpenAI 對本次揭露的 universal jailbreak 是否在 5 月發布針對性更新。AISI 在報告結語明確表示,「如果攻擊性網路能力是更廣泛推理、編碼、自主任務改善的副產品,後續進步可能會以更快節奏到來」—這個觀察意味未來幾個月可能再有 frontier 模型進入「Mythos 級」門檻。
這篇文章 AISI 評估:GPT-5.5 網路攻擊能力與 Anthropic Mythos 持平 最早出現於 鏈新聞 ABMedia。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
明尼蘇達州禁止 AI 非經同意的露骨影像工具,並處以最高 $500K 罰金
根據 Decrypt,明尼蘇達州的立法機關在 5 月 2 日通過一項法案,禁止網站和應用程式提供會生成人可辨識個人、且未經同意的親密影像的 AI 工具。該法律禁止平台允許用戶存取或使用這類「深偽」工具,並禁止
GateNews1小時前
ChatGPT 使用者現在可在 OpenClaw 平台存取訂閱,Sam Altman 宣布
根據 Sam Altman 今天的公告,ChatGPT 使用者現在可以使用他們的 ChatGPT 帳戶登入 OpenClaw 代理平台,並直接存取他們在平台上的既有 ChatGPT 訂閱。
GateNews2小時前
xAI 推出 Grok 客製語音,讓使用者在一分鐘內複製自己的 AI 語音
根據 Beating,xAI 推出 Grok Custom Voices 與 Voice Library,讓使用者能在 xAI 主控台錄製一分鐘音訊,以產生可用於 Grok TTS 與 Voice Agent API 的自訂 voice_id。此功能支援包含客戶服務代理、內容創作、
GateNews3小時前
HBM 後 AI 記憶體瓶頸是 HBF?圖靈獎得主 David Patterson:推論將重新定義儲存架構
圖靈獎得主 David Patterson 指出,隨著 AI 從訓練走向大規模推論,下一波記憶體瓶頸可能不是 HBM,而是 HBF(高頻寬快閃記憶體)。HBF 將 NAND Flash 堆疊提供大容量、低功耗,負責推論中的上下文與中間資料存取,與以速度為核心的 HBM 分工不同。SK 海力士與 SanDisk 正推動標準化,預計 2038 年 HBF 的需求可能超越 HBM。
鏈新聞abmedia3小時前
Anthropic Code With Claude 開發者大會 5/6 舊金山開幕:直播免費註冊
Anthropic 5 月 1 日宣布首屆「Code with Claude」開發者大會將於 5 月 6 日舊金山開幕,並首次擴大至倫敦(5/19)與東京(6/10)三城巡迴。三場主場會議的現地名額採抽籤制、皆已抽選完畢,但直播註冊仍對所有人開放。為回應現地需求超載,舊金山場另加開 5/7「Extended」場次,專為獨立開發者與早期階段創辦人設計。
三場巡迴:5/6 舊金山、5/19 倫敦、6/10 東京
Code with Claude 是 Anthropic 主辦的開發者大會,舊金山主場已是第二次舉辦。3 場活動內容相同:一整天的現場工作坊、最新功能 demo、與 Claude 各條
鏈新聞abmedia4小時前
OpenAI 公布 GPT-5.5 上線一週數據:API 營收增速創新高、Codex 翻倍
OpenAI 5 月 1 日於官方帳號公布GPT-5.5 上線一週後的 3 項數據:自評為「歷代最強發表」、API 營收成長速度為過去任一次模型發表的 2 倍以上、Codex 在不到 7 天內營收翻倍。OpenAI 將原因歸為企業端對 agentic coding(代理式編碼)工具需求持續攀升,與 4 月 30 日 GPT-5.5-Cyber 同期應戰 Anthropic Mythos形成同一波產品節奏。
3 項自公布數據:API 營收倍速、Codex 7 天翻倍、最強發表
OpenAI 此次公布的 3 個關鍵數字來自官方推文,未附詳細財報:第一,GPT-5.5 是「歷代營收成長最強」的模
鏈新聞abmedia4小時前