AI 與科技新聞摘要 20260529:MCP 官方 SDK 爆系統性漏洞、OpenAI 把安全寫成合規、Google Antigravity 2.0 對打 Claude Code
這個產業最近同時在做兩件事:一邊用盡全力把 AI 工具推得更快、更會自己跑;一邊手忙腳亂地補那些跑太快留下來的洞。這週的新聞,剛好把這兩條線攤得清清楚楚。
一、OpenAI 發布 Frontier Governance Framework:把安全做成一份合規文件
OpenAI 在 5/29 公布了「Frontier Governance Framework」,把原本對內的 Preparedness Framework 抽出一部分,整理成一份對外的公開治理文件。明說的目的是對齊法規——加州的 Transparency in Frontier AI Act、歐盟 AI Act 底下的通用模型行為準則。內容涵蓋網路攻擊、CBRN(生化核輻)、有害操弄、失控等風險的評估與緩解,外加模型回報、資安管理、事件應變、外部專家審查的流程。
值得停下來看的,是這份文件的「形態」。安全本來是個工程問題——你怎麼讓模型不做壞事。現在它正在變成一個合規問題——你怎麼證明給監理機關看你有在防。這兩者不一樣。前者要的是真的安全,後者要的是可被稽核的文件。當一家公司開始把安全寫成對齊法條的治理框架,代表這個產業已經從「能不能做出來」進入「做出來要對誰負責」的階段。
問題在於,合規文件最擅長的事,是讓你「看起來」做了防護。真正的尾部風險——那種低機率、一旦發生就掀桌的事件——從來不會乖乖出現在風險評估表的格子裡。一份寫得很漂亮的框架,跟系統實際有多脆弱,中間可以隔著整個太平洋。
二、MCP 官方 SDK 的 STDIO 傳輸爆系統性漏洞:20 萬個實例同時中招
如果說上面那則是「紙上的安全」,這則就是「地上的破洞」。OX Security 的研究員揭露,Anthropic 主導的 Model Context Protocol,它的官方 SDK——橫跨 Python、TypeScript、Java、Rust 四種語言——在處理本地工具執行的 STDIO 傳輸時,有一個系統性的設計缺陷。受影響的範圍估計高達 20 萬個實例,散落在各種 IDE、內部工具、雲端服務裡。
這件事真正可怕的地方,不是某一個 SDK 寫錯了,是「四種語言的官方實作同時中」。這代表問題不在某個工程師的疏忽,而在協定本身早期的一個設計決定。一個協定剛誕生的時候,某個看起來無傷大雅的選擇,會隨著它被幾十萬個地方採用而放大成系統性風險——當初省下的麻煩,現在要全生態一起還。
MCP 過去一年是 AI Agent 圈最熱的那塊樂高,大家瘋狂往上接東西,很少有人回頭問地基穩不穩。越是被廣泛採用、越是「大家都在用所以一定沒問題」的基礎設施,一旦出事,波及面就越大。複雜系統的崩潰從來不挑你方便的時候。
三、BadHost:一個每週下載 3.25 億次的套件,把半個 AI 推理生態拖下水
同一條脆弱性主線上,還有一顆更大的雷。CVE-2026-48710,外號 BadHost,出在 Starlette——一個每週被下載大約 3.25 億次的開源框架。它的問題是用 HTTP Host header 重建請求 URL 卻不驗證 header 內容,攻擊者塞一個偽造的 Host 進去,建立在 Starlette request.url 上的授權邏輯就會放行它本來該擋的存取。
致命的是繼承關係。FastAPI、vLLM、LiteLLM、Text Generation Inference,以及一長串 OpenAI 相容的 shim proxy,全都站在 Starlette 上面。也就是說,半個現代 AI 推理生態,是疊在同一個沒驗證 Host header 的地基上。一個底層套件的小疏忽,順著依賴鏈往上爬,瞬間變成幾百個專案的共同弱點。
這就是供應鏈風險的本質:你以為你在用十個獨立的工具分散風險,結果它們全都依賴同一個東西,你的風險根本沒分散,只是被藏進了你看不到的依賴樹深處。真正會弄垮你的,往往不是你選用的那個套件,是它背後你從沒打開看過的那一個。
四、Google Antigravity 2.0:正面對打 Claude Code 的多 agent 編排
切到速度那條線。Google 在這次 I/O(5/19–20)推出 Antigravity 2.0,方向很清楚——衝著 agent 編排來的。它端出多 agent 協作、內建 Chromium 瀏覽器、動態子代理、可排程的背景任務、還有公開 SDK,底層跑在 Gemini 3.5 Flash 上。功能清單擺出來,幾乎就是對著 Claude Code 跟它的 workflow 生態打。
Google 的算盤不難猜:它有全世界最深的雲端基礎設施、最便宜的推理算力、跟一個已經塞進每個人生活的 Gemini。把 agent 編排這套東西做進自家生態,邊際成本可以壓到對手難受的程度。
但功能多不等於贏。agent 編排這種東西,能不能跑到幾十個子代理同時動還不打架、背景任務排了會不會默默燒掉你的額度,這些都要真的用下去才知道。一個工具堆了越多會自己跑的功能,它在你沒盯著的時候出包的面積就越大。漂亮的 demo 跟你敢不敢讓它在背景無人看管地跑一整晚,是兩回事。
五、Cursor Composer 2.5 刷分、Windsurf 2.0 漲價:編碼工具的軍備與定價雙線
編碼工具這邊也沒閒著。Cursor 在 5/18 推 Composer 2.5,主打 SWE-Bench Multilingual 跑到 79.8%;Windsurf 被 Cognition 收購後直接推 2.0,把 Pro 從每月 15 美金漲到 20,順手把 Devin Cloud agent 跟 CLI 綁進來。一邊在刷榜,一邊在調價。
刷榜分數要小心看。benchmark 是個被高度優化的數字,跟你日常那些髒兮兮、規格寫不清楚的真實任務,相關性沒你想的高。一個工具在 SWE-Bench 上贏兩個百分點,跟它在你的爛 codebase 裡會不會幫倒忙,是兩件事。
漲價則透露了更值得注意的訊號。當一個產品被收購後第一件事是漲三成,通常代表市場已經從「搶用戶」轉向「榨現有用戶」。早期那種大家燒錢補貼搶市佔的階段正在收尾。對使用者來說,這意味著你選工具的成本——不只是月費,還有把工作流綁死在某家身上之後的轉換成本——正在變貴。
跑得最快的那條線,腳下的洞也最深
把這週的新聞放在一起,很容易得到一個「產業在比誰跑得快」的結論。但真正反直覺的地方在這裡:跑得快本身不是風險,跑得快的同時沒人回頭看地基,才是。
治理框架、漏洞揭露、刷榜、漲價,表面上是四件不相干的事,底下其實是同一個張力——這個產業把幾乎所有資源都壓在「往前衝」那一端,補破洞的人永遠在後面追,而且追不上。MCP 跟 Starlette 的雷不是意外,是「先衝再說、地基之後再補」這套打法的必然帳單。被廣泛採用的東西,它的脆弱性也被同等放大了,只是平常看不見。
所以如果你正打算把自己的東西蓋在這些工具跟協定上面,有個問題比「哪個跑得快」值錢得多:當這層地基哪天塌一塊,我有沒有退路?答案要是「沒有」,那跑得再快,都只是把自己更快地推到懸崖邊。










