52.5%。

這是 OpenAI 宣稱 GPT-5.5 Instant 在高風險 prompt——醫療、法律、金融——上幻覺減少的比例。超過一半。聽起來很棒,對吧?但反過來想:如果前一代模型在這些場景中的幻覺率高到「砍掉一半還值得慶祝」,那之前有多少人已經拿那個模型的輸出去做醫療決策了?

同一週,OpenAI 發布了一個讓資安防守者用的 AI 模型,可以在 32 步內攻破模擬企業網路。AWS 旗下的 Kiro IDE 把任務並行化做到省 75% 時間。GitHub Copilot CLI 讓 Claude 和 GPT 互相審查彼此的程式碼。Windsurf 把 Devin agent 從付費牆後面拉出來給所有人用。

一個模式正在浮現:AI 工具不再是「能不能用」的問題,而是「誰先用、用多深、出事誰負責」的問題。能力在民主化。風險也在民主化。


GPT-5.5 Instant:幻覺砍半,但基準線在哪?

五月五日,OpenAI 把 GPT-5.5 Instant 推上線,取代 GPT-5.3 Instant 成為所有 ChatGPT 免費用戶的預設模型。

數字很漂亮。高風險 prompt 的幻覺減少 52.5%。不準確聲明減少 37.3%。回覆字數少了 30.2%,行數少了 29.2%。更短、更準、更少胡說八道。

但數字漂亮歸漂亮,有個根本問題沒被回答:基準線是什麼?

「幻覺減少 52.5%」——相對於什麼?如果 GPT-5.3 Instant 在醫療問題上每十次回答有三次包含幻覺,減少 52.5% 之後還是有 1.4 次。一個免費模型,面對數億不付錢的用戶,其中大多數不具備辨別 AI 幻覺的專業能力。1.4 次乘以數億人,那個數字就不太好笑了。

Plus 和 Pro 用戶拿到了新的個人化功能——模型可以讀取你的歷史對話、上傳檔案、甚至 Gmail 內容,來提供更個人化的回答。這件事的上行是更懂你的 AI 助手。下行是你主動把自己的數位足跡餵給了模型的上下文窗口。便利和隱私的交換比率,每個人得自己算。

付費用戶可以保留 GPT-5.3 Instant 三個月。三個月後強制升級。這是科技業的標準套路——給你選擇的幻覺,但選項的終點早就決定好了。

原文來源:OpenAI launches GPT-5.5 Instant as ChatGPT’s new default — TechCrunch
原文來源:GPT-5.5 Instant — OpenAI


一個 AI 模型在模擬環境中完成了 32 步企業網路攻擊。十次裡成功兩次。這個成功率聽起來不高——但攻擊者只需要成功一次。


GPT-5.5-Cyber:給防守者一把攻擊者等級的武器

五月七日到八日之間,OpenAI 正式推出 GPT-5.5-Cyber,一個專門為資安團隊打造的模型。

這不是 ChatGPT 加個「資安模式」。這是 OpenAI 有史以來限制最寬鬆的模型——它被明確允許做弱點識別、滲透測試、惡意軟體分析這些在一般模型上會被安全護欄擋掉的事情。使用權限僅限授權的資安團隊,不對外開放。

英國 AI 安全研究所(AISI)的測試結果很有意思:GPT-5.5 在模擬企業網路環境中,嘗試 32 步的完整攻擊鏈——偵查、入侵、橫向移動、資料外洩——十次裡完成了兩次。

20% 的成功率。

換個角度想。一個自動化的攻擊 agent,不需要睡覺、不需要薪水、可以同時跑一千個實例。每個實例嘗試十次,兩次成功。一千個實例就是兩百次成功。而且它會越來越好——每次失敗都是訓練資料。

OpenAI 的邏輯是:與其讓攻擊者獨享這個能力,不如讓防守者也有同等級的工具。這個邏輯成立嗎?在軍事領域,「讓防守方擁有進攻武器」叫做嚇阻理論。但嚇阻理論有個前提——雙方都知道對方有武器。在資安世界裡,攻擊者不需要知道你有什麼工具,他們只需要找到一個你沒防到的漏洞。

2026 年六月一日起,最高權限層需要抗釣魚認證。這是個好的開始。但真正的問題不是認證,是這個模型的能力邊界會隨著每次更新而擴張,而存取控制的嚴謹度未必跟得上。

原文來源:OpenAI launches cybersecurity AI model — CNBC
原文來源:GPT-5.5-Cyber: Security model for defenders — OpenAI
原文來源:GPT-5.5 completed simulated cyberattack — UK AISI


Kiro 0.12.155:Spec-Driven 開發的速度終於跟上了

AWS 旗下的 Kiro IDE 在五月六日到八日之間陸續推出 0.12.155 版本的更新。

核心改變是 Run all Tasks 現在會自動偵測任務之間的依賴關係,把獨立任務並行執行。官方說法是四個以上的任務可以省 75% 的時間。

75% 聽起來很誇張,但其實邏輯很直白。以前 Kiro 的 Spec 驅動開發流程是:寫 spec → 拆 task → 一個一個跑。十個任務排隊跑完要半小時。現在它會看哪些任務之間沒有依賴——改 CSS 和加 API endpoint 顯然互不影響——然後同時開工。十個任務裡如果有八個可以並行,等待時間就只剩最長的那條路徑加上兩個必須串行的任務。

這不是什麼驚天動地的技術突破,Claude Code 的 Agent Teams 早就在做類似的事。但 Kiro 把它做進了 IDE 的原生工作流裡,不需要你手動編排。對那些把 Kiro 當主力 IDE 的團隊來說,這是每天省下的真實時間。

其他更新:聊天可以附加檔案了(PDF、CSV、DOC、XLSX,每訊息五個上限),新增 Claude Opus 4.7 支援(帶 adaptive thinking),以及 Kiro Web 預覽版上線——Pro 以上用戶可以在瀏覽器裡直接用 Kiro,不需要裝桌面應用。

Kiro Web 有夠真香。IDE 走進瀏覽器意味著你在任何機器上都能開工。但「預覽版」三個字也意味著——別在上面跑你的正式環境專案,除非你喜歡踩坑。

原文來源:Kiro Changelog — 0.12.155


當你的 Claude 和 GPT 開始互相 code review,工程師的角色是什麼?


Copilot CLI 1.0.45:AI 開始互相審查程式碼了

五月十一日,GitHub Copilot CLI 更新到 1.0.45。兩個主要變化。

第一個是 /autopilot 斜線指令。以前 Copilot CLI 只有互動模式——你下指令,它問問題,來回討論。現在加了自動駕駛模式。一個指令切過去,agent 自己判斷該做什麼、直接做完。不問你。

這件事本身不算新鮮——Claude Code 的 YOLO 模式、Cursor 的 auto-apply 都在做類似的事。但 GitHub 把它做進官方 CLI 裡,代表自動駕駛模式正在從 power user 的秘密武器變成預設體驗。

第二個更有趣。Rubber Duck code review agent 現在支援跨模型審查。如果你的 session 用的是 Claude,它會自動把 GPT-5.5 拉進來當第二意見。用 GPT 的 session 則反過來,拉 Claude 進來當批評者。

兩個不同的模型、不同的訓練資料、不同的偏見——互相審查對方的判斷。這背後的假設是:單一模型的 code review 有系統性盲點,而不同模型的盲點不太可能完全重疊。統計學上叫做降低相關性。工程實務上叫做「多一雙眼睛」。

附帶一提,GitHub 宣布將棄用 Grok Code Fast 1,企業管理員要在五月十五日前更新模型政策。沒更新的話,你的 Copilot 會用預設模型——不保證是你想要的那個。

原文來源:Copilot CLI 1.0.45 — GitHub Releases
原文來源:Copilot updates — GitHub Changelog


Windsurf 2.2.17:Devin 不再是 VIP 專屬

五月六日,Windsurf 發布 2.2.17,做了一件很簡單但影響很大的事:把 Devin 對所有用戶開放。

之前 Devin Review 和 Quick Review 只有 Pro+ 用戶才能用。現在免費用戶也行。同時新增了 Devin Terminal——一個 CLI 版本的 Devin agent,讓你在終端機裡直接跟 Devin 互動。

等等,這不就是把 AI agent 從 IDE 延伸到終端機嗎?沒錯。而且是免費的。

這件事的策略意義比功能本身重要。Windsurf 在 IDE 市場裡不是領跑者——Cursor 和 Claude Code 都跑在前面。但 Windsurf 選擇了一個差異化路線:先讓所有人都能用,再想怎麼收錢。

免費增值模式在 AI 工具市場的邏輯很清楚:用戶黏性先建立,付費轉換後面再說。但問題是——當 Cursor、Claude Code、Copilot CLI 都在快速迭代,Windsurf 能靠「免費」維持多久的差異化?免費是最容易被複製的競爭優勢,因為它根本不是優勢,是定價策略。

不過對用戶來說,笑死,這是純粹的好事。一年前你要花錢買的功能,現在不用了。市場競爭帶來的消費者剩餘,經濟學教科書裡最美的一頁。

原文來源:Windsurf 2.2.17 Changelog


五條新聞,一個共同的結構正在成形。

GPT-5.5 Instant 把幻覺砍半,降低了普通用戶遇到錯誤資訊的機率——但同時用個人化功能擴大了模型接觸你私人資料的範圍。GPT-5.5-Cyber 給防守者攻擊等級的武器——但同時證明了 AI 在十次嘗試中能兩次攻破企業網路。Kiro 讓開發流程加速 75%——但更快的速度意味著更少的人工檢查點。Copilot 讓兩個 AI 互相審查——但「誰來審查審查者」的問題只是被推遲了一層。Windsurf 把 agent 免費開放給所有人——但所有人都能用的工具,攻擊者也能用。

每一個「進步」都有一個影子。能力擴張的同時,風險面也在擴張。而且能力的擴張是被慶祝的、被報導的、被投資人定價的。風險面的擴張是安靜的、漸進的、直到出事才被看見的。

所以不要問「這個工具好不好用」。要問的是:當這個工具在十萬人手中而不是十個人手中,最壞的情況是什麼? 因為十萬人裡一定有人會用它做你沒想過的事。不是惡意——只是你的想像力有限,而使用場景沒有上限。

這不是恐懼,是工程思維。設計系統的時候,你不會只考慮 happy path。設計決策框架的時候,也不該只看上行。