AI 與科技新聞摘要 - 2026/05/12

52.5%。

這是 OpenAI 宣稱 GPT-5.5 Instant 在高風險 prompt——醫療、法律、金融——上幻覺減少的比例。超過一半。聽起來很棒，對吧？但反過來想：如果前一代模型在這些場景中的幻覺率高到「砍掉一半還值得慶祝」，那之前有多少人已經拿那個模型的輸出去做醫療決策了？

同一週，OpenAI 發布了一個讓資安防守者用的 AI 模型，可以在 32 步內攻破模擬企業網路。AWS 旗下的 Kiro IDE 把任務並行化做到省 75% 時間。GitHub Copilot CLI 讓 Claude 和 GPT 互相審查彼此的程式碼。Windsurf 把 Devin agent 從付費牆後面拉出來給所有人用。

一個模式正在浮現：AI 工具不再是「能不能用」的問題，而是「誰先用、用多深、出事誰負責」的問題。能力在民主化。風險也在民主化。

GPT-5.5 Instant：幻覺砍半，但基準線在哪？

五月五日，OpenAI 把 GPT-5.5 Instant 推上線，取代 GPT-5.3 Instant 成為所有 ChatGPT 免費用戶的預設模型。

數字很漂亮。高風險 prompt 的幻覺減少 52.5%。不準確聲明減少 37.3%。回覆字數少了 30.2%，行數少了 29.2%。更短、更準、更少胡說八道。

但數字漂亮歸漂亮，有個根本問題沒被回答：基準線是什麼？

「幻覺減少 52.5%」——相對於什麼？如果 GPT-5.3 Instant 在醫療問題上每十次回答有三次包含幻覺，減少 52.5% 之後還是有 1.4 次。一個免費模型，面對數億不付錢的用戶，其中大多數不具備辨別 AI 幻覺的專業能力。1.4 次乘以數億人，那個數字就不太好笑了。

Plus 和 Pro 用戶拿到了新的個人化功能——模型可以讀取你的歷史對話、上傳檔案、甚至 Gmail 內容，來提供更個人化的回答。這件事的上行是更懂你的 AI 助手。下行是你主動把自己的數位足跡餵給了模型的上下文窗口。便利和隱私的交換比率，每個人得自己算。

付費用戶可以保留 GPT-5.3 Instant 三個月。三個月後強制升級。這是科技業的標準套路——給你選擇的幻覺，但選項的終點早就決定好了。

原文來源：OpenAI launches GPT-5.5 Instant as ChatGPT’s new default — TechCrunch
原文來源：GPT-5.5 Instant — OpenAI

一個 AI 模型在模擬環境中完成了 32 步企業網路攻擊。十次裡成功兩次。這個成功率聽起來不高——但攻擊者只需要成功一次。

GPT-5.5-Cyber：給防守者一把攻擊者等級的武器

五月七日到八日之間，OpenAI 正式推出 GPT-5.5-Cyber，一個專門為資安團隊打造的模型。

這不是 ChatGPT 加個「資安模式」。這是 OpenAI 有史以來限制最寬鬆的模型——它被明確允許做弱點識別、滲透測試、惡意軟體分析這些在一般模型上會被安全護欄擋掉的事情。使用權限僅限授權的資安團隊，不對外開放。

英國 AI 安全研究所（AISI）的測試結果很有意思：GPT-5.5 在模擬企業網路環境中，嘗試 32 步的完整攻擊鏈——偵查、入侵、橫向移動、資料外洩——十次裡完成了兩次。

20% 的成功率。

換個角度想。一個自動化的攻擊 agent，不需要睡覺、不需要薪水、可以同時跑一千個實例。每個實例嘗試十次，兩次成功。一千個實例就是兩百次成功。而且它會越來越好——每次失敗都是訓練資料。

OpenAI 的邏輯是：與其讓攻擊者獨享這個能力，不如讓防守者也有同等級的工具。這個邏輯成立嗎？在軍事領域，「讓防守方擁有進攻武器」叫做嚇阻理論。但嚇阻理論有個前提——雙方都知道對方有武器。在資安世界裡，攻擊者不需要知道你有什麼工具，他們只需要找到一個你沒防到的漏洞。

2026 年六月一日起，最高權限層需要抗釣魚認證。這是個好的開始。但真正的問題不是認證，是這個模型的能力邊界會隨著每次更新而擴張，而存取控制的嚴謹度未必跟得上。

原文來源：OpenAI launches cybersecurity AI model — CNBC
原文來源：GPT-5.5-Cyber: Security model for defenders — OpenAI
原文來源：GPT-5.5 completed simulated cyberattack — UK AISI

Kiro 0.12.155：Spec-Driven 開發的速度終於跟上了

AWS 旗下的 Kiro IDE 在五月六日到八日之間陸續推出 0.12.155 版本的更新。

核心改變是 Run all Tasks 現在會自動偵測任務之間的依賴關係，把獨立任務並行執行。官方說法是四個以上的任務可以省 75% 的時間。

75% 聽起來很誇張，但其實邏輯很直白。以前 Kiro 的 Spec 驅動開發流程是：寫 spec → 拆 task → 一個一個跑。十個任務排隊跑完要半小時。現在它會看哪些任務之間沒有依賴——改 CSS 和加 API endpoint 顯然互不影響——然後同時開工。十個任務裡如果有八個可以並行，等待時間就只剩最長的那條路徑加上兩個必須串行的任務。

這不是什麼驚天動地的技術突破，Claude Code 的 Agent Teams 早就在做類似的事。但 Kiro 把它做進了 IDE 的原生工作流裡，不需要你手動編排。對那些把 Kiro 當主力 IDE 的團隊來說，這是每天省下的真實時間。

其他更新：聊天可以附加檔案了（PDF、CSV、DOC、XLSX，每訊息五個上限），新增 Claude Opus 4.7 支援（帶 adaptive thinking），以及 Kiro Web 預覽版上線——Pro 以上用戶可以在瀏覽器裡直接用 Kiro，不需要裝桌面應用。

Kiro Web 有夠真香。IDE 走進瀏覽器意味著你在任何機器上都能開工。但「預覽版」三個字也意味著——別在上面跑你的正式環境專案，除非你喜歡踩坑。

原文來源：Kiro Changelog — 0.12.155

當你的 Claude 和 GPT 開始互相 code review，工程師的角色是什麼？

Copilot CLI 1.0.45：AI 開始互相審查程式碼了

五月十一日，GitHub Copilot CLI 更新到 1.0.45。兩個主要變化。

第一個是 /autopilot 斜線指令。以前 Copilot CLI 只有互動模式——你下指令，它問問題，來回討論。現在加了自動駕駛模式。一個指令切過去，agent 自己判斷該做什麼、直接做完。不問你。

這件事本身不算新鮮——Claude Code 的 YOLO 模式、Cursor 的 auto-apply 都在做類似的事。但 GitHub 把它做進官方 CLI 裡，代表自動駕駛模式正在從 power user 的秘密武器變成預設體驗。

第二個更有趣。Rubber Duck code review agent 現在支援跨模型審查。如果你的 session 用的是 Claude，它會自動把 GPT-5.5 拉進來當第二意見。用 GPT 的 session 則反過來，拉 Claude 進來當批評者。

兩個不同的模型、不同的訓練資料、不同的偏見——互相審查對方的判斷。這背後的假設是：單一模型的 code review 有系統性盲點，而不同模型的盲點不太可能完全重疊。統計學上叫做降低相關性。工程實務上叫做「多一雙眼睛」。

附帶一提，GitHub 宣布將棄用 Grok Code Fast 1，企業管理員要在五月十五日前更新模型政策。沒更新的話，你的 Copilot 會用預設模型——不保證是你想要的那個。

原文來源：Copilot CLI 1.0.45 — GitHub Releases
原文來源：Copilot updates — GitHub Changelog

Windsurf 2.2.17：Devin 不再是 VIP 專屬

五月六日，Windsurf 發布 2.2.17，做了一件很簡單但影響很大的事：把 Devin 對所有用戶開放。

之前 Devin Review 和 Quick Review 只有 Pro+ 用戶才能用。現在免費用戶也行。同時新增了 Devin Terminal——一個 CLI 版本的 Devin agent，讓你在終端機裡直接跟 Devin 互動。

等等，這不就是把 AI agent 從 IDE 延伸到終端機嗎？沒錯。而且是免費的。

這件事的策略意義比功能本身重要。Windsurf 在 IDE 市場裡不是領跑者——Cursor 和 Claude Code 都跑在前面。但 Windsurf 選擇了一個差異化路線：先讓所有人都能用，再想怎麼收錢。

免費增值模式在 AI 工具市場的邏輯很清楚：用戶黏性先建立，付費轉換後面再說。但問題是——當 Cursor、Claude Code、Copilot CLI 都在快速迭代，Windsurf 能靠「免費」維持多久的差異化？免費是最容易被複製的競爭優勢，因為它根本不是優勢，是定價策略。

不過對用戶來說，笑死，這是純粹的好事。一年前你要花錢買的功能，現在不用了。市場競爭帶來的消費者剩餘，經濟學教科書裡最美的一頁。

原文來源：Windsurf 2.2.17 Changelog

五條新聞，一個共同的結構正在成形。

GPT-5.5 Instant 把幻覺砍半，降低了普通用戶遇到錯誤資訊的機率——但同時用個人化功能擴大了模型接觸你私人資料的範圍。GPT-5.5-Cyber 給防守者攻擊等級的武器——但同時證明了 AI 在十次嘗試中能兩次攻破企業網路。Kiro 讓開發流程加速 75%——但更快的速度意味著更少的人工檢查點。Copilot 讓兩個 AI 互相審查——但「誰來審查審查者」的問題只是被推遲了一層。Windsurf 把 agent 免費開放給所有人——但所有人都能用的工具，攻擊者也能用。

每一個「進步」都有一個影子。能力擴張的同時，風險面也在擴張。而且能力的擴張是被慶祝的、被報導的、被投資人定價的。風險面的擴張是安靜的、漸進的、直到出事才被看見的。

所以不要問「這個工具好不好用」。要問的是：當這個工具在十萬人手中而不是十個人手中，最壞的情況是什麼？ 因為十萬人裡一定有人會用它做你沒想過的事。不是惡意——只是你的想像力有限，而使用場景沒有上限。

這不是恐懼，是工程思維。設計系統的時候，你不會只考慮 happy path。設計決策框架的時候，也不該只看上行。

文章作者: Cheng®

文章連結: https://mark22013333.github.io/2026/05/12/AI-與科技新聞摘要-20260512/