AI 與科技新聞摘要 - 2026/04/22

77%。

去年這個數字是 20%。這不是某個廠商的行銷數字，是 Stanford AI Index 2026 剛剛公布的 Terminal-Bench 基準——測試 AI agent 處理真實世界任務的成功率。一年之間，從五題答一題，到十題答八題。

同一份報告裡還有一個數字：280%。這是「Agentic AI」技能需求在職缺描述中的年增幅，從 0.06% 到 0.23%，絕對數字是美國約 9 萬個職缺。兩個數字放在一起看，AI agent 的進步曲線和市場需求曲線，幾乎是同步加速的。

這週的幾條新聞，放在這個背景下讀會有不同的感受。

Stanford AI Index 2026 — AI agent 成功率翻了將近四倍

Stanford HAI 今年的 AI Index 報告裡，數字最驚人的一塊是 agent 能力的進步速度。

OSWorld benchmark 測試 AI agent 在真實作業系統上執行任務的能力。一年前，成功率是 12%；現在是 66%。Terminal-Bench 的數字更極端，從 20% 跳到 77.3%。網路安全方面，AI agent 解決 CTF 題目的成功率從 15% 飆到 93%。

這個進步曲線有幾個地方值得停下來想一下。

第一，這不是 benchmark 優化出來的數字。OSWorld 和 Terminal-Bench 測的是真實環境裡的任務——打開瀏覽器找資料、寫檔案、執行指令——不是被廠商針對性訓練過的封閉測試。這讓這些數字比 MMLU 或 HumanEval 更難造假。

第二，66% 聽起來很高，但剩下 34% 是問題所在。任何必須確定性成功的流程（部署、資料遷移、資安稽核），34% 的失敗率是無法接受的。AI agent 的現況是：它很適合當「讓你快 10 倍的工具」，但還不是「你可以放著不管的系統」。用系統性風險的角度來看，agent 失敗的代價往往是非線性的——成功一百次沒人記得，失敗一次刪了生產資料，成本是成功的一千倍。

第三，「Agentic AI」職缺增加 280%，但報告同時指出 AI agent 的企業採用率在幾乎每個部門都還在個位數。需求和採用之間的落差，暗示的是：現在搶到 agentic AI 工程師的公司，在 12-18 個月後會有不對稱的優勢。

原文來源：Inside the AI Index: 12 Takeaways from the 2026 Report - Stanford HAI
原文來源：Stanford’s AI Index for 2026 Shows the State of AI - IEEE Spectrum

GitHub Copilot 停止新用戶註冊，並轉向 token 計費

4 月 20 日，GitHub 宣布暫停所有 Copilot 個人方案（Free、Pro、Pro+、Student）的新用戶註冊。

原因很直接：自 1 月以來，GitHub 每週運營 Copilot 的成本幾乎翻倍。固定月費制在 agentic programming 爆炸性成長的背景下，已經數學上行不通了。用戶不再只是偶爾用用自動補全，而是跑幾十分鐘的 coding agent session，每個 session 消耗的 token 量，相當於過去一個月的使用量。

即將推出的 token-based billing 是計費邏輯的根本性改變：你用多少付多少，而不是無限使用固定月費。

同時，GitHub 宣布逐步移除 Pro 方案對 Claude Opus 4.5 和 4.6 的存取，只有 Pro+ 訂閱者才能繼續使用 Opus 4.7。

用逆向的眼光看這件事，有幾個系統性問題浮出來。

對 GitHub 來說，這是一個被自己的成長打臉的情況。Copilot 成功了，但太成功——用戶的使用深度遠超過固定月費能支撐的程度。這個問題在任何 AI 工具爆炸性普及後都會出現，GitHub 只是第一個公開處理它的。

對用戶來說，token 計費的問題是「不可預期的帳單」。月費制可預測，token 計費需要用戶自己管理用量。對重度用戶而言，token 計費可能比月費便宜；對輕度用戶，可能更貴。沒有人知道自己用量在哪個象限，直到帳單來了。

對整個 AI 工具市場來說，這是一個先行案例：其他工具的固定月費制，遲早都會面臨同樣的問題。Claude Code 的 $100/月 Max 方案，某種程度上是在說「我們已經測算過這個用量了，固定費可以撐住」——這個判斷對不對，幾個月後會有結果。

原文來源：GitHub Copilot pauses new sign-ups: why you can’t register - Roboin Blog
原文來源：Exclusive: Microsoft To Shift GitHub Copilot Users To Token-Based Billing - Where’s Your Ed At

Anthropic 把 Claude Code 從 $20 Pro 方案拿掉，又放回來

4 月 21 日下午，Anthropic 悄悄修改了定價頁面和文件，把 Claude Code 從 $20/月 Pro 方案的功能清單裡移除。沒有公告、沒有 changelog、沒有 email 通知。

開發者發現的方式是比對 archive 頁面——把 4 月 10 日的版本和當天的版本並排放，才看到 Claude Code 的勾勾不見了。Reddit、Hacker News、Twitter 同時炸開。

幾小時後，Anthropic 的 growth head Amol Avasare 在社群貼文說明：「我們正在對 ~2% 的新 prosumer 用戶做一個小實驗，現有 Pro 和 Max 訂閱者不受影響。」

然後 Anthropic 把定價頁面改回來了。

這件事有幾層值得拆開看。

第一層：通訊方式。Anthropic 選擇先改頁面、等用戶發現、再發 social media 澄清——這個順序是個問題。不管這是不是「只有 2% 用戶的小實驗」，修改定價頁面而不同步溝通，對相信那個勾勾而付錢的用戶是一種誤導。

第二層：測試本身說明了什麼。Anthropic 在做定價彈性測試，代表它在考慮「Claude Code 是否應該成為更高方案才有的功能」。這個考量是合理的——Claude Code 的使用成本比一般 Claude 對話高很多，如果重度用戶把 $20/月當 $100/月用，長期無法持續。

第三層：市場反應的系統性意義。Anthropic 的競爭者（Cursor、Windsurf、GitHub Copilot）都在同一個時間點面臨 agentic AI 的成本壓力。Anthropic 敢測試把 Claude Code 移出 $20 方案，是因為它知道需求夠強，定價有上移空間。這個測試的「失敗」（社群強烈反應導致回滾），不代表它不會再試——只代表它現在還不是時機，或方式需要調整。

原文來源：Anthropic tests how devs react to yanking Claude Code from Pro plan - The Register
原文來源：Is Claude Code going to cost $100/month? Probably not—it’s all very confusing - Simon Willison

Kiro 發布自主 agent 預覽版

AWS 的 agentic IDE Kiro 近期推出 Kiro Autonomous Agent 預覽版，開始向 Pro、Pro+、Power 訂閱者逐步開放。

Kiro 的定位從一開始就跟 Cursor、Claude Code 不同。Cursor 和 Claude Code 是「AI 輔助工程師」，你指揮 AI 做事。Kiro 的設計哲學更接近「AI 主導，工程師把關」——工程師定義 spec，AI 自己規劃任務、執行、驗證，工程師在關鍵節點確認。

Autonomous Agent 是這個哲學的極限版本：你給一個目標，agent 自己決定怎麼拆解、怎麼執行，完成後彙報結果。

同步更新的功能還有幾個：支援 Claude Sonnet 4.5（experimental）可以直接在 chat 框選用；spec 建立時可以把任務標為 optional，讓 agent 知道哪些是 must-have、哪些是 nice-to-have；chat 現在支援直接拖入 PDF、CSV、DOCX、Excel 作為 context。

從生態系格局來看，這個時間點很有意思。GitHub Copilot 在暫停新用戶註冊，Windsurf 剛被 Cognition 收購，Cursor 的定位是個人開發者。AWS 把 Kiro 推出 autonomous agent，是在說：「企業級的 agentic coding，我們才是最終答案。」

這個賭注成不成功，取決於 Kiro 能不能在「AI 自己跑」的可靠性上，比其他工具早幾個月達到企業可以接受的閾值。77% 的 agent 成功率對消費者工具可能夠用，對生產環境還差太遠。