77%。

去年這個數字是 20%。這不是某個廠商的行銷數字,是 Stanford AI Index 2026 剛剛公布的 Terminal-Bench 基準——測試 AI agent 處理真實世界任務的成功率。一年之間,從五題答一題,到十題答八題。

同一份報告裡還有一個數字:280%。這是「Agentic AI」技能需求在職缺描述中的年增幅,從 0.06% 到 0.23%,絕對數字是美國約 9 萬個職缺。兩個數字放在一起看,AI agent 的進步曲線和市場需求曲線,幾乎是同步加速的。

這週的幾條新聞,放在這個背景下讀會有不同的感受。


Stanford AI Index 2026 — AI agent 成功率翻了將近四倍

Stanford HAI 今年的 AI Index 報告裡,數字最驚人的一塊是 agent 能力的進步速度。

OSWorld benchmark 測試 AI agent 在真實作業系統上執行任務的能力。一年前,成功率是 12%;現在是 66%。Terminal-Bench 的數字更極端,從 20% 跳到 77.3%。網路安全方面,AI agent 解決 CTF 題目的成功率從 15% 飆到 93%。

這個進步曲線有幾個地方值得停下來想一下。

第一,這不是 benchmark 優化出來的數字。OSWorld 和 Terminal-Bench 測的是真實環境裡的任務——打開瀏覽器找資料、寫檔案、執行指令——不是被廠商針對性訓練過的封閉測試。這讓這些數字比 MMLU 或 HumanEval 更難造假。

第二,66% 聽起來很高,但剩下 34% 是問題所在。任何必須確定性成功的流程(部署、資料遷移、資安稽核),34% 的失敗率是無法接受的。AI agent 的現況是:它很適合當「讓你快 10 倍的工具」,但還不是「你可以放著不管的系統」。用系統性風險的角度來看,agent 失敗的代價往往是非線性的——成功一百次沒人記得,失敗一次刪了生產資料,成本是成功的一千倍。

第三,「Agentic AI」職缺增加 280%,但報告同時指出 AI agent 的企業採用率在幾乎每個部門都還在個位數。需求和採用之間的落差,暗示的是:現在搶到 agentic AI 工程師的公司,在 12-18 個月後會有不對稱的優勢。

原文來源:Inside the AI Index: 12 Takeaways from the 2026 Report - Stanford HAI
原文來源:Stanford’s AI Index for 2026 Shows the State of AI - IEEE Spectrum


GitHub Copilot 停止新用戶註冊,並轉向 token 計費

4 月 20 日,GitHub 宣布暫停所有 Copilot 個人方案(Free、Pro、Pro+、Student)的新用戶註冊。

原因很直接:自 1 月以來,GitHub 每週運營 Copilot 的成本幾乎翻倍。固定月費制在 agentic programming 爆炸性成長的背景下,已經數學上行不通了。用戶不再只是偶爾用用自動補全,而是跑幾十分鐘的 coding agent session,每個 session 消耗的 token 量,相當於過去一個月的使用量。

即將推出的 token-based billing 是計費邏輯的根本性改變:你用多少付多少,而不是無限使用固定月費。

同時,GitHub 宣布逐步移除 Pro 方案對 Claude Opus 4.5 和 4.6 的存取,只有 Pro+ 訂閱者才能繼續使用 Opus 4.7。

用逆向的眼光看這件事,有幾個系統性問題浮出來。

對 GitHub 來說,這是一個被自己的成長打臉的情況。Copilot 成功了,但太成功——用戶的使用深度遠超過固定月費能支撐的程度。這個問題在任何 AI 工具爆炸性普及後都會出現,GitHub 只是第一個公開處理它的。

對用戶來說,token 計費的問題是「不可預期的帳單」。月費制可預測,token 計費需要用戶自己管理用量。對重度用戶而言,token 計費可能比月費便宜;對輕度用戶,可能更貴。沒有人知道自己用量在哪個象限,直到帳單來了。

對整個 AI 工具市場來說,這是一個先行案例:其他工具的固定月費制,遲早都會面臨同樣的問題。Claude Code 的 $100/月 Max 方案,某種程度上是在說「我們已經測算過這個用量了,固定費可以撐住」——這個判斷對不對,幾個月後會有結果。

原文來源:GitHub Copilot pauses new sign-ups: why you can’t register - Roboin Blog
原文來源:Exclusive: Microsoft To Shift GitHub Copilot Users To Token-Based Billing - Where’s Your Ed At


Anthropic 把 Claude Code 從 $20 Pro 方案拿掉,又放回來

4 月 21 日下午,Anthropic 悄悄修改了定價頁面和文件,把 Claude Code 從 $20/月 Pro 方案的功能清單裡移除。沒有公告、沒有 changelog、沒有 email 通知。

開發者發現的方式是比對 archive 頁面——把 4 月 10 日的版本和當天的版本並排放,才看到 Claude Code 的勾勾不見了。Reddit、Hacker News、Twitter 同時炸開。

幾小時後,Anthropic 的 growth head Amol Avasare 在社群貼文說明:「我們正在對 ~2% 的新 prosumer 用戶做一個小實驗,現有 Pro 和 Max 訂閱者不受影響。」

然後 Anthropic 把定價頁面改回來了。

這件事有幾層值得拆開看。

第一層:通訊方式。Anthropic 選擇先改頁面、等用戶發現、再發 social media 澄清——這個順序是個問題。不管這是不是「只有 2% 用戶的小實驗」,修改定價頁面而不同步溝通,對相信那個勾勾而付錢的用戶是一種誤導。

第二層:測試本身說明了什麼。Anthropic 在做定價彈性測試,代表它在考慮「Claude Code 是否應該成為更高方案才有的功能」。這個考量是合理的——Claude Code 的使用成本比一般 Claude 對話高很多,如果重度用戶把 $20/月 當 $100/月 用,長期無法持續。

第三層:市場反應的系統性意義。Anthropic 的競爭者(Cursor、Windsurf、GitHub Copilot)都在同一個時間點面臨 agentic AI 的成本壓力。Anthropic 敢測試把 Claude Code 移出 $20 方案,是因為它知道需求夠強,定價有上移空間。這個測試的「失敗」(社群強烈反應導致回滾),不代表它不會再試——只代表它現在還不是時機,或方式需要調整。

原文來源:Anthropic tests how devs react to yanking Claude Code from Pro plan - The Register
原文來源:Is Claude Code going to cost $100/month? Probably not—it’s all very confusing - Simon Willison


Kiro 發布自主 agent 預覽版

AWS 的 agentic IDE Kiro 近期推出 Kiro Autonomous Agent 預覽版,開始向 Pro、Pro+、Power 訂閱者逐步開放。

Kiro 的定位從一開始就跟 Cursor、Claude Code 不同。Cursor 和 Claude Code 是「AI 輔助工程師」,你指揮 AI 做事。Kiro 的設計哲學更接近「AI 主導,工程師把關」——工程師定義 spec,AI 自己規劃任務、執行、驗證,工程師在關鍵節點確認。

Autonomous Agent 是這個哲學的極限版本:你給一個目標,agent 自己決定怎麼拆解、怎麼執行,完成後彙報結果。

同步更新的功能還有幾個:支援 Claude Sonnet 4.5(experimental)可以直接在 chat 框選用;spec 建立時可以把任務標為 optional,讓 agent 知道哪些是 must-have、哪些是 nice-to-have;chat 現在支援直接拖入 PDF、CSV、DOCX、Excel 作為 context。

從生態系格局來看,這個時間點很有意思。GitHub Copilot 在暫停新用戶註冊,Windsurf 剛被 Cognition 收購,Cursor 的定位是個人開發者。AWS 把 Kiro 推出 autonomous agent,是在說:「企業級的 agentic coding,我們才是最終答案。」

這個賭注成不成功,取決於 Kiro 能不能在「AI 自己跑」的可靠性上,比其他工具早幾個月達到企業可以接受的閾值。77% 的 agent 成功率對消費者工具可能夠用,對生產環境還差太遠。

原文來源:Introducing Kiro autonomous agent - Kiro Blog
原文來源:Kiro IDE Changelog


把今天幾條新聞串起來

Stanford AI Index 說 AI agent 的能力在一年內翻了將近四倍。GitHub Copilot 因為 agentic 使用量爆炸而停止新用戶註冊。Anthropic 試探把 Claude Code 移出 $20 方案。Kiro 推出自主 agent。

這幾件事之間有一條共同的線:基礎設施跑在商業模型前面。AI agent 的能力已經強到讓用戶每月消耗量暴增,但所有廠商的計費模型都還是 2024 年設計的。

固定月費制建立在「平均使用量可預測」的假設上。Agentic AI 打破了這個假設——一個用戶可以跑一個 agent session 然後消耗 100 個普通用戶的 token 量。計費模型遲早都要改,只是誰先改、誰被迫改,以及怎麼改不讓用戶跑掉,是現在這幾個月最重要的產品決策。

這不是技術問題,是商業模型在追趕技術的問題。而追趕通常很痛。