AI 與科技新聞摘要 - 2026/05/10
1,200 萬 tokens。
這是一個只有四個人的邁阿密新創宣稱可以在單次對話中處理的上下文長度。目前最大的公開模型——Gemini 3.1 Ultra——是 200 萬。1,200 萬是它的六倍。如果這個數字是真的,目前所有 LLM 的注意力機制都在浪費大量算力。如果是假的,那就是 2026 年最大膽的技術行銷。
同一週,OpenAI 做出了第一個能邊聽邊想的語音模型。Cursor 把 IDE 的輸出從純文字變成互動式 React 介面。全球最大銀行把 AI 從實驗預算搬進基礎設施預算。AWS 的 MCP Server 從 beta 進入正式 GA。
一個共同的訊號:AI 正在從「能做什麼」轉向「怎麼嵌進既有系統裡」。前者是技術問題,後者是組織問題。而組織問題,向來比技術問題難解得多。
Subquadratic:四個人、$2,900 萬、1,200 萬 token 的豪賭
五月五日,邁阿密新創 Subquadratic 公開亮相。$2,900 萬種子輪,$5 億估值,團隊只有四個人。CTO 是前 Meta 生成式 AI 負責人 Alex Whedon。
他們發布的東西叫 SubQ——一個基於全新架構 SSA(Subquadratic Selective Attention)的語言模型。標準 Transformer 的注意力機制是 O(n²)——上下文長度翻倍,計算量翻四倍。SSA 打破了這個限制,做到次二次方複雜度。
數字很驚人。在 100 萬 token 上下文長度時,SubQ 的推論速度比 FlashAttention 快 52 倍。成本大約是 Claude Opus 的五分之一。原生支援 1,200 萬 token 窗口,Q4 目標是 5,000 萬。
驚人到讓人懷疑。
VentureBeat 的報導標題用了「researchers demand independent proof」。研究社群的反應不是興奮,是觀望。原因很簡單:宣稱打破二次方瓶頸的論文不是沒出現過。Mamba、RWKV、RetNet 都嘗試過次二次方架構,但在長距離推理品質上始終無法完全取代 Transformer。SSA 的「selective」如何選擇哪些 token 需要完整注意力、哪些可以跳過,論文裡的細節還不夠充分。
逆向問一下:怎樣做 Subquadratic 一定會失敗?答案是——宣稱的性能數字無法在獨立評測中複現。在 AI 領域,benchmark 數字和實際使用之間的落差從來不小。$5 億估值買的不是一個已證明的技術,是一個可能改變整個產業的假設。如果假設成立,所有人都會轉向次二次方。如果不成立,$2,900 萬和四個人的時間就是學費。
不管結果如何,1,200 萬 token 的原生上下文窗口如果是真的,意味著什麼?意味著你可以把整個大型 codebase 塞進一次對話裡。不用 RAG,不用 chunking,不用 retrieval pipeline——直接全部放進去。那些因為上下文窗口限制而存在的整個工具鏈,瞬間變成多餘的。
原文來源:Subquadratic launches with $29M to bring 12M-token context windows to AI — SiliconANGLE
原文來源:Miami startup Subquadratic claims 1,000x AI efficiency gain — VentureBeat
語音 AI 一直有個尷尬的定位:聽得見,但聽不懂。GPT-Realtime-2 試圖改變這件事。
GPT-Realtime-2:第一個能邊聽邊想的語音模型
五月七日,OpenAI 一次發了三款即時語音模型。
GPT-Realtime-2 是主角——它是第一個具備 GPT-5 級推理能力的即時語音模型。不是「語音轉文字 → LLM 推理 → 文字轉語音」的串接管線,是原生在音訊層就能推理的端到端模型。上下文窗口從前代的 32K 擴展到 128K。
另外兩個是配角。GPT-Realtime-Translate 做即時翻譯——70 種以上的輸入語言轉成 13 種輸出語言,延遲低到可以用在即時通話裡。GPT-Realtime-Whisper 做串流語音轉文字,取代之前的非串流 Whisper API。
Zillow 是早期測試者之一,他們的數字很具體:用 GPT-Realtime-2 處理房地產諮詢電話,通話成功率從 69% 提升到 95%,足足多了 26 個百分點。
定價不便宜。音訊輸入 $32/M token,音訊輸出 $200/M token。不過 OpenAI 做了個聰明的設計:每一段音訊都會附帶對應的文字 transcript,你可以選擇在後續處理中用文字 token(便宜)取代音訊 token(貴),把成本壓下來。
這件事的上行很清楚。語音 AI 代理——客服、銷售、諮詢——從「能接電話」進化到「能想事情再接電話」。你打去問「我該買固定利率還是浮動利率的房貸?」,以前的語音 AI 只能複誦話術腳本。GPT-Realtime-2 可以根據你給的條件即時推算。
下行呢?推理能力加上即時語音,意味著這個模型可以在電話裡即興說謊,而且說得很自然。語音 deepfake 的門檻又降了一層。
原文來源:Advancing voice intelligence with new models in the API — OpenAI
原文來源:OpenAI has new voice models that reason, translate, and transcribe — 9to5Mac
Cursor 3.3:當你的 IDE 開始長出眼睛
五月七日,Cursor 發布 3.3 版本。三個新功能,但只有一個真正改變了遊戲。
Canvas。
以前你請 AI coding agent 做事,它的輸出是什麼?文字。Markdown、程式碼區塊、ASCII 圖表。不管你問的是「畫個架構圖」還是「做個表格比較這三個方案」,回來的都是文字。
Cursor 3.3 的 Canvas 讓 AI agent 可以建立互動式 React 元件作為輸出。agent 不再只是吐文字,它可以產生一個你能點擊、拖拉、互動的視覺介面。你問「比較這三個方案」,回來的不是 Markdown 表格,是一個有排序、有篩選、有高亮的互動表格。你問「畫個流程圖」,回來的是一個可以拖動節點的真實圖表。
另外兩個功能:平行代理加速方案執行(多個 agent 同時處理不同子任務),以及 Bugbot 學會從真實 PR 回饋中學習規則(你修了什麼 bug、怎麼修的,Bugbot 記下來,下次自動檢查類似問題)。
平行代理不稀奇——Claude Code 的 Agent Teams 已經做了。Bugbot 的學習能力更有意思,但需要時間驗證效果。Canvas 才是那個讓人停下來想的功能。
為什麼?因為 IDE 從發明到現在,輸出介面始終是文字。程式碼編輯器、終端機、log 視窗——全是文字。Canvas 第一次讓 IDE 的輸出層變成視覺化的。這不只是 UX 的改進,是認知介面的改變。人類處理視覺資訊的頻寬遠高於處理文字的頻寬。讓 agent 用視覺表達,等於解鎖了一個更寬的溝通通道。
全球最大銀行剛做了一個很安靜但很重大的決定。
JPMorgan Chase:AI 從實驗預算搬進基礎設施預算
這不是產品發布,不是融資消息,不是技術突破。這是一個會計分類的改變。但它可能比上面三條新聞加起來都重要。
JPMorgan Chase 正式將 AI 投資從「實驗性研發」重新歸類為「核心基礎設施」。
2026 年科技預算約 $198 億美元。2,000 名員工專職 AI 開發。AI 預計年產值 $25 億。這些數字本身不算新聞——大銀行砸錢在科技上不是第一天的事。
新聞是「分類」。
在企業會計裡,「實驗性研發」和「核心基礎設施」是兩種完全不同的預算邏輯。實驗性研發可以隨時砍——市場不好?砍。CEO 換人?砍。季度財報不好看?先砍再說。核心基礎設施不能砍。你不會因為季度不好就把伺服器關掉,不會因為 CEO 換人就把網路拆掉。
JPMorgan 把 AI 從前者搬到後者,意味著他們認為 AI 已經不是「可能有用的新東西」,而是「沒有不行的東西」。跟電力、網路、資料庫同一個等級。這個分類一旦確定,就很難逆轉——組織慣性會確保這筆預算持續存在。
反過來想:怎樣做一定會在 AI 投資上虧大錢?答案是把它永遠放在「實驗性」的分類裡。實驗可以失敗。基礎設施不行。當你把一個東西定義為基礎設施,你會用完全不同的標準來評估它——不是 ROI,是可靠性、可擴展性、合規性。
全球最大銀行做了這個決定。其他金融機構會跟。不是因為 AI 已經證明了 ROI——$25 億的預估年產值對 $198 億的科技預算來說不算特別亮眼。是因為在金融業,「別人已經做了而我沒做」的風險,比「我做了但效果不好」的風險更大。
原文來源:JPMorgan Chase Reclassifies AI Investments as Core Infrastructure — CNN Business
AWS MCP Server 正式 GA:MCP 從實驗走進生產環境
五月六日,AWS 宣布 AWS MCP Server 正式 GA(一般可用)。
GA 三個字看起來不性感,但它代表的承諾是:穩定性、向後相容、SLA、企業級支援。Beta 可以壞,GA 不行。AWS 把 GA 的戳記蓋上去,等於告訴企業客戶:「你可以在正式環境裡用這個東西了,出事我們負責。」
這個 MCP Server 讓 AI coding agent 透過一個統一的工具呼叫存取所有 AWS 服務。不是每個服務一個 MCP tool——是一個萬用工具,根據你的指令動態組裝 AWS API 呼叫。支援檔案上傳、長時間執行的操作、以及沙箱化的 Python 腳本執行。
從更大的圖來看,這是雲端三巨頭中第一個正式 GA 的 MCP Server。Google 有 Gemini 的 tool use,Microsoft 有 Copilot 的 plugins,但都還沒有走到「把整個雲端平台包成一個 MCP Server 給你用」這一步。AWS 先到了。
對開發者來說,這意味著你的 Claude Code(或任何支援 MCP 的 agent)現在可以直接操作 AWS——開 EC2、查 CloudWatch、跑 Lambda、讀 S3——不需要寫任何膠水程式碼。agent 說「幫我看一下 production 的 CPU 使用率」,MCP Server 直接去 CloudWatch 拿數據回來。
整合的摩擦越低,agent 的行動能力就越強。這是好事,也是風險。一個能操作整個 AWS 帳戶的 agent,它的爆炸半徑跟傳統的 CLI 工具完全不在同一個量級。AWS 在 GA 公告裡強調了 IAM 整合和稽核日誌——聰明的做法,但最終還是取決於使用者怎麼設定權限。
五條新聞,一條暗線。
Subquadratic 想用次二次方注意力重寫 LLM 的成本方程式。OpenAI 想讓語音 AI 從複誦進化到推理。Cursor 想讓 IDE 從文字介面變成視覺介面。JPMorgan 想把 AI 嵌進組織的骨架裡。AWS 想把整個雲端變成 agent 的工具箱。
表面上看,五個不同的方向。底下呢?同一個趨勢:AI 正在被嵌入既有系統的結構裡——不是當作附加功能,而是當作基礎設施。次二次方注意力讓長上下文變成預設而非奢侈品。即時語音推理讓 AI agent 能直接取代電話線另一端的人類。Canvas 讓 agent 的輸出能被人類用視覺直覺理解。會計分類的改變讓 AI 預算變成砍不掉的固定支出。MCP GA 讓 agent 能直接操作雲端基礎設施。
每一步都在降低摩擦。每一步降低的摩擦,都在擴大 agent 的行動半徑。而行動半徑越大,出事時的爆炸半徑也越大。
這不是要你害怕。是要你在享受摩擦降低帶來的效率提升時,確認安全機制也跟著擴展了。因為基礎設施的特性就是——等你發現它壞了的時候,通常已經來不及修了。









