Mistral 丟出一個 4B 參數的語音模型,聲稱打贏 ElevenLabs。Apple 花十億美金一年跟 Google 買 Gemini 來拯救 Siri。MCP 月下載量衝到 9,700 萬次,OpenAI 也正式宣布支援。Anthropic 三月交出了 14+ 發佈 + 5 次斷線的瘋狂成績單。ChatGPT 被發現有 prompt injection 可以偷走整串對話。


1. Mistral Voxtral TTS — 4B 參數的開源語音模型,宣稱打贏 ElevenLabs

3 月 26 日,Mistral 發佈了 Voxtral TTS——一個 4B 參數的開源文字轉語音模型。這是 Mistral 第一次踏進語音領域,而且一出手就放話:人類評測的自然度比 ElevenLabs Flash v2.5 更好,跟 ElevenLabs v3 持平。

數字層面:70ms 模型延遲(10 秒語音 + 500 字輸入的條件下),支援零樣本和少樣本語音克隆,最少只要 3 秒的參考音檔。九種語言:英、法、德、西、荷、葡、義、印地、阿拉伯。

真正的殺手鐧不是效能——是授權模式。ElevenLabs、Play.ht、這些 TTS 公司全部都是 API-first、你的語音資料得過他們的伺服器。Voxtral 直接把模型權重丟出來(Hugging Face,CC BY NC 4.0),企業可以下載回去自己跑,一個音檔都不用傳到外面。

對於在意資料主權的企業來說,這是第一個夠格的選項。不過 CC BY NC 4.0 代表商用需要另外談授權——免費的只有非商用。

原文來源:Speaking of Voxtral - Mistral AI
原文來源:Mistral AI just released a text-to-speech model it says beats ElevenLabs - VentureBeat


2. Apple 花十億美金一年買 Google Gemini 來重造 Siri

Apple 的 Project Campos 細節越來越多了。Bloomberg 和多家媒體報導:Apple 跟 Google 簽了多年合約,每年約 10 億美金,用 Gemini 1.2T 參數模型來驅動全新的 Siri。預計 WWDC 2026(6 月 8 日)正式亮相,隨 iOS 26.4 上線。

新 Siri 跟現在的差距不是「升級」,是「換了一個東西」。三個核心能力:螢幕感知(即時讀取你螢幕上的內容)、對話記憶(記住之前的上下文和個人偏好)、跨 App 代理(自動在第三方 App 裡完成多步驟任務)。

欸但是,Apple 把 Siri 的 AI 大腦外包給 Google,這件事本身就夠弔詭了。Apple 一直強調 on-device AI 和隱私,結果最核心的語音助理用的是 Google 的雲端模型?Apple 說會透過 Private Cloud Compute 處理,但「十億美金一年付給 Google」這個事實,怎麼看都不像是隱私優先的公司會做的決定。

原文來源:Apple Outsources Siri to Google Gemini in $1B AI Deal
原文來源:Apple Readies Introduction of AI Agent-Like Siri - PYMNTS


3. MCP 月下載量衝破 9,700 萬 + Spec v2 上線

三月是 MCP 的里程碑月。SDK 月下載量從 2024 年 11 月的 10 萬次,到現在的 9,700 萬次——16 個月成長了 4,750%。

3 月 26 日,MCP 規格第二版正式發佈。兩個重點更新:Streamable HTTP transport(取代原本的 SSE,更適合 production 環境的雙向通訊)和完整的 OAuth 2.1 授權框架(企業終於不用再自己 hack 認證了)。

同一天,OpenAI CEO Sam Altman 宣布全面支援 MCP:Agents SDK 已經可以用了,ChatGPT Desktop 和 Responses API 的支援即將到來。Altman 原話:「People love MCP and we are excited to add support across our products.」

Anthropic 發明了 MCP,現在連最大的競爭對手都正式擁抱了。協定層級的標準化戰爭基本上結束——剩下的問題是治理和安全,不是「要不要用」。

原文來源:Anthropic’s madcap March: 14+ launches, 5 outages, and an accidental Claude Mythos leak - The New Stack
原文來源:MCP’s biggest growing pains for production use will soon be solved - The New Stack


4. Anthropic 三月成績單:14+ 發佈、5 次斷線、用量上限縮緊

The New Stack 做了一篇 Anthropic 三月總回顧,數字很直觀:14 次以上的產品發佈,5 次服務中斷。

發佈清單隨便列幾個:Claude Code 上了 web 和 mobile、Computer Use 在 3 月 23 日進入研究預覽(Claude 可以操控你的 Mac 螢幕——打開 App、點擊、打字)、離峰時段用量上限翻倍(3/13-3/28 促銷活動)。

斷線的部分:3 月 2 日大規模中斷影響登入和 claude.ai、3 月 11 日 elevated errors、3 月 25 日和 27 日部分中斷。尤其 3 月 27 日那次,Opus 4.6 和 Sonnet 4.6 受影響最大。

背後的原因不難猜。OpenAI 的五角大廈合約引發用戶抵制潮,大量用戶湧向 Claude,付費訂閱數在 2026 年翻了超過一倍。Anthropic 的回應是:尖峰時段(東岸 8am-2pm)縮緊用量上限,離峰時段補償性翻倍。

一句話總結這個月:產品跑太快,基礎設施追不上。這不是 reliability 問題,是 growth 問題。

原文來源:Anthropic’s madcap March: 14+ launches, 5 outages - The New Stack
原文來源:Claude Users Hit a New Reality of AI Rationing - PYMNTS
原文來源:Anthropic tweaks Claude usage limits to manage capacity - The Register


5. ChatGPT Prompt Injection 漏洞 — 一句話偷走整段對話

資安公司發現 ChatGPT 存在一個 prompt injection 漏洞:攻擊者只要在對話中插入一段精心設計的 prompt,就能把用戶的訊息、上傳的檔案、甚至整個對話內容透過隱蔽的 channel 外傳。

OpenAI 在 2 月 20 日修補了這個漏洞,聲明沒有證據顯示它曾被惡意利用。技術細節沒有完全公開,但攻擊向量的核心是:透過 prompt 讓模型在回應中嵌入外部請求(比如一個帶有對話內容的 URL),藉此實現資料外洩。

這類攻擊不是第一次出現在 LLM 上。間接 prompt injection——透過上傳的檔案或網頁內容注入惡意指令——一直是 AI 安全研究者最擔心的攻擊面之一。上週 WEF 報告裡那個「73% 部署 vs 7% 治理」的數字,放在這個語境下更扎眼了。

工具越強大,攻擊面越大。在 AI Agent 可以讀資料、執行操作、甚至操控你電腦螢幕的時代,一個 prompt injection 的後果不再只是「模型說了不該說的話」——而是可能直接造成資料外洩和財務損失。

原文來源:ChatGPT prompt injection vulnerability discovered - The Hacker News
原文來源:How AI Is Changing The Future Of Cybersecurity in 2026 - Dataconomy


三月的最後一天,回頭看整個月的 AI 圈:Mistral 從語言跨到語音、Apple 花十億找 Google 救 Siri、MCP 變成了事實標準、Anthropic 用斷線的方式證明自己有多受歡迎、ChatGPT 的安全漏洞再次提醒我們跑得快不代表跑得穩。Q1 結束了,Q2 只會更瘋。