AI 與科技新聞摘要 - 2026/05/08

五個國家。

美國 NSA 和 CISA、英國 NCSC、澳洲 ASD、加拿大 CCCS、紐西蘭 NCSC——五眼聯盟的資安機關上週聯合發了一份文件，標題叫「Careful Adoption of Agentic AI Services」。翻成白話：你們企業裡面那些 AI agent，已經拿到太多權限了，而且大部分人根本不知道它們在幹嘛。

這不是研究報告，是安全指南。五個國家的情報機關聯手告訴你一件事——AI agent 已經在你的關鍵基礎設施裡面跑了，而你的防禦體系還沒跟上。

同一週，Cloudflare 在重新發明 LLM 怎麼跑、Cognizant 在賣 agent 的安全管理服務、Google 讓 Gemini 的 RAG 升級到多模態、Apache 的 HTTP/2 被挖出一個可以遠端執行程式碼的洞。加速跟破口，照例同步進行。

Five Eyes 聯合 Agentic AI 安全指南：你的 Agent 拿了多少權限？

五月一日發布，但真正被業界認真讀的是這幾天。

這份指南不是在講理論風險，是在描述現況。五眼聯盟的資安機構明確指出：基於大型語言模型的 AI agent——能規劃、能決策、能自主採取行動的那種——已經部署在關鍵基礎設施裡。多數組織給了它們遠超過安全監控能力的存取權限。

文件識別了五類風險。第一類是特權過度：agent 拿到太廣的權限，一旦被入侵，傷害範圍遠超傳統軟體漏洞。第二類是設計與配置缺陷，系統還沒上線就有安全缺口。第三類是行為風險——agent 用設計者從未預料的方式追求目標。第四類是結構性風險，互相連接的 agent 網路可以讓故障像骨牌一樣蔓延。第五類是問責性：agent 的決策過程難以檢視，產生的 log 難以解析，出事的時候你根本不知道是哪個環節壞的。

有意思的是指南的核心建議不是「發明新框架」，而是「把這些系統塞進你已有的資安框架裡」——零信任、縱深防禦、最小權限。換句話說，問題不在於 AI agent 需要全新的防禦方式，而在於大部分企業連對傳統軟體都沒做好的基本功，現在又多了一種更難管理的軟體要防。

這件事的下行很清楚：agent 的攻擊面跟傳統軟體完全不一樣。傳統軟體的入口是使用者輸入和 API，agent 的入口是它讀取的所有文字——包括網頁內容、郵件、文件。一個 prompt injection 就能劫持整個工作流程。五個國家聯合提醒你這件事，不是因為理論上有風險，是因為已經在發生了。

原文來源：CISA, US and International Partners Release Guide to Secure Adoption of Agentic AI — CISA
原文來源：US government, allies publish guidance on how to safely deploy AI agents — CyberScoop
原文來源：Careful Adoption of Agentic AI Services — NSA (PDF)

Cloudflare LLM 推論基礎設施：把模型拆成兩半跑

LLM 處理一個請求分兩個階段：prefill（讀完你的輸入、填滿 KV cache）和 decode（一個 token 一個 token 生成回應）。Prefill 吃算力，decode 吃記憶體。兩者對硬體的需求完全不同，卻一直被丟在同一台機器上跑。

Cloudflare 決定把它們拆開。

他們的新架構叫 disaggregated inference——prefill 和 decode 分別跑在不同的機器群組上，各自獨立擴展。搭配自研的 token-aware 負載均衡器，根據工作性質把請求導向對的硬體。結果是 P90 的首 token 延遲明顯下降，token 間延遲改善了三倍。

但真正讓工程師圈子嗡嗡響的是另一個東西：Unweight。

這是 Cloudflare Research 發布的無損壓縮技術。AI 模型的每個數值用 BF16 格式儲存，256 種可能的指數值裡，最常出現的 16 種就覆蓋了 99% 以上的權重。Unweight 把這個分佈特性拿來用——分離符號+尾數和指數，對指數做 Huffman 編碼，壓縮率達到 15-22%。

關鍵是「無損」兩個字。壓縮後的模型輸出跟原始模型 bit-exact 完全一樣。他們寫了自訂的 CUDA kernel，直接在 GPU 的 shared memory 裡解壓縮後餵進 tensor core，壓縮後的資料從頭到尾不會在主記憶體裡還原成原始大小。Llama-3.1-8B 省了大約 3GB VRAM。

逆向想一下：怎樣做 Cloudflare 一定會在 AI 推論市場失敗？答案是只做 edge inference 而不碰大模型。他們這次明確往「跑超大模型」的方向走，直接跟 AWS、Azure、GCP 搶 AI 推論的基礎設施生意。用全球 300 多個節點的 CDN 網路來分散式跑 LLM——如果成功，延遲優勢是雲端三巨頭很難複製的。如果失敗，那些分散在各地的 GPU 就變成很貴的暖氣。

原文來源：Cloudflare Builds High-Performance Infrastructure for Running LLMs — InfoQ
原文來源：Building the foundation for running extra-large language models — Cloudflare Blog
原文來源：Unweight: how we compressed an LLM 22% without sacrificing quality — Cloudflare Blog

這週的新聞有個共同底色：AI 的速度在加快，但治理的速度完全不成比例。五眼聯盟在寫安全指南，同一時間企業已經在部署 agent 了。

Cognizant Secure AI Services：Agent Sprawl 終於有人在管了

250 家以上的全球企業。這是 Cognizant 目前正在處理 AI 部署安全評估的客戶數量。

五月七日，Cognizant 發布了 Secure AI Services——一套專門針對 AI 和 agentic 系統的企業安全服務。不是賣產品，是賣服務。涵蓋 secure agent 開發生命週期（ADLC）、即時行為監控、身分驗證與存取管理、合規審計框架。

背景是什麼？去年 OutSystems 的調查數字：96% 的企業在跑 AI agent，94% 擔心失控，但只有 12% 有集中管理平台。Agent sprawl——AI agent 在企業內無序擴散——從去年的新名詞，變成今年所有 CISO 最頭痛的問題。

Cognizant 的切入點是三層架構。第一層是 ADLC，從設計、建置、測試、部署到變更的每個環節都嵌入安全防護。第二層是 Cognizant Neuro Cybersecurity，一個整合 AI 和企業安全訊號的統一控制平面，做威脅回應、關聯分析和稽核證據。第三層是 Responsible AI，透過 Cognizant Trust 提供可追溯性、政策執行和合規對齊。

有趣的是時機。五眼聯盟上週發了 agent 安全指南，Cognizant 這週就推出對應的商業服務。市場的節奏是：政府畫紅線 → 顧問公司賣解方。這不是巧合，是產業鏈。

但真正的問題是：agent 安全到底能不能被「服務化」？傳統的資安服務——滲透測試、合規稽核、事件回應——有明確的邊界。Agent 的安全邊界在哪裡？一個能自主決策、自主行動的軟體，它的攻擊面會隨著它拿到的權限動態變化。拿去年的框架套今年的問題，不一定套得上。

原文來源：Cognizant Launches Secure AI Services to Help Enterprises Safely Scale Agentic Systems — Cognizant
原文來源：Cognizant Launches Secure AI Services — PR Newswire

Gemini API 雙升級：多模態 File Search + 事件驅動 Webhooks

Google 這週對 Gemini API 做了兩個基礎設施級的更新，都不華麗，但都很實用。

第一個：File Search 升級到多模態。之前的 File Search 只搜文字，現在用 Gemini Embedding 2 同時處理圖片和文字。什麼意思？你可以對著 Gemini 說「找出跟這張 UI 錯誤截圖相關的操作手冊」，或者「找出風格跟這張廣告圖接近的歷史素材」。另外新增了自訂 metadata 和頁面層級的引用標記——RAG 應用終於不用只回傳「大概在這個文件裡」，而是可以指到具體哪一頁。

第二個：事件驅動 Webhooks。以前呼叫 Gemini 跑長時間任務（Deep Research、長影片生成、大規模 batch inference），你得自己寫 polling——每隔幾秒問一次「好了沒？好了沒？」。現在任務完成時 Gemini 會主動推通知到你指定的 URL。

聽起來很基本？確實。但「基本」不代表「不重要」。

Polling 是浪費。每一次「好了沒？」都是一次 API call、一次計費、一次延遲。在大規模部署裡，polling 的成本和複雜度會指數成長。Webhooks 把這整塊砍掉。對開發 agent 的團隊來說，這意味著 agent 可以發出一個長時間任務後去做別的事，等結果回來再繼續——非同步工作流程的基礎設施。

多模態 File Search 加上 Webhooks，拼在一起的畫面是：一個 agent 可以搜尋包含圖片和文字的知識庫、發出長時間分析任務、在結果回來時自動被觸發繼續工作。RAG + Agent 的 pipeline 從「手動拼接」變成「原生支援」。

原文來源：Gemini API File Search is now multimodal — Google Blog
原文來源：Google Adds Event-Driven Webhooks to the Gemini API — MarkTechPost

CVE-2026-23918：Apache HTTP/2 雙重釋放，數百萬伺服器暴露

CVSS 8.8。Apache HTTP Server 2.4.66 的 mod_http2 裡，一個雙重釋放（double-free）漏洞。

技術上的觸發方式很精確：攻擊者送一個 HTTP/2 HEADERS frame，立刻接一個帶非零錯誤碼的 RST_STREAM，在 multiplexer 註冊這個 stream 之前完成。結果是同一個 stream 被清理了兩次——記憶體壞了。

最容易達成的結果是 DoS。Worker process 直接 crash，幾乎不需要什麼技巧。

但 RCE 也是可行的。在使用 APR mmap allocator 的系統上——Debian 系列和官方 Docker image 預設都是——攻擊者可以利用雙重釋放在已釋放的記憶體位置注入假的 h2_stream 結構、把 pool cleanup 函數指標導向 system()、用 Apache scoreboard 的共享記憶體當 payload 容器。研究者已經展示了完整的利用鏈。

影響範圍有多大？Apache httpd 是全世界部署量最大的網頁伺服器之一。任何跑 2.4.66 且啟用 HTTP/2 的伺服器都在射程內。修補版本 2.4.67 在五月四日釋出。

時間線值得注意：漏洞的修補 commit 是去年十二月寫的，但公開的修補版本拖到五個月後的五月才發布。中間這段時間，修補程式碼在 Apache 的 SVN 上是公開可見的。任何人都可以 diff 出漏洞的精確位置，但用戶端沒有修補可裝。這不是零日——比零日還尷尬，是「修好了但不告訴你」。

如果你的伺服器還在跑 2.4.66，現在升級。如果無法立即升級，關掉 HTTP/2 是暫時的緩解措施。

原文來源：Critical Apache HTTP/2 Flaw (CVE-2026-23918) Enables DoS and Potential RCE — The Hacker News
原文來源：Apache fixes critical HTTP/2 double-free flaw CVE-2026-23918 enabling RCE — Security Affairs
原文來源：Critical Apache HTTP Server Flaw Exposes Millions of Servers to RCE Attacks — Cybersecurity News

這五條新聞放在一起看，浮現的 pattern 是一個治理斷層。

AI 的基礎設施在加速——Cloudflare 在重寫推論架構、Google 在升級 agent 的基礎元件、企業在大規模部署 agent。但治理的速度完全不在同一個量級。五眼聯盟才剛發出第一份 agent 安全指南。Cognizant 才剛開始把 agent 安全包裝成商業服務。Apache 的修補從寫完到發布花了五個月。

加速的好處很明確——更快的推論、更強的 RAG、更自主的 agent。下行呢？這些系統越自主，出事時的爆炸半徑就越大，而負責畫安全線的人永遠慢半拍。

不是說不該加速。是說你在踩油門的時候，至少確認煞車也裝好了。