AI 與科技新聞摘要 - 2026/05/08
五個國家。
美國 NSA 和 CISA、英國 NCSC、澳洲 ASD、加拿大 CCCS、紐西蘭 NCSC——五眼聯盟的資安機關上週聯合發了一份文件,標題叫「Careful Adoption of Agentic AI Services」。翻成白話:你們企業裡面那些 AI agent,已經拿到太多權限了,而且大部分人根本不知道它們在幹嘛。
這不是研究報告,是安全指南。五個國家的情報機關聯手告訴你一件事——AI agent 已經在你的關鍵基礎設施裡面跑了,而你的防禦體系還沒跟上。
同一週,Cloudflare 在重新發明 LLM 怎麼跑、Cognizant 在賣 agent 的安全管理服務、Google 讓 Gemini 的 RAG 升級到多模態、Apache 的 HTTP/2 被挖出一個可以遠端執行程式碼的洞。加速跟破口,照例同步進行。
Five Eyes 聯合 Agentic AI 安全指南:你的 Agent 拿了多少權限?
五月一日發布,但真正被業界認真讀的是這幾天。
這份指南不是在講理論風險,是在描述現況。五眼聯盟的資安機構明確指出:基於大型語言模型的 AI agent——能規劃、能決策、能自主採取行動的那種——已經部署在關鍵基礎設施裡。多數組織給了它們遠超過安全監控能力的存取權限。
文件識別了五類風險。第一類是特權過度:agent 拿到太廣的權限,一旦被入侵,傷害範圍遠超傳統軟體漏洞。第二類是設計與配置缺陷,系統還沒上線就有安全缺口。第三類是行為風險——agent 用設計者從未預料的方式追求目標。第四類是結構性風險,互相連接的 agent 網路可以讓故障像骨牌一樣蔓延。第五類是問責性:agent 的決策過程難以檢視,產生的 log 難以解析,出事的時候你根本不知道是哪個環節壞的。
有意思的是指南的核心建議不是「發明新框架」,而是「把這些系統塞進你已有的資安框架裡」——零信任、縱深防禦、最小權限。換句話說,問題不在於 AI agent 需要全新的防禦方式,而在於大部分企業連對傳統軟體都沒做好的基本功,現在又多了一種更難管理的軟體要防。
這件事的下行很清楚:agent 的攻擊面跟傳統軟體完全不一樣。傳統軟體的入口是使用者輸入和 API,agent 的入口是它讀取的所有文字——包括網頁內容、郵件、文件。一個 prompt injection 就能劫持整個工作流程。五個國家聯合提醒你這件事,不是因為理論上有風險,是因為已經在發生了。
原文來源:CISA, US and International Partners Release Guide to Secure Adoption of Agentic AI — CISA
原文來源:US government, allies publish guidance on how to safely deploy AI agents — CyberScoop
原文來源:Careful Adoption of Agentic AI Services — NSA (PDF)
Cloudflare LLM 推論基礎設施:把模型拆成兩半跑
LLM 處理一個請求分兩個階段:prefill(讀完你的輸入、填滿 KV cache)和 decode(一個 token 一個 token 生成回應)。Prefill 吃算力,decode 吃記憶體。兩者對硬體的需求完全不同,卻一直被丟在同一台機器上跑。
Cloudflare 決定把它們拆開。
他們的新架構叫 disaggregated inference——prefill 和 decode 分別跑在不同的機器群組上,各自獨立擴展。搭配自研的 token-aware 負載均衡器,根據工作性質把請求導向對的硬體。結果是 P90 的首 token 延遲明顯下降,token 間延遲改善了三倍。
但真正讓工程師圈子嗡嗡響的是另一個東西:Unweight。
這是 Cloudflare Research 發布的無損壓縮技術。AI 模型的每個數值用 BF16 格式儲存,256 種可能的指數值裡,最常出現的 16 種就覆蓋了 99% 以上的權重。Unweight 把這個分佈特性拿來用——分離符號+尾數和指數,對指數做 Huffman 編碼,壓縮率達到 15-22%。
關鍵是「無損」兩個字。壓縮後的模型輸出跟原始模型 bit-exact 完全一樣。他們寫了自訂的 CUDA kernel,直接在 GPU 的 shared memory 裡解壓縮後餵進 tensor core,壓縮後的資料從頭到尾不會在主記憶體裡還原成原始大小。Llama-3.1-8B 省了大約 3GB VRAM。
逆向想一下:怎樣做 Cloudflare 一定會在 AI 推論市場失敗?答案是只做 edge inference 而不碰大模型。他們這次明確往「跑超大模型」的方向走,直接跟 AWS、Azure、GCP 搶 AI 推論的基礎設施生意。用全球 300 多個節點的 CDN 網路來分散式跑 LLM——如果成功,延遲優勢是雲端三巨頭很難複製的。如果失敗,那些分散在各地的 GPU 就變成很貴的暖氣。
原文來源:Cloudflare Builds High-Performance Infrastructure for Running LLMs — InfoQ
原文來源:Building the foundation for running extra-large language models — Cloudflare Blog
原文來源:Unweight: how we compressed an LLM 22% without sacrificing quality — Cloudflare Blog
這週的新聞有個共同底色:AI 的速度在加快,但治理的速度完全不成比例。五眼聯盟在寫安全指南,同一時間企業已經在部署 agent 了。
Cognizant Secure AI Services:Agent Sprawl 終於有人在管了
250 家以上的全球企業。這是 Cognizant 目前正在處理 AI 部署安全評估的客戶數量。
五月七日,Cognizant 發布了 Secure AI Services——一套專門針對 AI 和 agentic 系統的企業安全服務。不是賣產品,是賣服務。涵蓋 secure agent 開發生命週期(ADLC)、即時行為監控、身分驗證與存取管理、合規審計框架。
背景是什麼?去年 OutSystems 的調查數字:96% 的企業在跑 AI agent,94% 擔心失控,但只有 12% 有集中管理平台。Agent sprawl——AI agent 在企業內無序擴散——從去年的新名詞,變成今年所有 CISO 最頭痛的問題。
Cognizant 的切入點是三層架構。第一層是 ADLC,從設計、建置、測試、部署到變更的每個環節都嵌入安全防護。第二層是 Cognizant Neuro Cybersecurity,一個整合 AI 和企業安全訊號的統一控制平面,做威脅回應、關聯分析和稽核證據。第三層是 Responsible AI,透過 Cognizant Trust 提供可追溯性、政策執行和合規對齊。
有趣的是時機。五眼聯盟上週發了 agent 安全指南,Cognizant 這週就推出對應的商業服務。市場的節奏是:政府畫紅線 → 顧問公司賣解方。這不是巧合,是產業鏈。
但真正的問題是:agent 安全到底能不能被「服務化」?傳統的資安服務——滲透測試、合規稽核、事件回應——有明確的邊界。Agent 的安全邊界在哪裡?一個能自主決策、自主行動的軟體,它的攻擊面會隨著它拿到的權限動態變化。拿去年的框架套今年的問題,不一定套得上。
原文來源:Cognizant Launches Secure AI Services to Help Enterprises Safely Scale Agentic Systems — Cognizant
原文來源:Cognizant Launches Secure AI Services — PR Newswire
Gemini API 雙升級:多模態 File Search + 事件驅動 Webhooks
Google 這週對 Gemini API 做了兩個基礎設施級的更新,都不華麗,但都很實用。
第一個:File Search 升級到多模態。之前的 File Search 只搜文字,現在用 Gemini Embedding 2 同時處理圖片和文字。什麼意思?你可以對著 Gemini 說「找出跟這張 UI 錯誤截圖相關的操作手冊」,或者「找出風格跟這張廣告圖接近的歷史素材」。另外新增了自訂 metadata 和頁面層級的引用標記——RAG 應用終於不用只回傳「大概在這個文件裡」,而是可以指到具體哪一頁。
第二個:事件驅動 Webhooks。以前呼叫 Gemini 跑長時間任務(Deep Research、長影片生成、大規模 batch inference),你得自己寫 polling——每隔幾秒問一次「好了沒?好了沒?」。現在任務完成時 Gemini 會主動推通知到你指定的 URL。
聽起來很基本?確實。但「基本」不代表「不重要」。
Polling 是浪費。每一次「好了沒?」都是一次 API call、一次計費、一次延遲。在大規模部署裡,polling 的成本和複雜度會指數成長。Webhooks 把這整塊砍掉。對開發 agent 的團隊來說,這意味著 agent 可以發出一個長時間任務後去做別的事,等結果回來再繼續——非同步工作流程的基礎設施。
多模態 File Search 加上 Webhooks,拼在一起的畫面是:一個 agent 可以搜尋包含圖片和文字的知識庫、發出長時間分析任務、在結果回來時自動被觸發繼續工作。RAG + Agent 的 pipeline 從「手動拼接」變成「原生支援」。
原文來源:Gemini API File Search is now multimodal — Google Blog
原文來源:Google Adds Event-Driven Webhooks to the Gemini API — MarkTechPost
CVE-2026-23918:Apache HTTP/2 雙重釋放,數百萬伺服器暴露
CVSS 8.8。Apache HTTP Server 2.4.66 的 mod_http2 裡,一個雙重釋放(double-free)漏洞。
技術上的觸發方式很精確:攻擊者送一個 HTTP/2 HEADERS frame,立刻接一個帶非零錯誤碼的 RST_STREAM,在 multiplexer 註冊這個 stream 之前完成。結果是同一個 stream 被清理了兩次——記憶體壞了。
最容易達成的結果是 DoS。Worker process 直接 crash,幾乎不需要什麼技巧。
但 RCE 也是可行的。在使用 APR mmap allocator 的系統上——Debian 系列和官方 Docker image 預設都是——攻擊者可以利用雙重釋放在已釋放的記憶體位置注入假的 h2_stream 結構、把 pool cleanup 函數指標導向 system()、用 Apache scoreboard 的共享記憶體當 payload 容器。研究者已經展示了完整的利用鏈。
影響範圍有多大?Apache httpd 是全世界部署量最大的網頁伺服器之一。任何跑 2.4.66 且啟用 HTTP/2 的伺服器都在射程內。修補版本 2.4.67 在五月四日釋出。
時間線值得注意:漏洞的修補 commit 是去年十二月寫的,但公開的修補版本拖到五個月後的五月才發布。中間這段時間,修補程式碼在 Apache 的 SVN 上是公開可見的。任何人都可以 diff 出漏洞的精確位置,但用戶端沒有修補可裝。這不是零日——比零日還尷尬,是「修好了但不告訴你」。
如果你的伺服器還在跑 2.4.66,現在升級。如果無法立即升級,關掉 HTTP/2 是暫時的緩解措施。
原文來源:Critical Apache HTTP/2 Flaw (CVE-2026-23918) Enables DoS and Potential RCE — The Hacker News
原文來源:Apache fixes critical HTTP/2 double-free flaw CVE-2026-23918 enabling RCE — Security Affairs
原文來源:Critical Apache HTTP Server Flaw Exposes Millions of Servers to RCE Attacks — Cybersecurity News
這五條新聞放在一起看,浮現的 pattern 是一個治理斷層。
AI 的基礎設施在加速——Cloudflare 在重寫推論架構、Google 在升級 agent 的基礎元件、企業在大規模部署 agent。但治理的速度完全不在同一個量級。五眼聯盟才剛發出第一份 agent 安全指南。Cognizant 才剛開始把 agent 安全包裝成商業服務。Apache 的修補從寫完到發布花了五個月。
加速的好處很明確——更快的推論、更強的 RAG、更自主的 agent。下行呢?這些系統越自主,出事時的爆炸半徑就越大,而負責畫安全線的人永遠慢半拍。
不是說不該加速。是說你在踩油門的時候,至少確認煞車也裝好了。










