系列精選
查看全部Claude Code MCP Tool Search 完整教學 — 工具太多塞爆 context 怎麼辦
你接了五個 MCP server——GitHub、Slack、Sentry、Grafana、Splunk——打開 Claude Code,一個字都還沒輸入,context 已經被吃掉三分之一。 先別急著問怎麼修。先搞清楚一件更基本的事:那三分之一,到底是被什麼東西佔走的?把這個搞懂,後面的解法你會覺得理所當然,甚至能自己想到。 那些 token 是被「說明書」吃掉的當你給 Claude 接上一個工具,Claude 並不是「知道有這個工具存在」就好。它必須拿到那個工具的完整使用說明書,才能正確呼叫它。這份說明書包含三樣東西:工具的名字、一段描述它能幹嘛的文字、還有最佔空間的——完整的參數結構(JSON schema),每個參數叫什麼、是什麼型別、必填還是選填、有什麼限制,全部都要寫清楚。 一個工具的說明書,可能就是幾百到上千個 token。而一個典型的多 server 設定,大概 58 個工具,全部說明書加起來大約 55,000 token。有人實測接到一定數量後,光是這些定義就吃掉 66,000 token。對一個 200K context 的模型來說,你還沒開始工作,工作記憶就...
AI 與科技新聞摘要 20260601
這陣子的新聞有個藏得很好的共通點:所有「往上」的數字背後,都有一筆沒被算進去的「往下」。能力往上、估值往上、自動化程度往上——而對應的風險沒有消失,只是被塞進了「預設信任」「私募估值」這些看起來很穩的容器裡。下面五則,可以順著這條線看。 一、TrustFall:一個 Enter 鍵,打穿四個 AI coding 工具資安研究機構 Adversa.AI 公開了一個叫 TrustFall 的漏洞,一次命中 Claude Code、Cursor CLI、Gemini CLI、GitHub Copilot CLI 四個工具。攻擊路徑簡單到令人不安:把惡意 repo 放上 GitHub,裡面塞兩個 JSON 檔(.mcp.json 和 .claude/settings.json),受害者 clone 下來、在「Is this a project you trust?」那個信任視窗按下預設的「Yes」,攻擊者控制的 MCP server 就帶著開發者的完整權限被自動執行——一鍵變後門。 值得停下來看的是 Anthropic 的回應:他們審查後把這份報告判為「在威脅模型之外」,理由是按下「我信...
Cua — 讓 AI 用任何模型操控電腦的開源基礎設施
讓 AI 用電腦,最難的部分其實不是 AI。 這句話聽起來怪,因為過去兩年所有人的注意力都在模型上——它看不看得懂截圖、推不推得出下一步該點哪。但這件事其實早就解掉了。現在隨便一個支援 computer-use 的 LLM,給它一張螢幕截圖,它就能告訴你「滑鼠移到座標 (840, 312) 按一下,然後輸入這串字」。看畫面、理解、輸出操作指令,這條鏈路已經是商品。真正讓你做不出一個能用的桌面 Agent 的,是螢幕背後那台電腦。 虛擬機誰來開?開好之後螢幕截圖怎麼抓出來?模型吐回來的「點 (840, 312)」這個滑鼠事件,要怎麼真的注入到那台機器裡?Linux、macOS、Windows、Android 各自一套 API,差異怎麼抹平?最要命的是——Agent 在那邊亂點的時候,怎麼確定它不會把你正在用的這台筆電給搞爛? 這些全部都不是模型問題。是基礎設施問題。而 Cua(Computer-Use Agent,15.5K stars,MIT 授權)做的事,就是把這一整層包起來。 模型是可替換零件,環境才是地基先把這件事講透,因為它是理解 Cua 為什麼長這樣的關鍵。 你可以把整...
工程師為什麼特別難睡 — 拆解那個被你怪錯的元兇
凌晨一點,你終於闔上筆電躺上床。身體很累,累到骨頭裡。但眼睛一閉,腦袋自己就跑了起來——剛才那個 bug 的修法到底對不對、那段 function 是不是還有 edge case 沒處理、明天 standup 要怎麼講。你越想叫它停,它跑得越起勁。 你不是沒試過解這個問題。你查過資料,知道「藍光害睡眠」,於是你配了防藍光眼鏡、把手機開了夜覽模式、螢幕調成暖黃色。結果呢?該睡不著還是睡不著。你又試了早點躺,十一點就上床,結果只是換成在床上多清醒一個小時,盯著天花板。 兩招都試了,兩招都沒用。那問題到底出在哪? 先抓對病因:藍光大概是被你冤枉的這裡要講一個會顛覆你直覺的事。你花錢花力氣對付的藍光,可能從頭到尾就不是主嫌。 最新的研究結果其實蠻打臉的:螢幕光線最多只會讓你的入睡時間延後大約 9 分鐘,而且手機、筆電、平板釋放的藍光量,遠遠低於白天的太陽光——你大白天在太陽底下走半小時都沒事,晚上對著一個亮度低幾百倍的螢幕,光本身能造成的傷害其實有限。 那為什麼大家都在罵藍光?因為它好懂、好怪、好賣東西。「藍光」是個聽起來很科學的詞,配一副眼鏡就能解決,多療癒。但這就掉進一個典型的陷阱:...
AI 與科技新聞摘要 2026/05/31 — 一邊往中心擠,一邊往邊緣逃
問你一個問題:AI 這場局,到底是會收斂到少數幾家手裡,還是會散開到每個人桌上?這週的新聞很有意思,因為它同時給了你兩個方向相反的答案。一邊有人在把權力、資本、算力往中心擠;另一邊有人在用更小、更省、更本地的東西,把同樣的能力往邊緣推。把這幾條擺在一起看,會比單看任何一條都清楚。 一、SubQ 用非 Transformer 架構,把 context 撐到 1,200 萬 token新創公司 Subquadratic 推出了 SubQ 1M-Preview,這是 Transformer 架構這幾年第一個像樣的商業挑戰者。它繞開了標準注意力機制那個要命的「平方級成本」——序列越長,計算量是平方倍往上飆——改用稀疏注意力,原生支援 1,200 萬 token 的 context,在大規模長文本場景下注意力快上 52 倍,成本大約只要現有頂尖模型的五分之一。 技術細節先放一邊,值得停下來想的是它戳到的那個點。過去這幾年,整個產業幾乎把全部賭注押在同一個架構上——Transformer 好用,所有人就一起往那個方向堆資源、堆參數、堆算力。但越多人押在同一個東西上,那個東西一旦撞到天花板,連...
n8n-workflows — 4,343 個範本背後,真正值錢的是被重寫的那套搜尋引擎
先講這個專案最早是怎麼做的,因為那個「之前的版本」才是重點。 作者想做的事很單純:把網路上能找到的 n8n 自動化範本全蒐集起來,配個介面讓人搜尋、瀏覽、下載。第一版的做法非常工程師——一堆 workflow 的 JSON 檔丟進一個資料夾,再用 Python 內建的 http.server 隨手搭一個原始的 HTML 索引頁,能看就好。檔案三五十個的時候,這樣完全沒問題,跑起來還挺爽的。 然後範本越收越多,收到四千多個。整套就垮了。 舊做法:每次都把整座圖書館翻一遍垮在哪?垮在它的瀏覽方式,是每次有人打開頁面,就把資料夾裡所有 JSON 掃過一輪、現場解析、現場組頁面。三十個檔案掃一輪你沒感覺,四千三百個檔案掃一輪,頁面就卡在那裡轉圈圈,記憶體被吃光,而且這種「現掃現組」的架構,根本做不出真正的全文搜尋——你沒辦法一邊掃檔案一邊還要比對關鍵字、排相關性。 打個比方你就懂了。這就像你每次想在圖書館找一本書,館員不是去翻目錄,而是從第一個書架開始,一本一本抽出來看書名,看是不是你要的。書少的小書房這樣找沒事,真正的圖書館要是這樣運作,你會等到天荒地老。 問題的根,不在程式碼寫得好不...
在家自己沖咖啡到底划不划算 — 一個工程師的器材投資判準
先回答一個你可能從來沒算過的數字:一年,你在咖啡上花掉多少錢? 一天一杯超商中杯,抓 45 塊,乘上 250 個工作天,是一萬一千多。要是你習慣喝外帶手沖、一杯破百,或一天兩杯,數字直接翻到兩三萬。這還只是咖啡本身,沒算你為了買那杯咖啡走出去、排隊、回來的那十五分鐘——對一個時間被切成番茄鐘的工程師來說,那十五分鐘有時比那 45 塊還貴。 所以「要不要自己在家沖」這個問題,值得認真算一次。但在你手滑下單一台咖啡機之前,先回答我一個問題——這個問題的答案,決定了下面的內容你該不該往下讀。 你一天到底喝幾杯?這是唯一真正重要的判準。不是哪台機器評價高,不是哪種豆子潮,是你的「頻率」。 如果你一週只喝個兩三杯,而且還很看心情,那我直接講結論:別買器材,繼續外帶。原因等一下說。如果你是那種每天至少一杯、雷打不動,週末在家還會想再來一杯的人——好,這篇剩下的內容是寫給你的。 為什麼頻率是分水嶺?因為所有器材都是一筆「先付出去、之後慢慢攤回來」的投資。你今天花 999 買一支摩卡壺,這 999 要靠「每一杯比外面省下來的差價」一杯一杯還回來。一天喝一杯的人,可能兩三個月就回本,之後天天賺;一...
AI 與科技新聞摘要 2026/05/30 — 同一隻手,一邊造矛一邊鑄盾
這個產業正在用同一隻手,一邊磨利矛,一邊趕著鑄盾。把這週的幾條新聞排在一起,你會發現它們其實是同一件事的正反兩面:模型的攻擊能力被推得越快,整個生態就越急著補那道還沒蓋好的防線。 一、Claude Opus 4.8 上線,Mythos 帶著「會自己串漏洞」的能力逼近Anthropic 這週把旗艦模型升到 Claude Opus 4.8,官方說它在代理式編碼、財務分析、電腦操作這幾項 benchmark 上壓過 GPT-5.5 跟 Gemini 3.1 Pro,而且更「誠實」——會主動標出自己不確定的地方,少編沒根據的東西。一個模型把「願意承認不知道」當賣點來講,本身就說明了過去這一年大家被幻覺坑得有多慘。 真正讓人坐直的是後面那句:Mythos 級的模型「未來幾週」就會對所有客戶開放。Mythos 的特點是它的編碼與資安能力強到一個程度——能在現有軟體裡找出漏洞,還能把這些漏洞串起來,組成一套像樣的攻擊鏈。 這就是下行很大、上行有限的那種東西。一個能自己找漏洞、自己串攻擊鏈的模型,放對手裡跟放自己手裡,威力是對稱的,但傷害不是。防守方要顧好每一個洞,攻擊方只要找到一個。能力對稱、...
GBrain — 不丟連結給你、直接合成答案的開源 AI 第二大腦
先別管它能拿來做什麼。先看你丟一段筆記進去的那一刻,它背地裡做了哪件事。 你寫了一行字進去:「Alice 在 Acme 當 CTO,這家是 Sequoia 投的。」一般的筆記工具到這裡就結束了——它存下這串文字,等你哪天搜尋「Alice」再把這行吐回來。GBrain 不一樣。在你按下儲存的同一瞬間,它把這句話拆成三個節點(Alice、Acme、Sequoia)跟兩條有型別的關係線(Alice works_at Acme、Sequoia invested_in Acme),接到它腦袋裡那張一直在長大的網上。下次你問「Alice 背後有哪些投資人」,它不用再去翻那行字——它沿著線走兩步就到了。 關鍵在這裡:這一步抽節點、連關係,完全沒呼叫任何大模型。 純 regex 加一組啟發式規則做掉的。零 token、零成本、零延遲。 你以為讓檢索變強的是模型,其實不是這就是整顆大腦最反直覺的地方,也是我覺得最值得抄走的設計判斷。 2026 年的反射動作是這樣的:檢索不夠準?換更大的 embedding。答案不夠好?接更貴的模型。什麼問題都先想「丟給 LLM」。GBrain 的 benchmar...
Claude Code Dynamic Workflows 完整教學 — 讓 AI 自己寫腳本,在背景指揮上百個分身
把時間倒回去看,會比較容易看懂這次的改變到底大在哪。 一年多前,你想讓 AI 同時幫你做好幾件事,唯一的辦法是當人肉排程器。開三個終端機視窗,第一個叫它改 API、第二個叫它寫測試、第三個讓它跑 lint,然後你的眼睛在三個視窗之間跳來跳去,誰卡住了你補一句、誰跑完了你接著派下一個。AI 在做事,但調度它的是你,而且你一次只能盯住有限的幾個。 後來 subagent 出現,往前走了一步。Claude 開始能自己派分身去處理子任務,你不用再手動開視窗了。但這裡藏了一個很多人沒注意到的代價:每一個 subagent 做完事,它的中間結果都會回流到 Claude 主對話的 context window 裡。十個分身回來十份半成品,全堆在同一張桌子上,你寶貴的 context 就這樣被一堆「過程」吃掉,留給「真正在想的事」的空間越來越小。而且決定下一個該派誰,還是 Claude 在對話裡一輪一輪臨場判斷——它本質上還是個工頭,只是工頭從你變成了它。 到了四月的 Agent Teams,規模又上一個量級——16 個 Claude 實例真的同時開工,誇張到能合力寫出一個編譯 Linux ke...









