Claude Code Multi-Model 混用策略 — Haiku / Sonnet / Opus 怎麼搭才省錢又有效

你的 Claude Code session 裡，每一次工具呼叫都用 Opus。讀一個 5 行的 config 檔？Opus。跑一個 ls 指令？Opus。改一個 typo？還是 Opus。

這就像叫一個年薪千萬的 CTO 去影印文件。他當然做得到，但你的預算會先陣亡。

Claude Code 其實內建了三種模型可以切換——Haiku、Sonnet、Opus。差異不只是「聰明程度」，是整個成本結構不同。Haiku 的 token 價格大概是 Opus 的十分之一，但處理日常任務的能力有 Sonnet 九成水準。

關鍵不是「哪個模型最好」，而是「哪個任務配哪個模型最划算」。

三種模型像三種員工

先用一個類比把基本概念打通。

想像你開了一間軟體公司，有三種角色可以指派任務：

Haiku 是剛畢業的工程師。 速度快、成本低、日常任務處理得不錯。寫個腳本、跑個指令、讀個檔案回報內容——這些事交給他完全沒問題。但你不會讓他做架構決策。

Sonnet 是資深工程師。 寫 code 品質穩定，能處理中等複雜度的 bug，理解上下文的能力強。大部分日常開發工作交給他就對了。

Opus 是技術長。 深度推理、跨檔案架構分析、處理模糊需求——這些是他的強項。但他的時間（token）最貴，不該花在影印文件上。

一間有效率的公司不會讓 CTO 做所有事。它會讓每個人做最適合自己的工作。模型混用的邏輯一模一樣。

Claude Code 怎麼切換模型

切換方式很直覺。在 Claude Code 裡有幾種做法：

互動式切換： 按 /model 叫出模型選擇器，或用快捷鍵切換。

設定預設模型： 在 ~/.claude/settings.json 裡設定 defaultModel。

Sub-agent 指定模型： 這是混用策略的核心。當你用 Agent tool 啟動子代理時，可以透過 model 參數指定該子代理要用哪個模型：

Agent({
  description: "讀取 config 檔案",
  prompt: "讀取 /app/config.json 並回報其中的 database host 設定",
  model: "haiku"
})

這行 model: "haiku" 就是關鍵。主 session 用 Opus 做決策，但把簡單的讀檔任務交給 Haiku 子代理去跑。一來一回省下的 token 是倍數級的。

Skill 裡指定模型： 寫 Skill 的時候也可以建議使用特定模型。例如一個負責格式化 log 的 Skill，完全可以用 Haiku 跑。

什麼任務配什麼模型

這張對照不用背，看一遍有個直覺就好。核心原則就一句話：任務越不需要推理，越該往便宜的模型丟。

Haiku 負責的事（成本最低，速度最快）

檔案讀取和內容回報。跑 shell 指令然後回傳結果。格式轉換（JSON 轉 YAML、Markdown 轉 HTML）。搜尋 codebase 裡的特定字串。簡單的正則表達式處理。

這些任務有個共同特徵：輸入明確、輸出格式固定、不需要判斷。

Sonnet 負責的事（性價比最高）

寫單一函式或模組。修復明確的 bug（有 error message 可以追）。Code review 單個檔案。寫測試案例。文件撰寫和更新。

這類任務需要理解上下文，但不需要跨多個系統思考。Sonnet 在這個區間的 CP 值最高。

Opus 才出場的事（深度推理）

跨多檔案的架構重構。模糊需求的拆解和規劃。複雜 debug（牽涉多個服務的交互作用）。安全性分析。需要權衡取捨的設計決策。

如果一個任務你自己想了十分鐘還沒結論，那它就值得用 Opus。

實際工作流長什麼樣

舉一個真實場景。你想重構一個 API 模組，需要：

先掃描所有用到這個模組的地方
理解目前的呼叫模式
設計新的介面
實作修改
跑測試確認沒壞

用單一模型跑，全程 Opus，token 用量大概 150K。

混用策略是這樣拆的：

Step 1（Haiku）： 掃描 codebase，列出所有 import 和呼叫點。這是純搜尋任務，不需要推理。

Step 2（Sonnet）： 分析呼叫模式，歸類出幾種使用方式。需要理解程式碼，但不需要做設計決策。

Step 3（Opus）： 根據 Step 2 的分析結果，設計新介面。這步需要權衡 breaking change 的影響、向後相容性、未來擴展性。

Step 4（Sonnet）： 按 Step 3 的設計實作程式碼。設計已經定了，剩下的是執行。

Step 5（Haiku）： 跑測試套件，回報結果。純執行，不需要判斷。

結果？Token 用量降到大約 60K，省了 60%。產出品質相同，因為需要深度推理的 Step 3 還是 Opus 在做。

三個容易踩的坑

第一，別讓 Haiku 做需要上下文的事。 Haiku 的 context window 較小，而且對微妙的程式碼語意掌握不如 Sonnet。如果一個任務需要「理解這段 code 在做什麼」而不只是「找到這段 code 在哪」，至少用 Sonnet。

第二，別在 Opus session 裡做太多瑣事。 每次你在 Opus session 裡跑 ls 或 cat，那些 token 都是按 Opus 的價格計算的。把瑣事委派給 Haiku 子代理，主 session 只負責決策。

第三，模型切換本身有 overhead。 每次啟動一個子代理都有 prompt 的固定成本。如果一個任務只需要 10 個 token 就能完成，拆出去反而更貴。經驗法則是：預期輸出超過 200 token 的任務才值得拆。

一個可以掛更多東西的框架

學完這篇，你手上有一個很簡單的決策框架：

看到一個任務，問自己：「這個需要推理嗎？」

不需要推理 → Haiku。需要理解上下文但不需要設計決策 → Sonnet。需要權衡取捨、做判斷 → Opus。

這個框架不只適用於 Claude Code。任何 multi-model 的 AI 系統——不管是 LangChain、CrewAI、還是自己寫的 agent pipeline——底層邏輯都一樣：把推理成本分配到真正需要推理的地方。

接下來可以研究的方向：Claude Code Sub-agents 教學講的是怎麼把任務拆給子代理執行，跟這篇的模型混用策略剛好互補。

參考來源：Claude Code Docs - Models
參考來源：Claude Opus 4.7 新功能實戰

文章作者: Cheng®

文章連結: https://mark22013333.github.io/2026/04/27/Claude-Code-Multi-Model-混用策略-Haiku-Sonnet-Opus-怎麼搭才省錢又有效/

Claude Code 自動化 Multi-Model Haiku Sonnet Opus Token 成本

你的鼓勵將被轉換為我明天繼續加班的動力（真的）。 ❤️

相關推薦

2026-07-17

fable-method：一個要下架的模型，留下的弱模型解題心法

2026 年 7 月初，Anthropic 訂閱制裡一個叫 Fable 5 的模型，被公告要下架。模型下架這種事，通常沒人會多看一眼。換一個更新更強的頂上，舊的就讓它走。但這次有人做了件反過來的事：趁它還在線上，逼它把「自己到底是怎麼解題的」一五一十講出來，然後把這套心法蒸餾成一組任何模型都能照著跑的 Claude Code skill。這東西叫 fable-method。它的賭注一句話就講完：一個照著結構化 loop 走的中階模型，會贏過一個自由發揮的更強模型。品質不是靠模型多聰明堆出來的，是靠結構、證據、跟誠實這三件事。聽起來像雞湯？剛好相反。這套規則裡沒有一條是拍腦袋想出來的，每一條後面都拖著一個會打自己臉的失敗測試。這點後面會講。在打卡鐘出現之前先把時間往回拉一點，看看 fable-method 出現以前，大家是怎麼跟弱模型相處的。便宜的、地端的、半夜沒人盯著的模型，最常出包的地方其實不是「題目太難算不出來」。是程序上的偷懶：需求還沒看完就開工、修好一個 bug 就宣告全部完成、測試根本沒跑卻寫下一行漂亮的 all tests pass、沒人叫它做的動作它自己跑...

2026-06-15

Claude Code 巢狀子代理完整教學 — 讓子代理自己再開子代理，任務拆到五層深

你派了一個子代理（sub-agent）去做一件大事：把整個專案的舊版 API 呼叫，全部換成新的 SDK。聽起來很適合丟給它——你不想讓這堆瑣碎的搜尋跟改寫塞滿你自己的對話視窗。然後它做到一半就卡住了。不是它不會做，是這件事對「一個」子代理來說太大了。它得讀十幾個模組、追每一處呼叫、改完還要驗證，這些東西全擠進它那一個有限的 context 視窗，到後面它開始忘記前面查過什麼，輸出越來越飄。它面對的，正是你一開始想躲掉的那個問題——只是換它來承受。問題的根，是它沒辦法像你一樣「再往下派人」。先試過的那兩條路，為什麼都不夠順第一個直覺，是回到你自己身上，把大任務切成十幾個小任務，一個一個派子代理。可行，但你又變回那個微觀管理的中間人——每個子任務的邊界、每個回報的串接，全得你親手喬。你只是把子代理沒法分層的痛，搬回自己頭上扛。第二條路是開 Agent Teams，拉一組平級的代理同時上工。這個在「很多份量差不多、彼此獨立的活」上很強，我之前在 Agent Teams 那篇寫過。但它的形狀是「攤平」的——一排人並肩做事。而你現在這個任務的形狀是「有層次」的：一件大事底下分幾...

2026-05-29

Claude Code Dynamic Workflows 完整教學 — 讓 AI 自己寫腳本，在背景指揮上百個分身

把時間倒回去看，會比較容易看懂這次的改變到底大在哪。一年多前，你想讓 AI 同時幫你做好幾件事，唯一的辦法是當人肉排程器。開三個終端機視窗，第一個叫它改 API、第二個叫它寫測試、第三個讓它跑 lint，然後你的眼睛在三個視窗之間跳來跳去，誰卡住了你補一句、誰跑完了你接著派下一個。AI 在做事，但調度它的是你，而且你一次只能盯住有限的幾個。後來 subagent 出現，往前走了一步。Claude 開始能自己派分身去處理子任務，你不用再手動開視窗了。但這裡藏了一個很多人沒注意到的代價：每一個 subagent 做完事，它的中間結果都會回流到 Claude 主對話的 context window 裡。十個分身回來十份半成品，全堆在同一張桌子上，你寶貴的 context 就這樣被一堆「過程」吃掉，留給「真正在想的事」的空間越來越小。而且決定下一個該派誰，還是 Claude 在對話裡一輪一輪臨場判斷——它本質上還是個工頭，只是工頭從你變成了它。到了四月的 Agent Teams，規模又上一個量級——16 個 Claude 實例真的同時開工，誇張到能合力寫出一個編譯 Linux ke...

2026-07-20

該不該幫 Claude Code 設 session 上限？v2.1.212 三道保險絲的取捨

先分清楚：你是坐在旁邊，還是放它自己跑Claude Code 在 v2.1.212（2026-07-17）悄悄加了三個 session 級的資源上限。官方 changelog 講得很平淡，多數人滑過去大概也不會多想。但這三個開關的價值，完全取決於你怎麼用 Claude Code，所以在講該不該動它們之前，得先把使用情境切成兩種。第一種，你坐在終端機前面，一句一句跟它對話，它每要動一次危險操作你都看得到。這種情況下，這三個上限你幾乎可以當它不存在。第二種，你把一個任務丟給它，關掉螢幕去睡覺，或乾脆掛在排程上每天自動跑。這種情況下，這三個數字就從「裝飾」變成「保險絲」。我用電箱裡的保險絲來想這件事最順。保險絲不是拿來限制你用電的，你想開幾盞燈、吹不吹冷氣，它一概不管。它只在一種時刻起作用：電線快要走火、整間房子有燒起來的風險時，「啪」一聲把電切掉。這三個上限的角色一模一樣。平常你感覺不到它們，它們只在 agent 陷入某種失控迴圈、準備把你的 token 額度燒到見底的那一刻，跳出來把電閘拉下。三根保險絲各自防的是什麼火先把三個開關擺出來，順便說清楚每一根防的是哪一種走火。它們...

2026-07-17

Claude Code 結構化輸出完整教學：別再用 grep 硬撈 AI 的回答，讓它吐 JSON

以前想在腳本裡用 Claude Code，流程大概是這樣：claude -p 丟一個 prompt 進去，它吐回一段文字，然後你寫一串 grep 加 sed，從那段文字裡把你真正要的那個答案撈出來。能跑。但每次跑起來心臟都懸著。因為那段文字是「講給人聽的」——它今天回「結果是 42」，明天心情好一點回「經過分析，我認為結果應該是 42 喔」，你的 grep '結果是 ([0-9]+)' 就當場失效。你不是在解析資料，你是在猜 AI 這次會怎麼講話。這篇要講的，就是怎麼把這件事從「猜」變成「讀」。口頭報告 vs 填好的表格先用一個生活場景把問題講清楚。你向路人問路，他跟你講一長串：「你先直走，看到那個很大的全家左轉，走一小段有間麵店再右轉……」你得一邊聽一邊在腦子裡記路口。他要是換個講法、順序調一下，你就記錯。這是純文字。換個方式：他直接給你一張紙，上面第一格寫「第 1 個路口：左轉」、第二格寫「第 2 個路口：右轉」。你不用聽懂他整段話，你只要看第幾格。這就是結構化輸出。每個資訊有固定的位置，你按位置去取，不管對方今天話多話少，那一格永遠在那裡。 Cla...

2026-05-27

Claude Code /loop 與 /schedule 完整教學 — 讓 AI 自己排程自己跑

10 分鐘。這是 /loop 沒指定間隔時的預設值——每 10 分鐘它會把你交代的任務重跑一次。聽起來像 cron，但 cron 不會「理解」任務。/loop 在 Claude Code 的 session 裡跑，意思是它每次重跑時都帶著完整的對話脈絡。打個比方就懂了。傳統的 cron 是個鬧鐘——時間到了它響，響完它不管事；/loop 是個記得你昨天交代什麼、今天問你「上次那件事好了沒」的助理。差別就在這。這篇講怎麼用 /loop 跟 /schedule 把 AI 變成會自己排程的工程助手——從最簡單的「每 5 分鐘檢查 CI」到「指定時間跑部署」，把實務上會踩的坑一次列清楚。先搞懂三個東西的差別/loop、/schedule、Desktop scheduled tasks——這三個東西常常被搞混，先把它們的定位拉開： /loop 是 session 內的重複觸發。你在當前對話裡叫它每 X 分鐘做一件事，session 還開著它就會跑。關掉 terminal、關電腦、session 結束，它就沒了。 /schedule 是 session 內的一次性定時觸發。在指定時...

評論