Claude Code TDD 工作流完整教學 — 讓 AI 先寫測試再寫程式的正確姿勢

你去餐廳點餐的時候，不會先讓廚師煮完再告訴他你要什麼。你會先點菜——「我要一份牛排，七分熟，不要蘑菇醬」——然後廚師根據你的規格去做。

寫程式也是一樣。測試就是你的點單。程式碼就是廚師做出來的菜。

大部分人用 Claude Code 的時候，順序是反的：先叫 AI 寫程式碼，然後自己補測試，發現問題再改。這就像讓廚師先做一道他覺得你應該會喜歡的菜，然後你看了之後說「我其實不吃蘑菇」。浪費時間，浪費食材。

TDD（Test-Driven Development）把順序翻過來：先寫測試，再寫程式碼，最後重構。跟 Claude Code 搭配的時候，這個順序的效果特別好——因為測試就是最精確的需求規格。你用測試告訴 AI「我要的結果長這樣」，AI 就不用猜了。

Red-Green-Refactor：三步循環

TDD 的核心只有三步，用顏色記最快：

Red — 寫一個會失敗的測試。這個測試描述你要的行為，但對應的程式碼還不存在，所以它一定會失敗。跑一下確認是紅的。

Green — 寫最少的程式碼讓測試通過。不要多寫，不要考慮架構，不要想「順便加個 feature」。目標就是從紅變綠，其他都不管。

Refactor — 測試綠了之後，回頭看程式碼有沒有重複、命名有沒有清楚、結構有沒有合理。改的時候隨時跑測試，確保還是綠的。

然後回到 Red，寫下一個測試。循環。

這個循環的妙處在於：你永遠知道目前的程式碼是對的。每一步都有測試保護。出問題的時候，只可能是你剛剛改的那幾行。debug 範圍從「整個專案」縮小到「最後三分鐘寫的東西」。

跟 Claude Code 搭配的實際做法

打開 Claude Code，第一句話不是「幫我寫一個 XXX 功能」。是這樣：

幫我寫一個測試，驗證 calculateDiscount 函式的行為：
- 訂單金額超過 1000 元打 9 折
- 超過 5000 元打 85 折
- VIP 會員在上述基礎上再打 95 折
- 金額 <= 0 要拋出 ValueError

先寫測試就好，不要寫實作。

Claude Code 會產出一組測試。你跑一下，確認全部失敗（Red）。然後：

1	現在寫 calculateDiscount 的實作，讓所有測試通過。用最簡單的方式，不要過度設計。

Claude Code 寫完實作，你跑測試，全部綠了（Green）。最後：

1	測試都通過了。看一下實作有沒有可以改善的地方——命名、結構、重複的部分。改完要確保測試還是全部通過。

三步完成。整個過程你在做的事只有一件：定義規格。寫程式碼和重構都交給 AI，但你始終透過測試掌握「對不對」的判斷權。

為什麼「先測試」對 AI 特別有效

Claude Code 跟人類工程師有一個根本性的差異：它不會覺得寫測試很無聊。

人類工程師做 TDD 的最大障礙是心理的——寫完功能程式碼之後，回頭寫測試感覺像在做重複的事。但如果測試是先寫的，功能程式碼反而變成「把紅的變綠的」的通關遊戲，反而有動力。

但對 AI 來說，更根本的好處是：測試消除了需求的模糊性。

你跟 Claude Code 說「寫一個折扣計算功能」，它要猜你的業務規則。打幾折？什麼條件？例外情況怎麼處理？AI 必須做很多假設，而每個假設都可能是錯的。

但如果你先寫好測試——assert calculate_discount(1500, is_vip=False) == 1350——AI 不需要猜任何東西。規格就在測試裡，精確到數字。

結果是：AI 產出的程式碼第一次就對的機率大幅提升，你花在「看 AI 寫的東西對不對」上面的時間大幅下降。

好，講完理論了。接下來是實戰。

實戰範例：用 TDD 做一個 URL 短縮服務

不是完整專案，只抓最核心的邏輯來示範流程。

Step 1：寫測試（Red）

我要做一個 URL shortener 的核心邏輯。先幫我寫測試，框架用 pytest：

1. shorten(url) 回傳一個 6 字元的短碼
2. 同一個 URL 呼叫兩次，回傳同一個短碼
3. resolve(code) 回傳原始 URL
4. resolve 找不到短碼時拋出 KeyError
5. URL 格式不合法（沒有 http/https 開頭）時拋出 ValueError

只寫測試，不要寫實作。

Claude Code 會產出大概這樣的東西：

def test_shorten_returns_six_char_code():
    code = shorten("https://example.com")
    assert len(code) == 6

def test_same_url_same_code():
    code1 = shorten("https://example.com")
    code2 = shorten("https://example.com")
    assert code1 == code2

def test_resolve_returns_original_url():
    code = shorten("https://example.com")
    assert resolve(code) == "https://example.com"

def test_resolve_unknown_code_raises():
    with pytest.raises(KeyError):
        resolve("nonexist")

def test_invalid_url_raises():
    with pytest.raises(ValueError):
        shorten("not-a-url")

跑一下：全部紅的。完美。

Step 2：寫實作（Green）

1	測試寫好了，全部失敗。現在寫 shorten 和 resolve 的實作，讓測試通過。用最簡單的方式。

Claude Code 會用 hashlib 或隨機生成的方式實作。跑測試——全部綠了。

Step 3：重構（Refactor）

測試通過了。看一下有沒有可以改善的地方：
- hash 碰撞怎麼處理？
- 記憶體內的 dict 是否該抽成獨立的 storage 介面？
- 改完確保測試還是全部通過。

這一步通常會讓 Claude Code 把 storage 抽成一個 protocol/interface，方便之後換成 Redis 或資料庫。改完跑測試，還是全綠。

三步走完，你有了一個有測試保護、結構清楚的核心模組。整個過程大概十分鐘。

五個常見的坑

1. AI 寫的測試太寬鬆。 Claude Code 有時候會寫出 assert result is not None 這種什麼都能過的測試。看到這種要立刻改掉——測試的價值在於精確。assert len(code) == 6 比 assert code 有意義得多。

2. 跳過 Red 階段。 有人會叫 AI 同時寫測試和實作。不要這樣做。如果你從來沒看到測試失敗過，你不知道測試是不是真的在檢查你以為它在檢查的東西。一個從來沒紅過的測試，跟沒有測試一樣。

3. Green 階段寫太多。 叫 AI「讓測試通過」的時候，它有時會順便加你沒要求的功能。加了就加了？不行。額外的功能沒有對應的測試保護，等於是盲區。要嘛補測試，要嘛刪掉。

4. Refactor 階段改測試。 重構的對象是程式碼，不是測試。如果你在重構的時候改了測試讓它通過，那不叫重構，叫作弊。測試是你的規格，規格不該在「讓程式碼更好看」的時候被偷改。

5. 測試之間有依賴。 每個測試應該獨立執行。如果 test_A 失敗導致 test_B 也失敗，表示它們共用了可變狀態。跟 Claude Code 說：「確保每個測試用獨立的 fixture，不要共用物件。」

什麼時候不該用 TDD

有些人的文章會告訴你 TDD 適用於所有場景。這不是真的。

探索性的 prototype 不適合。你還在搞清楚「要做什麼」的時候，先寫測試等於在還不知道目的地的情況下規劃路線。先讓 Claude Code 快速做一個 prototype，確認方向對了，再回頭補測試。

UI 互動邏輯很難純 TDD。按鈕點下去的視覺回饋、動畫、排版——這些用單元測試驗證不了。用 E2E 測試（Playwright、Cypress）比較實際。

一次性腳本也不需要。寫一個跑完就刪的資料遷移腳本，不需要花時間寫測試。直覺判斷：如果這段程式碼兩週後還會存在，就值得寫測試。不會的話，省下來的時間更值錢。

把 TDD 變成習慣的最小可行改變

不需要整個專案從頭改成 TDD。挑一個你接下來要做的新功能，只對這個功能試一次完整的 Red-Green-Refactor 循環。

跟 Claude Code 合作的時候，對話的開頭從「幫我寫 XXX」改成「幫我寫 XXX 的測試」。就這一個改變。

做完之後你會發現兩件事。第一，AI 產出的程式碼品質明顯提升，因為測試消除了模糊性。第二，你對程式碼的信心提高了，因為任何時候都可以跑測試確認「目前為止做的東西都是對的」。

這個信心的差別，在專案越來越複雜的時候會越來越明顯。有測試保護的程式碼可以放心重構。沒有的只能小心翼翼地加東西，祈禱不會弄壞已有的功能。

學完 TDD 之後，自然的下一步是看 Claude Code 的 Sub-agents 和 Agent Teams 怎麼跟測試驅動的工作流整合——讓一個 agent 寫測試、另一個 agent 寫實作、第三個做 code review。但那是另一篇文章的事了。

參考來源：Claude Code in Action — Anthropic Academy

文章作者: Cheng®

文章連結: https://mark22013333.github.io/2026/05/18/Claude-Code-TDD-工作流完整教學-讓-AI-先寫測試再寫程式的正確姿勢/

Claude Code 教學 TDD

你的鼓勵將被轉換為我明天繼續加班的動力（真的）。 ❤️

相關推薦

2026-04-20

Claude Code Monitor Tool — 讓 AI 像裝了雷達一樣盯著背景程序

一個 /loop 每兩分鐘跑一次 pytest 的任務，在 10 分鐘裡會燒掉 5 個 API call——其中 4 個完全沒拿到有用資訊。每次 Claude 醒來、載入 context、發 prompt、收 response，然後看到「測試還在跑，下次再來」，就這樣重複四次。token 照算、時間照花、noise 照寫進 transcript。 Claude Code v2.1.98 新增的 Monitor Tool，把這個模式整個翻過來。想像一下你家的煙霧偵測器。它不是每 30 秒跳出來問你「廚房起火了嗎？」，而是靜靜地掛在天花板上，真的有煙才會叫。Monitor Tool 就是給 Claude 裝煙霧偵測器：背景跑一個程序，每一行 stdout 都是一個事件，事件真的來了才會叫醒 Claude。沒事件的時候，Claude 在做別的事，不花 token 也不佔 context。這個差異在帳單上很具體。以前你要求「幫我盯著 server.log，出現 5xx 就通知」，只能用 /loop 或 watch，每次輪詢都要付出一次 Claude 的 thinking round...

2026-04-23

Claude Code Ultraplan 完整教學 — 把規劃交給雲端，讓 Claude 替你想 30 分鐘

普通規劃和 Ultraplan 的差距，不是 Claude 有多聰明。是你等不等它想清楚。在本地跑 plan mode 的時候，Claude 開始思考，你的終端機就被佔住了。你可以等它想，也可以去做別的事，但你不知道它什麼時候想完，也沒辦法在它思考過程中給它回饋。最後它端出一個計劃，你看了之後說「這個方向不對」，然後重來。 Ultraplan 把這個流程整個翻轉。Claude 去雲端想，你繼續在本地工作。計劃生成完，它給你一個連結，你開瀏覽器去 review，可以在特定段落留言、用 emoji 反應表示認可或疑慮、要求局部修改，最後選擇怎麼執行。整個過程 Claude 替你佔用的是雲端算力，不是你的終端機。它在後台做什麼輸入 /ultraplan 你的任務描述之後，會看到一個確認提示。確認之後，流程啟動：第一步，雲端環境準備。 Claude 在 Anthropic 的雲端伺服器上配置一個臨時容器，把你的 GitHub 倉庫 clone 進去。如果你的 repo 有 setup script，它會執行來安裝依賴、建立環境。第二步，讀懂 repo。 Claude 在雲端容...

2026-03-29

Claude Desktop 三種模式怎麼切？Chat、Cowork、Code 完整導覽

打開 Claude Desktop，上面三個 tab 寫著 Chat、Cowork、Code。第一次看到的人大概會問：這三個到底差在哪？什麼時候該用哪個？答案比想像中簡單——它們不是三個不同的 AI，是同一個 Claude 的三種工作模式，各自對應不同的使用場景和權限範圍。 Chat：快問快答的主場Chat 是最輕量的模式。問問題、腦力激盪、幫你改改文案、翻譯一段文字——這些不需要動到檔案系統、不需要跑程式的事情，Chat 就夠了。有兩個功能值得記住。第一個是 Quick Entry：在 Mac 上連按兩下 Option 鍵，會跳出一個浮動對話框，不用切到 Claude 視窗就能丟問題。會議之間的三十秒空檔，打開來問一句「剛才那個 dashboard 上的 DAU 數字怎麼算的」剛好。第二個是截圖分享。直接把螢幕畫面丟給 Claude 看，省去「那個按鈕在左邊第三排…不對，是第四排」的來回描述。 Chat 也能串 Desktop Connector，接上 Apple Notes 之類的本機工具。但整體來說，它的定位就是快速對話，不是拿來做大型專案的。 Cowork：需要動手...

2026-05-14

Claude Code Desktop App 完整教學 — 平行 Session、拖放工作區與整合終端機

打開三個終端機視窗。一個跑前端 dev server，一個跑後端 API，一個跑測試。再開一個 Claude Code session 修 bug，另一個 session 寫新功能。Alt-Tab 按到手指抽筋，每次切回去都要花五秒重新定位「我剛才做到哪了」。如果你有過這種經驗，Claude Code 的桌面版重新設計就是為你做的。一個視窗，多個 Session2026 年四月，Anthropic 對 Claude Code 的桌面 app 做了一次大改版。核心改變只有一個：你可以在同一個視窗裡同時開多個 session，並排顯示。聽起來很簡單。實際用起來的差距是這樣的——以前你要在不同視窗之間跳來跳去，每次切換都斷一次思路。現在你把兩個 session 並排放在螢幕上，左邊修 bug、右邊跑測試，眼睛掃一下就能看到兩邊的狀態。這就像雙螢幕跟單螢幕的差距。技術上你用單螢幕也能做一樣的事。但雙螢幕省下的是每天幾百次的視窗切換，每次省一點點認知負擔，一天下來是真實的生產力差距。 Session Sidebar：所有工作，一個清單新版左側加了一個 Session Sideb...

2026-03-25

Claude Cowork 入門指南 — 讓 AI 在你電腦上自己幹活

問各位一個問題：你有多少工作流程是「重複但需要腦力」的？不是那種純機械式的點擊，而是需要看一下檔案、決定下一步該做什麼、修改點東西、再檢查一遍的工作。如果你用過 Claude，可能就會想，要是 Claude 能直接在我電腦上幫我做這些事就好了。 Claude Desktop App 的 Cowork 模式就是為了這個需求而生的。 Chat vs Cowork vs Code，三種工作模式在講 Cowork 之前，先搞清楚 Claude Desktop App 裡的三種模式長什麼樣： Chat 模式 — 就是你熟悉的對話框。你提問，Claude 回答。速度快，適合快速問答和頭腦風暴。但 Claude 看不到你的檔案，也跑不了程式碼。 Code 模式 — 這個就是 Claude Code（如果你有裝 Claude Code CLI 的話會更熟悉）。提供了一個終端機編碼環境，Claude 可以寫程式、執行、看結果。但這主要是給程式人員用的。 Cowork 模式 — 才是今天的主角。它融合了 Chat 的靈活性和 Code 的執行能力，但不限於終端機。Claude 可以讀寫你電腦上的檔...

2026-05-11

Claude Code 你不知道的 12 個隱藏功能 — 從省錢到安全的進階操作術

你家廚房裡的微波爐，大概有 30 個按鈕。你用過幾個？兩三個。加熱、解凍、開門。剩下的 27 個按鈕你可能從來沒按過，甚至不知道它們幹嘛。 Claude Code 也是。大部分人的使用方式是：打開終端機、輸入需求、等 AI 回答、複製貼上。偶爾用 /help 看一下有什麼指令。但 Claude Code 裡面埋了一堆功能，不在首頁、不在教學影片裡、不會主動跳出來告訴你——除非你自己去翻文件或踩到。這篇整理了 12 個真正實用的隱藏功能，從「怎麼少花錢」到「怎麼不炸掉你的 production」。每一個都是你今天就能用上的。 1. /cost — 即時看你燒了多少錢Claude Code 裡面有個內建的花費追蹤器。在對話中任何時候打 /cost，它會顯示這個 session 目前為止用了多少 token、花了多少錢。 12> /costSession cost: $2.47 (Input: 156K tokens, Output: 42K tokens) 為什麼這很重要？因為你不會知道一個「幫我重構這個檔案」的請求到底讀了多少檔案、消耗了多少 context。有時候一...

評論