Agent Skills — 給 AI 編碼助手的工程紀律指令集

AI coding agent 不是不夠聰明。它太會找理由了。

跟它說寫完記得補測試，它會說「這個功能比較簡單，測試等之後再補」。跟它說上線前做 code review，它說「改動很小，應該沒問題」。跟它做安全審查，它說「這只是內部工具，威脅模型不複雜」。每一個理由聽起來都很合理，每一個結果都讓你在兩週後踩坑。

問題不是 AI 不知道該怎麼做。問題是它沒有理由在沒人要求的情況下把每件事都做完整。

Agent Skills 的設計思路就從這裡開始：不靠信任，靠結構。

19 份文件，覆蓋整個開發生命週期

整個專案沒有任何程式碼依賴。就是 19 份 Markdown 文件，每份對應開發流程的一個階段，告訴 AI agent 這個階段該做什麼、怎麼驗證自己做完了。

作者是 Addy Osmani，Google Chrome 前工程總監，Software Engineering at Google 的貢獻者之一。這本書裡很多工程紀律的理念——測試文化、增量實作、強制 code review——在 Agent Skills 裡都有對應的實作。

按開發階段分成六大類：

Define：idea-refine、spec-driven-development — 從模糊想法到完整規格書，強制 AI 先搞清楚問題再動手。

Plan：planning-and-task-breakdown — 用垂直切片和依賴圖把需求拆成可執行的任務，附上驗收條件。

Build：incremental-implementation、test-driven-development、context-engineering、frontend-ui-engineering、api-and-interface-design — 五個 skill 涵蓋從 TDD 到 context 管理的完整實作流程。

Verify：browser-testing-with-devtools、debugging-and-error-recovery — 五步 triage 除錯流程：重現 → 定位 → 縮小 → 修復 → 防護。

Review：code-review-and-quality、code-simplification、security-and-hardening、performance-optimization — 安全審查涵蓋 OWASP Top 10，review 用五軸架構拆解。

Ship：git-workflow-and-versioning、ci-cd-and-automation、deprecation-and-migration、documentation-and-adrs、shipping-and-launch — 從 Git flow 到部署後文件，都有對應 checklist。

安裝完就多了七個 slash commands

# Claude Code（推薦）
/plugin marketplace add addyosmani/agent-skills
/plugin install agent-skills@addy-agent-skills

# Cursor
# 把 SKILL.md 複製到 .cursor/rules/

# Copilot
# 用 agents/ 下的 persona 定義搭配 .github/copilot-instructions.md

安裝後可以用的指令：

/spec    → 寫規格書
/plan    → 拆解任務
/build   → 增量實作 + TDD
/test    → 測試驅動
/review  → 五軸程式碼審查
/code-simplify → 簡化程式碼
/ship    → 上線前檢查清單

這七個命令的設計邏輯很一致：每個都有退出條件，要求提供具體證據——不是「我覺得完成了」，是「這是測試通過的截圖」。

三個值得停下來看的設計

Anti-Rationalization Table

每個 skill 都附了一張「常見藉口對照表」。AI 很擅長合理化，這張表直接堵死它的後路：

藉口	現實
「我等下再寫測試」	你不會的。現在就寫。
「這只是小改動，不需要 review」	小改動的 bug 比大改動更難抓。
「看起來沒問題」	「看起來」不是證據。給我測試結果。

把資深工程師在 code review 會說的話，直接編碼進指令。AI agent 再有創意，也很難繞過明確寫死的規則。

Verification Checklist

每個 skill 結尾都有退出檢查清單。具體到「要求提供 build 成功的輸出」、「要提供 runtime 數據」——不接受主觀判斷，只接受可驗證的結果。

simplify-ignore Hook

技術含量最高的部分。一個約 300 行的 bash 腳本，讓你在程式碼中標記 simplify-ignore-start/end 區塊。跑 /code-simplify 時，AI 看不到這些區塊，也改不到它們。適合保護效能關鍵的程式碼不被「簡化」掉。

1 2	# 要求 Bash 3.2+ 和 jq # Windows 需要 WSL

把它當成新人入職指南

類比一下會更清楚：如果 AI agent 是剛進公司的工程師，Agent Skills 就是你給它的「入職工程指南」。

差別在於，一般的入職指南是文件，要靠人自己去遵守。Agent Skills 是指令集，AI 在你要求它執行某個階段的工作時，這些規則就直接注入它的 context，強制執行。

這個設計解決了一個很實際的問題：你不可能在每次叫 AI 做事的時候，都手動提醒它「記得寫測試」「記得做 code review」。你需要一個機制，讓這些提醒自動發生，而且讓 AI 沒辦法用一句「這次例外」繞過去。

跨工具統一流程

純 Markdown 格式讓它可以裝進任何 AI coding 工具。團隊裡有人用 Cursor、有人用 Claude Code、有人用 Copilot，只要每個人都載入同一套 SKILL.md，就能確保一致的工程紀律，不管底層用什麼工具。

多模型交叉審查也是一個實用場景：agents/code-reviewer.md（Staff Engineer 視角）、agents/test-engineer.md（QA 專家）、agents/security-auditor.md（資安工程師）——三個角色的 persona 讓不同視角的 AI 交叉審查同一份程式碼。

專案現況

指標	數據
Stars	9,059
License	MIT
建立時間	2026-02-15
活躍度	每天平均 1.7 commits
版本	1.0.0

建立不到兩個月就超過 9K stars。這個速度在 developer tools 領域不常見，通常代表踩到了一個很多人同時在找解法的真實問題。

值得借鏡的模式

就算你不用這套 plugin，Anti-Rationalization Table 和 Verification Checklist 的設計思路本身就值得拿來用。可以把這個模式放進你自己的 CLAUDE.md：

## 工程紀律
- 寫新功能必須先寫失敗測試，通過才算完成
- 每次修改超過 20 行的 PR 必須執行 /review
- 不接受「看起來應該沒問題」的判斷，需要具體證據

背後有兩條線。第一條：AI 的問題不是能力，是它會找理由。第二條：解法不是靠信任，是靠結構讓理由站不住腳。

把這兩條線搞清楚，然後選要用 Agent Skills 還是自己寫，都行。

原文來源：GitHub - addyosmani/agent-skills

文章作者: Cheng®

文章連結: https://mark22013333.github.io/2026/04/23/Agent-Skills-給-AI-編碼助手的工程紀律指令集/

AI Agent Claude Code Agent Skills Addy Osmani 工程紀律

你的鼓勵將被轉換為我明天繼續加班的動力（真的）。 ❤️

相關推薦

2026-06-23

教 Claude 守規矩的七種方法 — 把指令放對地方，比寫得漂亮更重要

你寫了一條規矩想叫 Claude 遵守——比方說「改完程式碼一定要跑 lint」。問題來了：這句話到底該寫在哪？寫進 CLAUDE.md？做成一個 skill？還是設一個 hook？大部分人卡住的地方不是「指令寫得好不好」，是根本沒意識到「放哪裡」本身就是一個決定，而且這個決定常常比措辭重要得多。同一句話，放對地方它每次都生效，放錯地方它可能整場對話都沒被讀到一次。 6 月 18 日 Anthropic 出了一篇官方文章，把引導 Claude 行為的方法整理成七種：CLAUDE.md、rules、skills、subagents、hooks、output styles，還有直接改系統提示。乍看像七個功能等你挑，其實不是——它們是七個抽屜，每個抽屜裝的東西、開的時機都不一樣。搞懂該往哪個抽屜放，這篇就值了。先用一個比方把七個抽屜串起來想像你開了一家公司，今天進來一個新員工，你要讓他照規矩做事。你會怎麼傳達？最基本的，你給他一本員工手冊，放在桌上，每天上班都看得到——公司在幾樓、用什麼打卡系統、程式碼風格長怎樣。這就是 CLAUDE.md：它在每次對話一開始就載入，整場都待在那...

2026-07-19

拆解 harness：AI Agent 的能動性到底從哪來（AI Agent 架構全解析 1/8）

先講結論：讓 agent 會「動」的，不是那顆模型你每天用的 ChatGPT、Claude，本質上是一次問、一次答：你丟一段文字進去，它吐一段文字出來，然後就結束了。它可以在回答裡「說」自己要去查資料、改檔案、寄信，但它一件也做不了——沒有手、沒有記憶、沒有權限。那為什麼像 Claude Code 這種東西，可以真的打開你的 repo、改十幾個檔案、跑測試、看到紅字再回頭修？答案不在模型身上，在模型外面那一圈程式碼。這圈程式碼有個名字，叫 harness（骨架、外層架構）。模型負責推理與決策；harness 負責給它工具、幫它記住狀態、在它闖禍前先攔一手。一句話：agent 的能動性，是 harness 給的，不是模型自帶的。這是一個 8 篇的系列。我會帶你從最裡面那個小小的迴圈開始，一層一層把 harness 拆開，看清楚一個現代 AI agent 到底由哪些零件組成。這一篇是開篇導讀——先讓你看懂全貌，後面 7 篇再逐層鑽進去。內容全部來自一份很扎實的開源教材 hardness1020/awesome-agent-architecture，它把現代 agent 拆成 8...

2026-05-30

GBrain — 不丟連結給你、直接合成答案的開源 AI 第二大腦

先別管它能拿來做什麼。先看你丟一段筆記進去的那一刻，它背地裡做了哪件事。你寫了一行字進去：「Alice 在 Acme 當 CTO，這家是 Sequoia 投的。」一般的筆記工具到這裡就結束了——它存下這串文字，等你哪天搜尋「Alice」再把這行吐回來。GBrain 不一樣。在你按下儲存的同一瞬間，它把這句話拆成三個節點（Alice、Acme、Sequoia）跟兩條有型別的關係線（Alice works_at Acme、Sequoia invested_in Acme），接到它腦袋裡那張一直在長大的網上。下次你問「Alice 背後有哪些投資人」，它不用再去翻那行字——它沿著線走兩步就到了。關鍵在這裡：這一步抽節點、連關係，完全沒呼叫任何大模型。純 regex 加一組啟發式規則做掉的。零 token、零成本、零延遲。你以為讓檢索變強的是模型，其實不是這就是整顆大腦最反直覺的地方，也是我覺得最值得抄走的設計判斷。 2026 年的反射動作是這樣的：檢索不夠準？換更大的 embedding。答案不夠好？接更貴的模型。什麼問題都先想「丟給 LLM」。GBrain 的 benchmar...

2026-05-24

用 Claude Skill 把 Prompt 寫對一次勝過快送 10 次｜AI Media Generator 拆解

大部分人寫 prompt 的時候，腦袋裡只有一張表：那張表叫做「英文形容詞越多越好」。cinematic, 8k, masterpiece, beautiful, hyper-detailed，一路堆到 token 上限。這套打法在 Midjourney v4 時代還算管用，到了現在已經是純粹的雜訊。Seedance 看到 fast 會擺爛，要寫 extreme speed 它才動；Flux 看到任何藝術家名字直接拒絕；Midjourney v7 看到 cinematic 已經當你沒講話。同一句 prompt 在 14 個平台會拍出 14 種天壤之別的結果，這個事實沒人在意，因為大家都假設「我寫得越用力，模型就越聽話」。反過來才對。真正的問題不是 prompt 寫得不夠長最近翻到一個 repo 叫 ai-media-generator，作者 Hao0321，2026-05-13 才開的 repo，28 顆星、5 個 fork、0 個 issue。從外觀看就是一個無人聞問的個人專案，但裡面藏了一個我覺得很值得拿出來講的觀察： Writing the prompt corre...

2026-05-19

Claude Code Agent View 完整教學 — 在一個終端機裡同時管理多個 AI 任務

昨天下午我同時開了四個 Claude Code session。一個在寫測試、一個在重構 API 層、一個在改 CI pipeline、還有一個在幫另一個 repo 做 code review。四個 terminal tab，四個不同的 context，我得不斷切來切去——第三個問我要不要執行 rm -rf dist/，我差點在第一個的 tab 裡按了 Enter。四個 terminal tab 管四個 AI，你管理的不是任務，是 tab 焦慮。這週我改用 claude agents 做同樣的事。一個畫面，四個任務排成清單，哪個在跑、哪個等我回覆、哪個做完了，一目瞭然。空白鍵看一眼最新回應，需要介入再按 Enter 跳進去。工頭不用親自搬磚工地上有個角色叫工頭。工頭不砌牆、不拉線、不灌水泥。他站在一個可以看到整個工地的位置，手上一張清單：A 區在灌漿、B 區等材料、C 區完工待驗收。哪邊出狀況他走過去看一眼、下個指令、再回到他的位置。以前用 Claude Code 跑多個任務，你像一個在每個工位之間跑來跑去的工頭——沒有制高點，不知道其他人在幹嘛，只能靠記憶和 tab ...

2026-06-08

CodeBurn — 你該不該裝一個工具盯著 AI Coding 的帳單

先問你自己一個問題：你是等帳單來才嚇一跳的人，還是想在嚇到之前就知道數字的人？這個問題決定了你要不要往下看。因為 CodeBurn 這個工具，對前一種人來說是雞肋，對後一種人來說是早就該裝的東西。它做的事情很單純——讀取你本機上 Claude Code、Cursor、Codex 這些 AI coding 工具存下來的 session 資料，算出你到底花了多少 token、多少錢、花在哪。沒有 API key，沒有 proxy，npx codeburn 一行就能跑。問題不在它好不好裝，問題在你需不需要。所以這篇不打算逐條念它的功能，而是幫你把「該裝」跟「別裝」的那條線畫清楚。先講你用不到它的情況判斷一個工具值不值得，最快的方法是先想它什麼時候是壞選擇。如果你是 Claude Max 訂閱戶，每個月固定那筆錢就是上限，跑爆了頂多被限速，不會有額外帳單——那 CodeBurn 對你的「省錢」幫助有限。你的錢已經是沉沒成本了。同樣地，如果你一週只開兩三次 AI 工具寫點小東西，花費低到你根本不在意，那裝一個儀表板來盯它，就是用工程的力氣解決一個不存在的問題。這裡有個更隱性的陷阱...

評論