Hermes Agent 30 天進化觀察 — 自我改進 Skills 讓 Agent 越用越便宜

Agent 最值錢的能力，是記得自己怎麼學會的。

這句話聽起來像雞湯，但 Hermes Agent 過去 30 天的進化把它做成了程式碼。上次寫過在自家 VM 部署 Hermes 的踩坑記錄，那時它還是 v0.13.0，一套「能用的開源 AI 代理框架」。一個月後回頭看，數字有點誇張：152K stars、近 9 天 808 commits / 633 PRs、版本從 v0.11 衝到 v0.14，在 OpenRouter 排行榜上超越 OpenClaw 變成第一。

量變不稀奇，開源專案衝星等的戲碼看多了。值得停下來看的是質變——它把「Agent 解過的題」變成了資產。

解一次，封裝一次

Hermes v0.12 之後有個機制：Agent 完成一個用了 5 個以上工具呼叫的複雜任務後，會自動把解法封裝成一個 Skill。下次遇到類似問題，直接調用，不用重新摸索。

這個設計的威力要用數字才看得出來。社群有人實測 Autobrowse 爬 Hacker News：第一次跑，Agent 逐步點擊頁面，花了 102 秒、燒掉 1.46 美金。兩次迭代之後，它自己學會用 JS eval 一口氣取代逐步點擊——35 秒、0.28 美金。同一個任務，成本掉到原本的五分之一。

注意這裡沒有人教它。它從自己的執行軌跡裡萃取出「下次怎麼做更快」，存下來，然後真的變快了。一般的 Agent 是每次都從零開始的實習生，Hermes 想當的是會越做越熟的員工。

而且它不只會學，還會忘。v0.12 加入的 Skill Curator 自動管理生命週期：30 天沒用到的 Skill 降級成 Stale，90 天進 Archived，依使用頻率評分、修剪冗餘。這步常被忽略，但其實是整個系統能長期運作的關鍵——學東西不難，難的是不被自己學過的垃圾淹死。Skills Hub 上現在有 652 個技能、8 個來源，搭配四層信任模型（builtin → official → trusted → community），來路不明的技能進不了核心。

不是接上 MCP，是長在 MCP 上

第二層證據在 MCP 整合的深度。大部分工具說「支援 MCP」，意思是能當 client 連外部 server。Hermes 是雙向的：它既是 client，也能用 hermes mcp serve 把自己變成 server，讓 Claude Code 或 Cursor 反過來連它。

v0.14 加上 supports_parallel_tool_calls，多個工具並行執行；MCP Sampling 讓 server 可以反向請求 Hermes 做 LLM 推理，還能設 rate limit 防止被外部 server 當免費算力用。工具過濾用 include/exclude 白名單黑名單控制，Agent 能碰什麼一清二楚。

模型的用法也跟著變了。Hermes 不是「選一個模型」，是 8 個獨立的輔助模型槽位：看圖用 GPT-4o、網頁萃取用 Gemini Flash、壓縮上下文用 Gemini 3 Flash、審批判斷用 Claude Sonnet。每種任務配最適合的刀，主模型掛了還有 fallback 鏈自動切換。在自家 VM 上當免費仔切過六次模型的人，看到這個設計只有一個感想：早該如此。

多 Agent 從 demo 變成可以上班

講多 Agent 協作的專案很多，大部分停在「看起來很酷的展示影片」。Hermes v0.12 的做法樸素得多：一塊 Kanban 板。多個 Agent profile 各自認領任務，被卡住就交還，單一介面監控全部進度。v0.13 補上 heartbeat、殭屍偵測、幻覺閘門、單任務重試上限——這些名詞翻譯成白話就是：有人盯著誰睡著了、誰在胡說八道、誰卡死了該換人。

每個 profile 有獨立的 config、API keys、工具、記憶和 SOUL.md 人設，可以組出 PM、Researcher、Writer、Reviewer 這種分工。不過社群也很誠實地提醒：7 個 profile 就是 7 套 HERMES_HOME 加 7 份 API 帳單，solo 開發者量力而為。多 Agent 不是免費的平行加速，是用錢換時間。

自由的代價是七層防禦

能力長這麼快，風險跟著長。一個 24/7 在線、會自己學新招、能控制瀏覽器的 Agent，出事的方式比你想像的多。Hermes 的回答是七層縱深防禦：使用者認證、指令審批、容器隔離（Docker Drop ALL）、憑證過濾、Tirith 執行前掃描、上下文檔案注入防護、SSRF 防護封鎖內網與 cloud metadata。

v0.13 一口氣修了 8 個 P0 安全問題，Redaction 預設啟用，WhatsApp 預設拒絕陌生人。連 --yolo 模式都不能覆蓋 hardline blocklist——rm -rf / 跟 fork bomb 永遠被擋。社群還是有警告流傳：Chrome MCP 加自我學習是風險組合，務必設 hard domain restrictions、記錄每個 action。Agent 會自己進化聽起來很美，但它進化出來的招你沒看過，這正是要多裝幾道鎖的理由。

背後就一條線

30 天、1400 多個 PR，攤開來看全部指向同一件事：把 Agent 從「工具」改造成「會累積的系統」。

Skills 自動封裝是累積解法，Curator 是控制累積的品質，MCP 雙向是讓累積的能力可以被別的系統取用，Kanban 是讓多個累積中的 Agent 互相協調，七層防禦是確保累積的過程不會出軌。每個功能單看都只是 nice to have，串起來才是護城河——用越久越便宜、越用越熟練的 Agent，跟每次都從零開始的 Agent，三個月後就不在同一個量級了。

挑 Agent 框架的時候，與其問「它現在會什麼」，不如問「它三個月後會比現在強多少」。前者是規格表，後者才是複利。

參考來源：

NousResearch/hermes-agent — GitHub

調查期間 2026/04/16 ~ 2026/05/16，資料來自 Reddit、X/Twitter、GitHub releases/PRs、Hacker News、官方文件等 61 筆原始資料

Hermes Agent — 在自家 VM 部署 AI 助理的完整踩坑記錄