Agent 最值錢的能力,是記得自己怎麼學會的。

這句話聽起來像雞湯,但 Hermes Agent 過去 30 天的進化把它做成了程式碼。上次寫過在自家 VM 部署 Hermes 的踩坑記錄,那時它還是 v0.13.0,一套「能用的開源 AI 代理框架」。一個月後回頭看,數字有點誇張:152K stars、近 9 天 808 commits / 633 PRs、版本從 v0.11 衝到 v0.14,在 OpenRouter 排行榜上超越 OpenClaw 變成第一。

量變不稀奇,開源專案衝星等的戲碼看多了。值得停下來看的是質變——它把「Agent 解過的題」變成了資產。

解一次,封裝一次

Hermes v0.12 之後有個機制:Agent 完成一個用了 5 個以上工具呼叫的複雜任務後,會自動把解法封裝成一個 Skill。下次遇到類似問題,直接調用,不用重新摸索。

這個設計的威力要用數字才看得出來。社群有人實測 Autobrowse 爬 Hacker News:第一次跑,Agent 逐步點擊頁面,花了 102 秒、燒掉 1.46 美金。兩次迭代之後,它自己學會用 JS eval 一口氣取代逐步點擊——35 秒、0.28 美金。同一個任務,成本掉到原本的五分之一。

注意這裡沒有人教它。它從自己的執行軌跡裡萃取出「下次怎麼做更快」,存下來,然後真的變快了。一般的 Agent 是每次都從零開始的實習生,Hermes 想當的是會越做越熟的員工。

而且它不只會學,還會忘。v0.12 加入的 Skill Curator 自動管理生命週期:30 天沒用到的 Skill 降級成 Stale,90 天進 Archived,依使用頻率評分、修剪冗餘。這步常被忽略,但其實是整個系統能長期運作的關鍵——學東西不難,難的是不被自己學過的垃圾淹死。Skills Hub 上現在有 652 個技能、8 個來源,搭配四層信任模型(builtin → official → trusted → community),來路不明的技能進不了核心。

不是接上 MCP,是長在 MCP 上

第二層證據在 MCP 整合的深度。大部分工具說「支援 MCP」,意思是能當 client 連外部 server。Hermes 是雙向的:它既是 client,也能用 hermes mcp serve 把自己變成 server,讓 Claude Code 或 Cursor 反過來連它。

v0.14 加上 supports_parallel_tool_calls,多個工具並行執行;MCP Sampling 讓 server 可以反向請求 Hermes 做 LLM 推理,還能設 rate limit 防止被外部 server 當免費算力用。工具過濾用 include/exclude 白名單黑名單控制,Agent 能碰什麼一清二楚。

模型的用法也跟著變了。Hermes 不是「選一個模型」,是 8 個獨立的輔助模型槽位:看圖用 GPT-4o、網頁萃取用 Gemini Flash、壓縮上下文用 Gemini 3 Flash、審批判斷用 Claude Sonnet。每種任務配最適合的刀,主模型掛了還有 fallback 鏈自動切換。在自家 VM 上當免費仔切過六次模型的人,看到這個設計只有一個感想:早該如此。

多 Agent 從 demo 變成可以上班

講多 Agent 協作的專案很多,大部分停在「看起來很酷的展示影片」。Hermes v0.12 的做法樸素得多:一塊 Kanban 板。多個 Agent profile 各自認領任務,被卡住就交還,單一介面監控全部進度。v0.13 補上 heartbeat、殭屍偵測、幻覺閘門、單任務重試上限——這些名詞翻譯成白話就是:有人盯著誰睡著了、誰在胡說八道、誰卡死了該換人。

每個 profile 有獨立的 config、API keys、工具、記憶和 SOUL.md 人設,可以組出 PM、Researcher、Writer、Reviewer 這種分工。不過社群也很誠實地提醒:7 個 profile 就是 7 套 HERMES_HOME 加 7 份 API 帳單,solo 開發者量力而為。多 Agent 不是免費的平行加速,是用錢換時間。

自由的代價是七層防禦

能力長這麼快,風險跟著長。一個 24/7 在線、會自己學新招、能控制瀏覽器的 Agent,出事的方式比你想像的多。Hermes 的回答是七層縱深防禦:使用者認證、指令審批、容器隔離(Docker Drop ALL)、憑證過濾、Tirith 執行前掃描、上下文檔案注入防護、SSRF 防護封鎖內網與 cloud metadata。

v0.13 一口氣修了 8 個 P0 安全問題,Redaction 預設啟用,WhatsApp 預設拒絕陌生人。連 --yolo 模式都不能覆蓋 hardline blocklist——rm -rf / 跟 fork bomb 永遠被擋。社群還是有警告流傳:Chrome MCP 加自我學習是風險組合,務必設 hard domain restrictions、記錄每個 action。Agent 會自己進化聽起來很美,但它進化出來的招你沒看過,這正是要多裝幾道鎖的理由。

背後就一條線

30 天、1400 多個 PR,攤開來看全部指向同一件事:把 Agent 從「工具」改造成「會累積的系統」。

Skills 自動封裝是累積解法,Curator 是控制累積的品質,MCP 雙向是讓累積的能力可以被別的系統取用,Kanban 是讓多個累積中的 Agent 互相協調,七層防禦是確保累積的過程不會出軌。每個功能單看都只是 nice to have,串起來才是護城河——用越久越便宜、越用越熟練的 Agent,跟每次都從零開始的 Agent,三個月後就不在同一個量級了。

挑 Agent 框架的時候,與其問「它現在會什麼」,不如問「它三個月後會比現在強多少」。前者是規格表,後者才是複利。

參考來源: