Self-Evolving Agents - 讓 AI Agent 自己進化的完整技術地圖

發表於2026-04-06|更新於2026-04-13|Claude Code

|總字數:898|閱讀時間:2分鐘|瀏覽量:

前陣子在看 University of Glasgow 的研究，發現一個有夠猛的方向：AI Agent 能夠自己進化，不用人類干預就越來越強。以前我們都以為模型 deploy 下去就固定了，沒想到還有這麼多角度可以自我優化。

Agent 自己進化，到底在進化什麼？

Self-Evolving Agent 的核心概念其實很簡單：讓系統在運作過程中自動改善自己。但「改善」這個詞太寬泛了。這波操作跨越 4 個維度：

第一個維度是 LLM 本身的行為。透過 Reinforcement Learning 和 self-play 這類技巧，模型能從自己的嘗試裡學習。STaR（Self-Taught Reasoner）就是代表作，它讓模型從推理過程中的成功案例自動學習。Absolute Zero 是今年新出的，直接從零資料開始自我對弈，效果炸了。

第二個維度是 Prompt 優化。有人用進化演算法，有人用梯度下降，用 TextGrad 或 OPRO 這樣的框架，系統能自動調整提示詞。不用人類手工調整，程式自己試出更有效的 prompt。

第三個維度是記憶機制。A-MEM 和 Mem0 專注在怎麼壓縮、檢索、跨 session 保留重要資訊。這裡的重點是讓 Agent 記得上次學到的東西，累積經驗。

第四個維度是工具。CREATOR 和 ReTool 這類框架，能讓 Agent 自己寫新工具或改進既有工具。這是最硬核的部分，直接生成程式碼。

技術分類：四個層級的突破

整個領域粗略分成四類。Single-Agent Optimization 是單個 Agent 自己練習，比如 Self-Rewarding Language Models，讓模型自己評分、自己改進。

Multi-Agent Optimization 更有趣，多個 Agent 互相較勁。MetaGPT、GPTSwarm、AFlow 這類框架，讓不同 Agent 協作或競爭，整體系統變得更聰明。

Domain-Specific 的應用已經開始爆發。quantitative trading、biomedical research、software development，各領域都有特化的解決方案。

Evaluation 是最容易踩坑的地方。怎麼評估 Agent 有沒有真的進化，而不是過度優化某個指標？DSPy 和其他框架都在解決這個問題。

代表作和開源生態

EvoAgentX 是 EMNLP’25 的新星，直接整合了進化框架。MASLab 專注多智能體，OpenHands 做自動化開發，OpenEvolve 提供通用基礎。還有 MCP-Zero 這類新東西，把 Claude 的 MCP 生態跟 Agent 進化綁在一起，真的蠻新穎的。

現在（2024-2025）發生了什麼

零資料自我對弈爆發。Absolute Zero 這類工作證明 Agent 不需要人類標注資料，就能透過自我對弈進化。

RL 用在工具使用上。不再只是優化語言輸出，而是優化 Agent 怎麼選擇和組合工具。

MCP 生態成了新的連接點。Agent 透過 MCP 協議連接各種工具和服務，進化變成了自動系統設計的問題。

記憶不再是附加功能，而是核心。記憶的品質直接影響進化效率。

應該知道的風險

好事總有代價。AutoDAN-Turbo 這類研究證明自進化系統容易被利用來生成 jailbreak 提詞。Agent 在優化過程中可能會強化幻覺而不是學到真實知識。評估困難、計算成本高、進化方向不可控，這些都是未來要解決的課題。

但這些限制擋不住這波浪潮。讓 AI 系統自己進化，少依賴人類干預，這是接下來幾年最激動人心的方向。

原文來源：Awesome-Self-Evolving-Agents (GitHub)

文章作者: Cheng®

文章連結: https://mark22013333.github.io/2026/04/06/Self-Evolving-Agents-讓-AI-Agent-自己進化的完整技術地圖/

版權聲明: 本部落格所有文章除特別聲明外，均採用CC BY-NC-SA 4.0 授權協議。轉載請註明來源 Cheng's Tech & Life！

LLM AI Agent MCP Claude Code

你的鼓勵將被轉換為我明天繼續加班的動力（真的）。 ❤️

相關推薦

MCP Server 開發入門教學 — 用 Python 從零打造 AI 工具連接器

你家一定有 USB 轉接頭。Type-C 轉 HDMI、Lightning 轉 3.5mm、各種奇奇怪怪的接頭。轉接頭本身不做任何事，它只是讓兩個本來講不同語言的東西能接上。螢幕不需要知道你的筆電是什麼牌子，筆電也不需要知道螢幕的解析度怎麼設定 — 轉接頭搞定一切。 MCP（Model Context Protocol）就是 AI 世界的 USB 轉接頭。 Anthropic 開發了這個開放協定，現在已經捐給 Linux Foundation AAIF。它讓 AI model 連接外部工具和資料來源，不管是資料庫、API、檔案系統，接上就能用。目前生態系已經長到 164M 月下載量、超過 2,400 個 server，Microsoft、GitHub、Cloudflare、Stripe 都在用。Claude Code、Cursor、Kiro 這些 AI coding 工具也全部支援。這不是什麼還在實驗階段的新玩意。這已經是事實標準了。 MCP 的三個核心原語在寫 code 之前，先搞懂 MCP 的三個核心概念。我用遙控器來比喻： Tools（工具） — 遙控器上的按鈕。按下「計...

Agent Broker - 用 Discord 操控 AI Coding Agent 的 Rust 橋接服務

Discord 頻道裡 @mention 一個 bot，它就能幫你寫程式、code review、分析架構。背後串接的是 Claude Code、Kiro CLI、Codex 這些 AI coding agent。Agent Broker 就是那個站在中間的翻譯官——用 Rust 寫的橋接服務，把 Discord 和任何支援 ACP 協定的 coding CLI 串在一起。這東西解決什麼問題團隊裡不是每個人都習慣開終端機跟 AI 互動。有些人就是活在 Discord 裡面，開會在 Discord、討論在 Discord、連摸魚都在 Discord。Agent Broker 的邏輯很直接：既然人在 Discord，那 AI 也該在 Discord。核心架構長這樣：使用者在 Discord 打字 → Agent Broker 收到後轉成 ACP 協定的 JSON-RPC → 丟給後端 CLI（Claude Code、Kiro、Codex 都行）→ AI 回應串流回 Discord 即時顯示。每個 Discord thread 會 spawn 一個獨立的 CLI process，多...

OpenSoul - 以大腦神經結構為靈感的認知 AI 框架

每次開新的 ChatGPT 對話，它都不記得你昨天講了什麼。用 Claude Code 開新 session，前一輪的 debug 心得全部歸零。LLM 的記憶，基本上跟金魚差不多。 OpenSoul 試圖改變這件事。它在 LLM 之上疊了一層認知架構，靈感來自人腦的神經結構——海馬迴管情節記憶、新皮質管語意記憶、基底核管程序記憶，甚至還有多巴胺和血清素的虛擬版本來調控 AI 的「情緒」。聽起來很科幻？確實，但它的設計文件讀起來比大多數「AI 認知」專案都嚴謹得多。三層記憶圖譜OpenSoul 把記憶存在 FalkorDB（基於 Redis 的圖資料庫）裡，分成三層：情節記憶（Episodic Memory）對應海馬迴，記錄具體的對話片段。「你上次說你喜歡喝咖啡」——就是這一層在運作。語意記憶（Semantic Memory）對應新皮質，儲存從對話中提煉出來的通用知識。「Python 是程式語言」這種事實性資訊住在這裡。程序記憶（Procedural Memory）對應基底核，記住「這個使用者常犯的錯」之類的行為模式。每次對話時，系統用 EcphoryRAG 做聯想檢索...

Claude Code 完整教學索引 — 從入門到進階的所有文章整理

這個頁面整理了我寫過的所有 Claude Code 相關文章，從完全不懂到能拿它做正經事，按照學習路徑排好了。如果你是第一次接觸，從「入門與基礎」開始看；如果已經在用了想挖更多玩法，直接跳到你有興趣的段落。文章持續更新中，有新的會往上加。入門與基礎還不確定 Claude Code 是什麼、跟 Chat 和 Cowork 差在哪的，先看這幾篇。 Claude Desktop 三種模式怎麼切？Chat、Cowork、Code 完整導覽 — Chat、Cowork、Code 三種模式的定位與切換時機 Claude Cowork 入門指南 — 讓 AI 在你電腦上自己幹活 — Cowork 模式怎麼用、能做什麼 Claude Code Auto Mode — 讓 AI 自己決定該不該執行指令 — 自動核准指令，不用一直按 y Claude Code /powerup 互動式教學與 April 2026 重點更新完整指南 — 用 /powerup 學功能，順便看四月更新了什麼核心功能這幾篇是用 Claude Code 做事的基本功，搞懂這些效率差很多。 ...

Claude Code /powerup 互動式教學與 April 2026 重點更新完整指南

打開 Claude Code 輸入 /powerup，終端機裡跑出一段互動式動畫教學。不用開瀏覽器、不用翻文件，在你寫程式的地方直接學怎麼用這個工具。這是 v2.1.89 加進來的新功能，搭配同一時期的 MCP 500K 上限、headless defer 機制和 /cost 增強，四月的第一週就塞了四個版本更新。 /powerup：終端機裡的互動教學/powerup 的設計哲學很明確——新手不需要離開終端機就能學會 Claude Code 的核心功能。每個 lesson 都有動畫示範，不是只給你看文字說明，而是實際在終端機裡播放操作過程。 12345# 啟動 Claude Code 後直接打/powerup# 會看到課程選單，選你想學的功能# 每個課程有互動式的 step-by-step 引導跟一般文件的差別在哪？文件告訴你「你可以用 /loop 設定排程」，/powerup 則是在終端機裡示範整個設定流程，讓你跟著操作。學習曲線直接壓平一截。對比一下其他 AI coding 工具的新手引導：Cursor 靠的是 GUI 裡的 to...

Cinematic UI — 讓 AI 像電影導演一樣做網頁設計的推理框架

200 位導演、80 種構圖、1,486 個網站 DNA、2.9MB 的設計資料庫——這是一個 npm 套件會塞的東西嗎？不是，它根本不是套件。大部分 AI 設計工具的問題，不是 AI 不夠聰明，是我們讓它做錯的事。你給它一個色板、一組元件、一套排版模板，叫它「挑一個」。結果就是你看到的 AI 首頁千篇一律——Hero 配大標題、三欄 Features、CTA 按鈕、footer 放社群 icon。Cinematic UI 這個專案的切入角度很反直覺：問題不在素材不夠多，是 AI 根本不該在「挑選」這一層做事。你以為的 AI 設計 vs 它想做的事想像一下這個對比。一個設計師接到「幫我做一個有電影感的網站」，他會怎麼開始？如果他是個懂設計的人，大概會先問你——「你說的電影感是王家衛那種、還是 Fincher 那種？」然後打開 Mubi 看半天，把某部片的色調、節奏、構圖邏輯拆解出來，再開始畫 wireframe。換成 AI 呢？它直接打開元件庫，挑一個叫做「cinematic」的預設主題，套上去給你。成品當然有模有樣，但不會有靈魂——因為它根本沒做過「拆解一位導演的視覺語言...

評論

資料載入中