ChatGPT 能跟你聊天,但它沒有臉。它沒有聲音,不會在 Minecraft 裡幫你砍樹,更不可能幫你開冷氣。大部分人對「AI 虛擬角色」的認知停留在一個會動嘴的 Live2D 模型配上 TTS 念稿——那不是虛擬角色,那是投影片加語音朗讀。

Project AIRI 做的事不太一樣。37,000 顆星,全開源,讓你從零組裝出一個有腦、有耳、有嘴、有身體的數位生命。

不是聊天機器人,是「數位生命基礎建設」

這個比喻可能有點大,但架構撐得起來。AIRI 把一個 AI 角色拆成幾個器官:

是 LLM,負責理解和生成語言。是語音辨識模組,即時聽你說話。是 TTS 語音合成,把文字變成聲音回覆。身體則是 Live2D 或 3D 模型,讓角色有表情、有動作。

關鍵在「全套」。市面上多數方案讓你自己東拼西湊——這邊接一個 Whisper,那邊串一個 ElevenLabs,Live2D 另外搞——結果 latency 疊上去,對話體驗跟打國際電話一樣。AIRI 把這些全包進一個事件驅動的 WebSocket Hub,所有模組透過 server-sdk 連到中央的 server-runtime,延遲壓在體感即時的水準。

Monorepo 的規模有夠誇張

打開 GitHub 一看:pnpm workspace + Turborepo,全 TypeScript 加 Vue 3,大約 6 個 App、43 個 Package、5 個 Service、4 個 Plugin。整個 repo 大小約 887MB,1,807 個 TS/Vue 檔案。

這個數字代表什麼?代表這不是某個週末 hackathon 的產物。它是認真跑 monorepo 管理、有 CI/CD、有模組邊界的工程專案。43 個 package 意味著每個功能都被拆成獨立可測試的單元——語音辨識一個包、TTS 一個包、Minecraft 引擎一個包、Discord 整合一個包。你可以只用你要的部分。

Minecraft 認知引擎:不是 bot,是隊友

這是我覺得整個專案最有趣的部分。

一般的 Minecraft bot 就是執行指令:「去座標 (100, 64, 200) 放一個石頭」。AIRI 的 Minecraft 模組不一樣,它有一整套「認知引擎」。你可以用自然語言說:

  • 「幫我砍一棵樹」
  • 「跟著我」
  • 「去找鑽石」

底層用的是 Mineflayer(Node.js 的 Minecraft bot 框架)加上一層 LLM 自然語言理解。AIRI 會把你的指令拆解成一連串遊戲動作,還會處理路徑規劃、障礙物迴避這些細節。

簡單來說,它像是一個真的會玩遊戲的 AI 隊友,不是那種站在原地等你打指令的木頭人。你對它說「天黑了,我們找個地方蓋房子吧」,它真的會開始動作。

Plugin 系統:用狀態機管生命週期

AIRI 的 Plugin 架構用了 xstate 狀態機來管理每個插件的生命週期:

1
認證 → 版本協商 → 宣告能力 → 配置 → 啟動

這個設計蠻漂亮的。每個階段都有明確的狀態轉移,不會出現「插件載入一半卡住但主程式不知道」的鬼故事。支援 local 和 remote transport,意思是插件可以跑在同一台機器,也可以跑在遠端伺服器。

目前已經有的插件生態:

  • Bilibili 直播——直接在 B 站開台當 AI VTuber
  • Discord 整合——在 Discord 頻道裡當聊天機器人
  • Home Assistant——控制智慧家居,叫 AI 角色幫你開燈關冷氣
  • 瀏覽器擴充——把 AI 角色嵌入瀏覽器

Claude Code 的整合插件也在裡面,笑死,連 AI 開發工具都能跟虛擬角色串在一起。

誰在用、怎麼用

AIRI 的使用場景比想像中廣:

AI VTuber 直播的人可以在 Twitch、YouTube、Bilibili 開台,AI 角色自己跟觀眾互動、回覆彈幕。做 Discord 社群的可以丟一個有個性的 AI 機器人進去,不再是那種只會回「收到您的訊息」的罐頭 bot。玩 Minecraft 的可以叫一個 AI 隊友陪你探索。甚至有人拿來當 Telegram 聊天機器人,或是接 Home Assistant 控制家裡的燈泡和冷氣。

最低門檻的玩法:打開瀏覽器連 https://airi.moeru.ai,直接就能體驗。想要完整版桌面端,需要 Node.js 23 以上加 pnpm。

踩坑提醒

幾個你可能會遇到的坑:

LLM API Key 自備。AIRI 本身不提供 LLM 服務,你得自己帶 OpenAI、Claude 或其他相容 API 的 Key 進去。這代表每次對話都會燒你的 token 額度,長時間直播的話帳單會蠻可觀的。

Node.js 版本要求高。23 以上,比大部分專案的要求都新。如果你的開發環境還停在 18 或 20,得先升版。用 nvm 切一下就好,但別忘了。

WebGPU 本地推理還在實驗階段。想完全不靠外部 API、在本機跑 LLM 推理的話,目前的 WebGPU 支援還不夠穩定,效能也有限。短期內還是建議接雲端 API。

另外官方特別聲明:沒有任何加密貨幣。看到有人拿 AIRI 名義發幣,那是詐騙。

一個判斷框架

評估一個開源 AI 專案值不值得投入時間,我通常看三件事:

第一,架構是否可組合。AIRI 用 monorepo 拆成 43 個 package,你可以只取你要的模組,不用全吞。這比那些「一個 main.py 搞定一切」的專案健康太多。

第二,有沒有逃生路線。所有 LLM 互動都走標準 API,今天用 OpenAI 明天換 Claude 後天換本地模型,不會被鎖死。插件系統也是標準的狀態機協議,不依賴特定供應商。

第三,社群訊號。37K+ stars 不是灌水能灌出來的,而且持續有新的 plugin 和功能被提交。一個 repo 如果半年沒更新,star 再多也沒意義。

AIRI 這三項都過關。它不是那種「Demo 很酷但你永遠不會在生產環境用」的玩具,而是一個你可以認真拿來做事的平台——前提是你願意花時間理解那 43 個 package 之間的關係。

原文來源:Project AIRI GitHub