Pixelle-Video — 一句話生成完整短影片的 AI 編排引擎

大部分人聽到「AI 影片生成」，腦中浮現的是 Sora、Kling 這類工具——輸入一段文字，模型吐出一段影片。

但仔細想一下：你上次需要的「影片」，真的是一段 10 秒的動畫片段嗎？還是一支有旁白、有配圖、有背景音樂的完整短影片？

Sora 解決的是前者。Pixelle-Video 解決的是後者。而這兩件事之間的距離，比大多數人以為的還要遠。

影片界的 LangChain

Pixelle-Video 是阿里巴巴達摩院開源的短影片自動生成引擎。你給它一個主題——比如「為什麼我們還沒有找到外星文明」——它會自動完成文案撰寫、AI 配圖、語音旁白、背景音樂，最後輸出一支完整的短影片。

注意，它不是一個模型。它是一個編排器。

這個區別很重要。就像 LangChain 把 LLM、Embedding、Vector DB 串起來做 RAG pipeline 一樣，Pixelle-Video 把 LLM（寫文案）、圖像生成模型（畫配圖）、影片生成模型（做動態）、TTS（唸旁白）串成一條影片 pipeline。每個環節你都可以自己換模型。

文案用 GPT-4o 或 Qwen？隨你。配圖用 FLUX 或 SDXL？都行。影片用 WAN 2.1 或 LTX-2？看你的 GPU。語音用免費的 Edge-TTS 或能克隆聲音的 Index-TTS？錢包決定。

這個「原子能力自由組合」的設計，是它跟所有「一站式影片生成工具」最根本的差別。一站式工具的問題在於：模型過時了，整個工具就過時了。Pixelle-Video 的思路是——模型來來去去，pipeline 才是持久的東西。一個活了越久的架構設計，未來還會活越久。

八步走完一支影片

整個標準 Pipeline 走八步：環境設定 → 文案生成 → 標題生成 → 視覺規劃 → 分鏡初始化 → 資產生成（圖/影片/語音）→ 後製合成 → 完成。

每一步都可以獨立替換或跳過。不想用 AI 配圖？直接上傳自己的素材。不需要旁白？把 TTS 那步關掉。底層靠 ComfyUI 當 workflow 執行引擎，所以 ComfyUI 社群裡任何厲害的生圖 workflow，都可以直接接進來用。

這設計有一個很工程的好處：你可以用便宜模型跑出草稿版確認流程對不對，滿意之後再把昂貴模型接進去跑正式版。不用一開始就把 GPU 燒在試錯上。

三分鐘。這是拿到一支五分鏡科普影片的大致時間。如果同樣的事要手動做——找素材、寫腳本、錄音、剪輯——至少兩個小時起跳。

安裝：三條路選一條

最簡單的路是 Windows 整合包。從 GitHub Releases 下載，解壓後雙擊 start.bat，瀏覽器自動開啟。不用裝 Python、不用裝 FFmpeg。

稍微進階一點，用 uv 從原始碼跑：

1
2
3

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

Docker 也行：

1	docker-compose up -d

Docker Compose 會起三個服務：init（初始化）、api（FastAPI 後端，port 8000）、web（Streamlit 前端，port 8501）。

硬體需求取決於你選的模型。FLUX 建議 12GB+ VRAM，WAN 2.1 建議 24GB+。沒 GPU？可以用 RunningHub 雲端跑 ComfyUI，但要付費。

不過有一說一，部分使用者在 GitHub issue 裡反映 RunningHub 有引流賣會員的嫌疑。如果介意的話，純本地部署比較安心。

不只是科普影片

Pixelle-Video 最直覺的用法是知識科普——輸入「量子力學入門」，自動產出一段有旁白、有配圖的解說影片。但它有幾個比較出格的功能。

數位人口播：上傳一張人物照片加上文字，系統生成一段數位人口播影片。支援多國語言，適合做多語系行銷素材。一張照片加一段中文文案，五分鐘後你有中、英、韓、法四個語系版本的行銷影片。

動作遷移：上傳一段參考影片（比如跳舞）和一張靜態圖片，圖片裡的角色會做出影片中的動作。社群上最常見的玩法是讓寵物照片「跳舞」——很有效果，也很荒謬。

自訂素材模式：不想用 AI 生成的圖？上傳自己的照片或影片，系統用 LLM 分析素材內容，自動寫腳本、配旁白、合成影片。適合有一堆素材但懶得剪的人。

費用：從零元到不設限

如果你有自己的 GPU、用免費的 Edge-TTS 和開源圖片模型，基本上零成本。

如果你把 LLM 換成 GPT-4o，配圖換成 FLUX2 商業版，語音用 Index-TTS 的付費克隆功能，一支五分鏡影片的成本大概在 $0.5 到 $2 之間。跟請一個剪輯師比，這個數字幾乎可以忽略。

但別指望零成本方案能產出商業級品質。免費模型跟付費模型之間的差距是看得見的——文案的流暢度、配圖的精細度、語音的自然度，每一環都差一點，最後加起來就差很多。

現在值不值得用

值得試。不一定值得投入。

值得試的原因：它是目前極少數把「完整影片製作 pipeline」開源的專案。11,000 顆星、1,700 個 fork、Apache 2.0 授權、持續更新——這些都是健康的社群指標。

不一定值得投入的原因：社群以中文為主，英文文件偏簡略。Playwright 偶發崩潰的問題還沒完全解決。而且 WAN 2.2 的 1080P 影片品質被使用者回報模糊——影片生成模型這塊的天花板還在快速移動中。

背後的真正問題其實是：工具的價值跟它串接的模型的壽命綁在一起。 今天你精心配好的 pipeline，三個月後可能有更好的模型出來，整套要重新調。Pixelle-Video 的「原子組合」設計讓這個切換成本比較低，但不等於沒有成本。

如果你是自媒體工作者，每天要產出多條短影片，它可以把你從繁瑣的剪輯工作裡解放出來——至少解放掉 70%。如果你是偶爾做一支影片的人，用 CapCut 可能比學一套 pipeline 更快。

工具的選擇從來不是「好不好」的問題。是「你的使用頻率有沒有高到讓學習成本攤薄」的問題。