大部分人聽到「AI 影片生成」,腦中浮現的是 Sora、Kling 這類工具——輸入一段文字,模型吐出一段影片。

但仔細想一下:你上次需要的「影片」,真的是一段 10 秒的動畫片段嗎?還是一支有旁白、有配圖、有背景音樂的完整短影片?

Sora 解決的是前者。Pixelle-Video 解決的是後者。而這兩件事之間的距離,比大多數人以為的還要遠。


影片界的 LangChain

Pixelle-Video 是阿里巴巴達摩院開源的短影片自動生成引擎。你給它一個主題——比如「為什麼我們還沒有找到外星文明」——它會自動完成文案撰寫、AI 配圖、語音旁白、背景音樂,最後輸出一支完整的短影片。

注意,它不是一個模型。它是一個編排器。

這個區別很重要。就像 LangChain 把 LLM、Embedding、Vector DB 串起來做 RAG pipeline 一樣,Pixelle-Video 把 LLM(寫文案)、圖像生成模型(畫配圖)、影片生成模型(做動態)、TTS(唸旁白)串成一條影片 pipeline。每個環節你都可以自己換模型。

文案用 GPT-4o 或 Qwen?隨你。配圖用 FLUX 或 SDXL?都行。影片用 WAN 2.1 或 LTX-2?看你的 GPU。語音用免費的 Edge-TTS 或能克隆聲音的 Index-TTS?錢包決定。

這個「原子能力自由組合」的設計,是它跟所有「一站式影片生成工具」最根本的差別。一站式工具的問題在於:模型過時了,整個工具就過時了。Pixelle-Video 的思路是——模型來來去去,pipeline 才是持久的東西。一個活了越久的架構設計,未來還會活越久。


八步走完一支影片

整個標準 Pipeline 走八步:環境設定 → 文案生成 → 標題生成 → 視覺規劃 → 分鏡初始化 → 資產生成(圖/影片/語音)→ 後製合成 → 完成。

每一步都可以獨立替換或跳過。不想用 AI 配圖?直接上傳自己的素材。不需要旁白?把 TTS 那步關掉。底層靠 ComfyUI 當 workflow 執行引擎,所以 ComfyUI 社群裡任何厲害的生圖 workflow,都可以直接接進來用。

這設計有一個很工程的好處:你可以用便宜模型跑出草稿版確認流程對不對,滿意之後再把昂貴模型接進去跑正式版。不用一開始就把 GPU 燒在試錯上。


三分鐘。這是拿到一支五分鏡科普影片的大致時間。如果同樣的事要手動做——找素材、寫腳本、錄音、剪輯——至少兩個小時起跳。


安裝:三條路選一條

最簡單的路是 Windows 整合包。從 GitHub Releases 下載,解壓後雙擊 start.bat,瀏覽器自動開啟。不用裝 Python、不用裝 FFmpeg。

稍微進階一點,用 uv 從原始碼跑:

1
2
3
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv run streamlit run web/app.py

Docker 也行:

1
docker-compose up -d

Docker Compose 會起三個服務:init(初始化)、api(FastAPI 後端,port 8000)、web(Streamlit 前端,port 8501)。

硬體需求取決於你選的模型。FLUX 建議 12GB+ VRAM,WAN 2.1 建議 24GB+。沒 GPU?可以用 RunningHub 雲端跑 ComfyUI,但要付費。

不過有一說一,部分使用者在 GitHub issue 裡反映 RunningHub 有引流賣會員的嫌疑。如果介意的話,純本地部署比較安心。


不只是科普影片

Pixelle-Video 最直覺的用法是知識科普——輸入「量子力學入門」,自動產出一段有旁白、有配圖的解說影片。但它有幾個比較出格的功能。

數位人口播:上傳一張人物照片加上文字,系統生成一段數位人口播影片。支援多國語言,適合做多語系行銷素材。一張照片加一段中文文案,五分鐘後你有中、英、韓、法四個語系版本的行銷影片。

動作遷移:上傳一段參考影片(比如跳舞)和一張靜態圖片,圖片裡的角色會做出影片中的動作。社群上最常見的玩法是讓寵物照片「跳舞」——很有效果,也很荒謬。

自訂素材模式:不想用 AI 生成的圖?上傳自己的照片或影片,系統用 LLM 分析素材內容,自動寫腳本、配旁白、合成影片。適合有一堆素材但懶得剪的人。


費用:從零元到不設限

如果你有自己的 GPU、用免費的 Edge-TTS 和開源圖片模型,基本上零成本。

如果你把 LLM 換成 GPT-4o,配圖換成 FLUX2 商業版,語音用 Index-TTS 的付費克隆功能,一支五分鏡影片的成本大概在 $0.5 到 $2 之間。跟請一個剪輯師比,這個數字幾乎可以忽略。

但別指望零成本方案能產出商業級品質。免費模型跟付費模型之間的差距是看得見的——文案的流暢度、配圖的精細度、語音的自然度,每一環都差一點,最後加起來就差很多。


現在值不值得用

值得試。不一定值得投入。

值得試的原因:它是目前極少數把「完整影片製作 pipeline」開源的專案。11,000 顆星、1,700 個 fork、Apache 2.0 授權、持續更新——這些都是健康的社群指標。

不一定值得投入的原因:社群以中文為主,英文文件偏簡略。Playwright 偶發崩潰的問題還沒完全解決。而且 WAN 2.2 的 1080P 影片品質被使用者回報模糊——影片生成模型這塊的天花板還在快速移動中。

背後的真正問題其實是:工具的價值跟它串接的模型的壽命綁在一起。 今天你精心配好的 pipeline,三個月後可能有更好的模型出來,整套要重新調。Pixelle-Video 的「原子組合」設計讓這個切換成本比較低,但不等於沒有成本。

如果你是自媒體工作者,每天要產出多條短影片,它可以把你從繁瑣的剪輯工作裡解放出來——至少解放掉 70%。如果你是偶爾做一支影片的人,用 CapCut 可能比學一套 pipeline 更快。

工具的選擇從來不是「好不好」的問題。是「你的使用頻率有沒有高到讓學習成本攤薄」的問題。