剪片這件事,工具換了一代又一代,可是你坐在電腦前要做的那個動作,二十年來幾乎沒變過:在一條時間軸上,把素材拖來拖去。

Premiere、Final Cut、DaVinci Resolve,介面一個比一個漂亮,軌道一個比一個多。但核心互動還是那一套——你用滑鼠,一刀一刀,在時間軸上對齊、裁切、疊加、調色。學會它要花多久?去問任何一個幫朋友剪過婚禮影片的人就知道,那個單位是「週」,不是「小時」。剪輯軟體真正的門檻,從來不是買不買得起,是那條時間軸本身就是一門要練的手藝。

第一次鬆動:把影片變成一篇可以刪字的稿子

真正動搖這件事的,是 Descript。

它做了一件當年看起來有點怪的事:把你的影片先轉成逐字稿,然後讓你「編輯文字」。你在稿子裡刪掉一句講壞的話,對應的那段影片就跟著被剪掉了;你把兩段話的順序對調,畫面也跟著重排。剪片第一次不再是拖時間軸,而是改一篇 Word 文件。

這一步的聰明,在於它找對了影片裡「資訊密度最高」的那層東西。一段 talking head 影片,畫面其實沒什麼變化——一個人坐在那裡講話,背景、光線、構圖整段都差不多。真正承載「這支片在講什麼」的,是聲音轉出來的那些字。Descript 賭的就是:既然決策資訊幾乎都在文字裡,那剪輯介面就應該長成文字的樣子。

只是 Descript 走到這裡就停了。你還是得自己讀稿、自己刪、自己決定結構。它把工具換了個樣子,但那雙手,還是你的。

走到底的人:你連字都不用刪了

把這條路走到盡頭的,是 browser-use 團隊在 2025 年 4 月開源的 video-use

它不是一個你打開來用的 app,而是一個掛在 AI coding agent(Claude Code、Codex 這類)底下的 skill。用法簡單到有點不真實:你把一堆原始素材丟進一個資料夾,cd 進去,啟動 agent,然後打一句話:

1
2
3
cd /path/to/your/raw-footage
claude
> edit these into a launch video

接下來清點素材、轉錄、提剪輯策略、調色、加字幕、輸出 final.mp4,整條流程它自己跑完。你從「改一篇稿子」退到了「講一句話」。

這裡值得停一下,因為大部分人對「AI 剪片」的想像,跟 video-use 實際在做的事,剛好是反的。

它最反直覺的一招:幾乎不看畫面

你大概會猜,AI 要會剪片,得先「看懂」影片——把每一幀餵給某個視覺模型,讓它理解畫面裡發生了什麼。

算一下這條路有多貴就知道行不通。一段 30 秒的影片大約 900 幀,全丟給 vision model 大概要燒掉 135 萬個 token;一小時素材直接衝到 4,500 萬。這不是慢的問題,是貴到根本沒人玩得起的問題。

video-use 的做法是掉頭走另一邊:它主要不靠「看」,靠「讀」。把所有素材轉成 word-level 的逐字稿,這份稿子才是它推理的主要依據。一小時的原始素材打包成逐字稿,大約只有 12KB——跟暴力送 frame 的 4,500 萬 token 比,省掉了 99.97% 以上。

這套思路其實跟它的兄弟專案 browser-use 一模一樣。browser-use 讓 AI 操作網頁時,餵給模型的不是螢幕截圖,而是結構化之後的 DOM;video-use 餵的不是畫面,是逐字稿。同一個團隊,把同一個信念套到了兩個領域:讓模型讀結構化的摘要,不要讓它去啃原始的像素。

打個比方就清楚了。你請一個朋友幫你從三小時的會議錄影裡剪出五分鐘精華,他不會真的把每一幀畫面都盯著看完。他會先抓逐字稿,劃出哪幾段講得好、哪幾段是廢話,心裡的剪輯版本大致就成形了。只有在「這個人講到這裡是不是停頓得很尷尬」「這兩個 take 哪個表情比較好」這種非看不可的點上,他才會倒回去看那一小段畫面。

video-use 就是這麼工作的。它管這叫 text-first + on-demand visuals:平常讀文字做決策,真的需要眼睛時,才臨時生成一張把 filmstrip、waveform 和文字標籤拼在一起的合成圖,看一眼,繼續。

它跑起來的樣子

把 agent loop 攤開,大概長這樣:先用 ffprobe 清點所有素材、丟給 ElevenLabs Scribe 批次轉錄、打包成精簡逐字稿,這是 Inventory。接著它讀完稿子會反過來問你問題,確認你要的風格和結構,這是 Converse。然後它提出一份 4 到 8 句的剪輯策略,等你點頭。

點頭之後才開始動工:產生一份叫 EDL 的東西——本質是一張 JSON 格式的剪輯決策表,記著「從哪一段的第幾秒剪到第幾秒、接到哪裡、套什麼調色」。動畫平行生成、調色、render,一條龍下來。

最有意思的是它不會直接把成品丟給你。渲染完之後它會先自我檢查:在每一個剪接點跑一次 timeline_view,產生那張 filmstrip 加 waveform 的合成圖,盯著看有沒有視覺跳切太突兀、有沒有 audio pop、字幕有沒有擋到人臉。發現問題就自己改 EDL、重新渲染,最多跑三輪,三輪後還搞不定才回來告訴你。這個「渲染 → 檢查 → 修正」的小迴圈,是它成品品質比一次渲染穩的關鍵。

那些聽起來很瑣碎、但少了就很出戲的細節,它也都默默處理掉了:自動偵測並剪掉「嗯」「呃」這些 filler words 和重講的開頭;每個剪接點補上 30 毫秒的淡入淡出,消掉那聲惱人的 audio pop;字幕燒成兩字一組的大寫粗體;最後把響度正規化到 -14 LUFS,這是社群平台的標準音量。你不用懂這些術語,它幫你對齊了,這正是重點。

做完之後,整個 session 的狀態會寫進一個 project.md,下次打開自動接續——你昨天剪到一半關掉,今天回來它記得你們聊到哪。

不要把它想成萬能的

照慣例,講完好處要把醜話也說在前面,不然這篇就變成業配了。

最直接的一個成本:轉錄用的 ElevenLabs Scribe 是付費 API,每跑一次轉錄都在花錢。官方甚至提醒,安裝驗證的時候別手癢去跑轉錄測試。它也刻意排除了本地 Whisper,理由很直白——慢,而且會自動把 filler words「修掉」,反而害它抓不到該剪的停頓。為了準確,它選擇把這筆錢花出去。

還有幾條邊界要先認清:它主要靠音訊逐字稿做決策,所以沒有語音的純畫面——風景空景、舞蹈影片——它就有點使不上力。動畫能力也有天花板,PIL 做簡單疊加、Manim 做技術示意、Remotion 做 React/CSS 動效,但別指望 After Effects 等級的特效。它本身也不是獨立軟體,必須跑在 Claude Code 或 Codex 這類 agent 宿主裡,沒有 agent 它就只是一堆 helper script。

入口退到一句話之後

把這條時間線從頭看一遍會發現一個規律:剪片這件事,每一代工具都在往同一個方向退——從拖時間軸,退到改逐字稿,再退到講一句話。每退一步,被拿掉的都是「動手的技藝」那部分。

於是真正的問題就浮出來了。當按下生成鍵、把素材剪成成品這件事的成本趨近於零,剪輯師的價值還剩下什麼?大概不會是「會不會用軟體」,而是退到更上游的地方——你到底想講一個什麼樣的故事、這支片該用哪一種節奏鉤住人、哪一句話值得留、哪一段再捨不得也要砍。video-use 能幫你執行一份剪輯策略,但那份策略要不要動人,它幫不了你。

下一個被退掉的環節會是什麼,現在還不好說。但可以確定的是,當工具一路把「怎麼做」扛走,剩下沒人能幫你扛的,就只有「要做什麼」這一題了。

原文來源:GitHub: browser-use/video-use