video-use — 剪一支片，從在時間軸上拖三小時退化成講一句話

剪片這件事，工具換了一代又一代，可是你坐在電腦前要做的那個動作，二十年來幾乎沒變過：在一條時間軸上，把素材拖來拖去。

Premiere、Final Cut、DaVinci Resolve，介面一個比一個漂亮，軌道一個比一個多。但核心互動還是那一套——你用滑鼠，一刀一刀，在時間軸上對齊、裁切、疊加、調色。學會它要花多久？去問任何一個幫朋友剪過婚禮影片的人就知道，那個單位是「週」，不是「小時」。剪輯軟體真正的門檻，從來不是買不買得起，是那條時間軸本身就是一門要練的手藝。

第一次鬆動：把影片變成一篇可以刪字的稿子

真正動搖這件事的，是 Descript。

它做了一件當年看起來有點怪的事：把你的影片先轉成逐字稿，然後讓你「編輯文字」。你在稿子裡刪掉一句講壞的話，對應的那段影片就跟著被剪掉了；你把兩段話的順序對調，畫面也跟著重排。剪片第一次不再是拖時間軸，而是改一篇 Word 文件。

這一步的聰明，在於它找對了影片裡「資訊密度最高」的那層東西。一段 talking head 影片，畫面其實沒什麼變化——一個人坐在那裡講話，背景、光線、構圖整段都差不多。真正承載「這支片在講什麼」的，是聲音轉出來的那些字。Descript 賭的就是：既然決策資訊幾乎都在文字裡，那剪輯介面就應該長成文字的樣子。

只是 Descript 走到這裡就停了。你還是得自己讀稿、自己刪、自己決定結構。它把工具換了個樣子，但那雙手，還是你的。

走到底的人：你連字都不用刪了

把這條路走到盡頭的，是 browser-use 團隊在 2025 年 4 月開源的 video-use。

它不是一個你打開來用的 app，而是一個掛在 AI coding agent（Claude Code、Codex 這類）底下的 skill。用法簡單到有點不真實：你把一堆原始素材丟進一個資料夾，cd 進去，啟動 agent，然後打一句話：

1
2
3

cd /path/to/your/raw-footage
claude
> edit these into a launch video

接下來清點素材、轉錄、提剪輯策略、調色、加字幕、輸出 final.mp4，整條流程它自己跑完。你從「改一篇稿子」退到了「講一句話」。

這裡值得停一下，因為大部分人對「AI 剪片」的想像，跟 video-use 實際在做的事，剛好是反的。

它最反直覺的一招：幾乎不看畫面

你大概會猜，AI 要會剪片，得先「看懂」影片——把每一幀餵給某個視覺模型，讓它理解畫面裡發生了什麼。

算一下這條路有多貴就知道行不通。一段 30 秒的影片大約 900 幀，全丟給 vision model 大概要燒掉 135 萬個 token；一小時素材直接衝到 4,500 萬。這不是慢的問題，是貴到根本沒人玩得起的問題。

video-use 的做法是掉頭走另一邊：它主要不靠「看」，靠「讀」。把所有素材轉成 word-level 的逐字稿，這份稿子才是它推理的主要依據。一小時的原始素材打包成逐字稿，大約只有 12KB——跟暴力送 frame 的 4,500 萬 token 比，省掉了 99.97% 以上。

這套思路其實跟它的兄弟專案 browser-use 一模一樣。browser-use 讓 AI 操作網頁時，餵給模型的不是螢幕截圖，而是結構化之後的 DOM；video-use 餵的不是畫面，是逐字稿。同一個團隊，把同一個信念套到了兩個領域：讓模型讀結構化的摘要，不要讓它去啃原始的像素。

打個比方就清楚了。你請一個朋友幫你從三小時的會議錄影裡剪出五分鐘精華，他不會真的把每一幀畫面都盯著看完。他會先抓逐字稿，劃出哪幾段講得好、哪幾段是廢話，心裡的剪輯版本大致就成形了。只有在「這個人講到這裡是不是停頓得很尷尬」「這兩個 take 哪個表情比較好」這種非看不可的點上，他才會倒回去看那一小段畫面。

video-use 就是這麼工作的。它管這叫 text-first + on-demand visuals：平常讀文字做決策，真的需要眼睛時，才臨時生成一張把 filmstrip、waveform 和文字標籤拼在一起的合成圖，看一眼，繼續。

它跑起來的樣子

把 agent loop 攤開，大概長這樣：先用 ffprobe 清點所有素材、丟給 ElevenLabs Scribe 批次轉錄、打包成精簡逐字稿，這是 Inventory。接著它讀完稿子會反過來問你問題，確認你要的風格和結構，這是 Converse。然後它提出一份 4 到 8 句的剪輯策略，等你點頭。

點頭之後才開始動工：產生一份叫 EDL 的東西——本質是一張 JSON 格式的剪輯決策表，記著「從哪一段的第幾秒剪到第幾秒、接到哪裡、套什麼調色」。動畫平行生成、調色、render，一條龍下來。

最有意思的是它不會直接把成品丟給你。渲染完之後它會先自我檢查：在每一個剪接點跑一次 timeline_view，產生那張 filmstrip 加 waveform 的合成圖，盯著看有沒有視覺跳切太突兀、有沒有 audio pop、字幕有沒有擋到人臉。發現問題就自己改 EDL、重新渲染，最多跑三輪，三輪後還搞不定才回來告訴你。這個「渲染 → 檢查 → 修正」的小迴圈，是它成品品質比一次渲染穩的關鍵。

那些聽起來很瑣碎、但少了就很出戲的細節，它也都默默處理掉了：自動偵測並剪掉「嗯」「呃」這些 filler words 和重講的開頭；每個剪接點補上 30 毫秒的淡入淡出，消掉那聲惱人的 audio pop；字幕燒成兩字一組的大寫粗體；最後把響度正規化到 -14 LUFS，這是社群平台的標準音量。你不用懂這些術語，它幫你對齊了，這正是重點。

做完之後，整個 session 的狀態會寫進一個 project.md，下次打開自動接續——你昨天剪到一半關掉，今天回來它記得你們聊到哪。

不要把它想成萬能的

照慣例，講完好處要把醜話也說在前面，不然這篇就變成業配了。

最直接的一個成本：轉錄用的 ElevenLabs Scribe 是付費 API，每跑一次轉錄都在花錢。官方甚至提醒，安裝驗證的時候別手癢去跑轉錄測試。它也刻意排除了本地 Whisper，理由很直白——慢，而且會自動把 filler words「修掉」，反而害它抓不到該剪的停頓。為了準確，它選擇把這筆錢花出去。

還有幾條邊界要先認清：它主要靠音訊逐字稿做決策，所以沒有語音的純畫面——風景空景、舞蹈影片——它就有點使不上力。動畫能力也有天花板，PIL 做簡單疊加、Manim 做技術示意、Remotion 做 React/CSS 動效，但別指望 After Effects 等級的特效。它本身也不是獨立軟體，必須跑在 Claude Code 或 Codex 這類 agent 宿主裡，沒有 agent 它就只是一堆 helper script。

入口退到一句話之後

把這條時間線從頭看一遍會發現一個規律：剪片這件事，每一代工具都在往同一個方向退——從拖時間軸，退到改逐字稿，再退到講一句話。每退一步，被拿掉的都是「動手的技藝」那部分。

於是真正的問題就浮出來了。當按下生成鍵、把素材剪成成品這件事的成本趨近於零，剪輯師的價值還剩下什麼？大概不會是「會不會用軟體」，而是退到更上游的地方——你到底想講一個什麼樣的故事、這支片該用哪一種節奏鉤住人、哪一句話值得留、哪一段再捨不得也要砍。video-use 能幫你執行一份剪輯策略，但那份策略要不要動人，它幫不了你。

下一個被退掉的環節會是什麼，現在還不好說。但可以確定的是，當工具一路把「怎麼做」扛走，剩下沒人能幫你扛的，就只有「要做什麼」這一題了。