video-use：會剪片的 AI，祕密是它根本不看影片，只讀那份 12KB 的逐字稿

剪一支三分鐘的產品宣傳片，以前的流程是這樣的：把幾十段 talking head 素材拖進剪輯軟體，一段一段聽，把講錯重來的部分標起來、把「呃」「那個」這種廢話剪掉，調色、配字幕、卡點。一個下午就沒了，而且還只是初剪。

現在 browser-use 團隊開源的 video-use，做法是你把素材丟進一個資料夾，打開 Claude Code，打一句「把這些剪成一支 launch video」，它自己清點、轉錄、提案、剪接、調色、上字幕，最後吐一支 final.mp4 給你。

聽起來就是「又一個 AI 自動剪片工具」。但這篇我想講的不是它能做什麼——那個你看 demo 就懂了。我想講的是它選擇不做什麼，因為那個選擇才是整件事真正聰明的地方。

一支 30 秒的影片，硬塞給 AI 要花多少錢

先算一筆帳。如果你照直覺做一個「會看影片的 AI 剪輯器」，最自然的想法是：把影片每一幀都丟給 vision model，讓它看懂畫面，再決定怎麼剪。

30 秒的影片，一秒 30 幀，就是 900 幀。每一幀進到 vision model 大概 1500 個 token 上下，900 幀就是約 135 萬個 token。這還只是 30 秒。一支一小時的原始素材這樣硬送，是 4500 萬 token 起跳。

這不只是貴的問題，是整個方法從根上就站不住。你花天文數字的 token，餵給模型的還是一堆它根本不需要逐幀細看的畫面——一個人講話的鏡頭，連續 30 幀幾乎一模一樣，你讓模型看 30 遍同一張臉，是要它領悟什麼。

video-use 的選擇是：不看。

它讀的是一份 12KB 的逐字稿

這裡藏著 browser-use 一脈相承的設計哲學。browser-use 當年做網頁自動化，沒有走「截圖給模型看」這條路，而是把網頁的 DOM 結構抽出來、整理成文字餵給 LLM。畫面是給人看的，結構才是給機器讀的。

video-use 把同一招搬到影片上。它不送畫面，送逐字稿——而且是 word-level、精確到每個字出現在第幾秒的那種逐字稿。一小時的素材打包成這樣一份文字檔，大約只有 12KB。

你把這兩個數字擺在一起看一下：暴力送幀是 4500 萬 token，讀逐字稿是 12KB。後者省掉的不是一點半點，是 99.97% 以上。

而剪片這件事，九成的決策本來就是靠「誰在第幾秒講了什麼」做的。哪句話講得好、哪句重來了、哪裡可以接到下一段——這些資訊全在逐字稿裡，根本不需要看畫面。video-use 抓住的就是這個：剪輯的決策層是文字的，不是視覺的。

那真的需要「看」的時候怎麼辦？比如要判斷一個剪接點接得順不順、兩次重拍哪一條表情比較好、停頓是不是太久。這時候它才會按需生成一張合成圖——把那一段的縮圖膠卷、聲音波形、文字標籤疊在一起的 PNG，只在那個當下、只看那一小段。它管這叫 text-first + on-demand visuals：預設讀文字，需要才看圖。

這就是那種「拆到最基本」的判斷——先問清楚「剪片到底在決策什麼」，答案是文字，那就別為了看起來高級而硬上 vision。

整條流水線，其實是一個會自我檢查的迴圈

把它的運作攤開來看，是一條這樣的鏈：

清點：用 ffprobe 把資料夾裡所有素材掃一遍，搞清楚有什麼
轉錄：丟給 ElevenLabs Scribe 批次轉成逐字稿
對話：讀完逐字稿後反過來問你——你想要什麼風格、什麼結構，確認清楚
提案：給你一份 4 到 8 句的剪輯策略，等你點頭才動
執行：產生一張 EDL（剪輯決策表，JSON 格式），平行生成動畫、調色、render
自我檢查：在每個剪接點跑一次 timeline view，看有沒有畫面跳得太突兀、有沒有 audio pop、字幕有沒有擋到東西
迭代：有問題就自己改 EDL、重新 render，最多跑 3 輪

第 6 步是我覺得最值得學的地方。大部分自動工具是「跑完直接丟給你」，video-use 是「跑完先自己看一眼」。render 完不是終點，是先在每個 cut boundary 生那張膠卷加波形的合成圖，自己檢查過，有問題自己修。3 輪之內修不好，它才老實告訴你「這裡我搞不定，你來」。

這個「做完先驗收」的習慣，讓它的成品品質比單次 render 穩很多。順帶一提，它還會把整個 session 的狀態寫進一個 project.md，下次打開同一個資料夾自動接續——你昨天剪到一半，今天回來不用重講一遍。

怎麼裝、能拿來剪什麼

它不是一個你 import 的 Python 套件，而是一個掛在 agent 底下的 skill。最省事的裝法是直接在 Claude Code 裡貼一句話，叫它自己讀 install.md 把 repo、ffmpeg、skill 全部接好：

1 2	Set up https://github.com/browser-use/video-use for me. Read install.md first to install this repo, wire up ffmpeg, register the skill.

裝好之後，用起來就是 cd 進素材資料夾、開 claude、打一句「edit these into a launch video」，剩下交給它。

能剪的東西比想像中雜：產品宣傳片（自動排成 HOOK → PROBLEM → SOLUTION → CTA 的結構）、教學影片（去掉重講的段落，技術概念還能配 Manim 動畫）、訪談（靠 speaker diarization 認出不同講者，自動組 Q&A）、社群短影片（自動轉直式 1080×1920、上 UPPERCASE 粗體字幕、字幕往上抬避開平台 UI）。

該潑的冷水也得潑

有幾個地方得先講清楚，免得你裝完才踩到。

ElevenLabs Scribe 是付費 API，每轉一次就花一次錢——所以官方特別提醒，安裝驗證階段不要手癢跑轉錄測試。它也明確不支援離線 ASR，故意排除了本地 Whisper（理由是慢、而且會把語助詞正規化掉，反而剪不準）。

更根本的限制是：它的決策建立在音訊逐字稿上。所以一段沒人講話的風景空鏡、或一支舞蹈影片，它就抓瞎了——沒有逐字稿，它那套省 token 的聰明全部失效。動畫能力也有天花板，簡單疊加靠 PIL、技術圖靠 Manim、複雜一點靠 Remotion，但別指望它做到 After Effects 等級的特效。還有那個 self-eval，最多 3 輪，超過就放生。

這些限制其實都指向同一件事：video-use 不是萬用剪輯器，它是「會講話的影片」的剪輯器。它的強項和它的盲區，是同一個設計選擇的一體兩面。

回到最開頭那支宣傳片。真正讓你從「盯著時間軸爬一個下午」變成「打一句話」的，不是 AI 突然會看影片了——剛好相反，是有人想通了「剪這種片根本不用看影片」，把一個視覺問題降維成了文字問題。下次你想用 AI 解一個看起來很重的任務，不妨先學它問一句：這件事的決策，到底是發生在哪一層？