arkiv — 以前找一段素材要翻三小時,現在你直接問它「那句話在哪」
先講以前怎麼找素材。
你拍了一整天的訪談,回來十幾個 GB 的檔案躺在硬碟裡,檔名是相機自動編的 C0042.MP4、C0043.MP4。剪接師記得「有一段受訪者講到產品定價講得特別好」,但不記得是哪一支、第幾分鐘。於是接下來兩三個小時,他做的事情是:開檔、快轉、聽、關掉、開下一檔。找一句話,翻一座山。
這件事荒謬的地方在於——素材裡明明已經有答案了,受訪者真的講了那句話,聲音就錄在檔案裡。問題不是資訊不存在,是你沒有辦法「用意思去問它」。你只能用檔名問,而檔名什麼都沒說。
arkiv 就是把這個「用什麼去問」整個換掉的工具。它跑在你自己的電腦上,用 Whisper 把每段影片的聲音轉成文字、用視覺模型看過每個畫面、再把這些都丟進向量資料庫。換完之後,你找素材的方式從「翻檔名」變成「打一句話問它」:搜「受訪者談到定價」、搜「戶外、有 Logo 出現的鏡頭」,它直接把對應的片段撈給你。
同一個動作,舊做法 vs 新做法
把「找素材」這個動作拆開來看,你會發現新舊兩種做法,差的不是速度,是你跟素材之間用什麼語言溝通。
舊做法裡,檔案系統只認得兩種東西:資料夾的位置,跟檔名的字串。你想找「定價那段」,但硬碟只聽得懂 C0042.MP4。中間那條從「我要的意思」到「機器認得的字串」的翻譯,全靠你的腦袋硬記。記得住就找得到,記不住就只能一支一支翻。所謂的「整理素材」,本質上是人類在替機器做翻譯的苦工——把畫面內容濃縮成檔名、把分類塞進資料夾結構。
新做法把這層翻譯交給了 AI。素材丟進 arkiv,它做三件事:Whisper 把每一句話轉成帶時間戳的文字,視覺模型把關鍵幀裡的場景、物件、品牌標出來,最後 nomic-embed-text 把這些文字壓成 768 維的向量,存進 ChromaDB。等你下次搜「定價」,它比對的不是字面有沒有「定價」兩個字,而是意思接不接近——所以你搜「報價」「多少錢」也找得到同一段。
這就是整件事的支點:檔名是你寫給機器看的,語意索引是機器寫給你查的。方向反過來了。
它怎麼把「看影片」變成「讀文字」
這裡有個值得停下來想的設計。arkiv 嚴格說起來,搜尋的時候根本沒有在「看」影片。
打個比方。圖書館要讓你能查一本書講什麼,不會要你每次都把整本翻過一遍——它先請人把每本書做成索引卡,卡片上寫摘要、關鍵字、放在哪一櫃。你查的是卡片,不是書。arkiv 做的就是替每段影片做索引卡:轉錄是內容摘要,視覺分析是畫面標籤,向量是讓你能「用意思查」的編碼。搜尋發生在卡片這一層,又快又輕;真正笨重的影片檔,只有在你確定要用的時候才被打開。
想通這一層,後面很多設計就都順了。為什麼它能在普通筆電上跑?因為平常在動的是那疊輕薄的索引,不是幾十 GB 的原片。為什麼它能跨語言搜尋?因為卡片上的向量本來就是多語言模型編的,中文搜得到日文素材。底層其實是同一個觀念在撐著。
兩個務實到有點土的設計
讓我意外的不是 arkiv 用了多潮的技術,而是它在「跑得動」這件事上多斤斤計較。
它要用兩個模型:一個校正 Whisper 的錯字、一個分析畫面。問題是這兩個同時載入要吃掉超過 12GB 的 VRAM,一般消費級顯卡撐不住。作者的解法不漂亮但很實在:分兩階段跑。第一階段先做轉錄加文字校正,做完主動呼叫 Ollama 把模型卸載、把記憶體吐回來,第二階段才載入視覺模型。慢一點,但保證 12GB 的機器跑得完整套。這是那種「我自己要用,所以我必須讓它在我手上的爛卡上能跑」才會做的取捨。
另一個是對付 Whisper 的幻覺。用過的人都知道,明明沒人講話,它有時會無中生有冒出一串文字,或者把同一句話重複二十遍。arkiv 疊了四道防線:先用 Silero VAD 偵測哪幾段真的有人聲、靜音段直接跳過;再用 no_speech_prob、logprob、compression_ratio 這些指標把低品質片段濾掉;接著用 N-gram 抓出重複句;最後連「啊啊啊啊啊」這種字元級的鬼打牆都清掉。過濾完才把文字交給 LLM 校正,而且校正結果有長度安全閥——輸出得落在原文的 50% 到 200% 之間,超出範圍就當校正失敗、保留原文。一個只有 8 顆 star、開發五天的小專案,願意在這種細節上疊四層防呆,我覺得這比任何 benchmark 都更能說明作者是真的拿它在幹活。
還有一段沒被替代:剪接台上的活
arkiv 最有特色的地方,是它沒有想把整條工作流都吃下來。它附了一個 DaVinci Resolve 的 plugin(約 460 行),讓你在 Resolve 裡面直接搜 arkiv 的資料庫,把素材一鍵匯入 Media Pool,還能自動套 clip color——綠色標 GOOD、橘色標 NG、黃色待確認,順便把 AI 的視覺分析寫進 timeline marker。匯出格式也給滿:SRT、VTT、EDL、FCPXML,主流剪接軟體都吃得下。
換句話說,它接手的是「初篩跟貼標籤」這段最耗時、最沒有創意可言的苦工,然後把整理好的結果交回剪接師手上。真正要怎麼剪、節奏怎麼抓,還是人的事。這個邊界劃得我蠻喜歡的——它沒有假裝自己能取代剪接師,它只是把剪接師從「翻檔案的人」還原成「做選擇的人」。
不過得把醜話講在前面:這是一個非常早期的專案,2026 年 3 月底才建立,沒有單元測試、沒有 CI,作者自己也標明不建議上生產環境。SQLite 不支援併發寫入,所以 CLI 跟 Web UI 不能同時匯入;EDL 匯出因為 DaVinci 端的限制不吃中日文;而且它完全是 local-first、沒有任何登入機制,你要是手癢把 port 開到外網,那等於把整個素材庫裸奔在網路上。這些都是「自己在本機用」沒問題、但別當產品在用的線。
收尾:被搬走的,是「整理」這個負擔
如果把這幾年的工具演進連起來看,會發現一條反覆出現的線:我們一直在把「為了讓機器找得到,人類得先替它整理」這件苦差事,慢慢還給機器。
以前你得替照片打標籤、替信件分資料夾、替素材編檔名——這些動作的共同點是,它們都不是你真正想做的事,只是機器看不懂內容、逼你先翻譯一遍的代價。arkiv 在影音素材這個角落做的,就是把這個代價拿掉:你不用再為了「之後找得到」而現在先整理,你只要把東西丟進去,需要的時候用人話問。
所以真正的問題或許不是「arkiv 好不好用」,而是——當「整理」這個動作開始可以外包給 AI,你手上還有多少時間,其實是被「替機器做翻譯」這件事偷走的?把那段時間要回來,本來就該拿去做只有人做得了的選擇。
原始素材來源:arkiv GitHub Repo(MIT License)










