arkiv — 以前找一段素材要翻三小時，現在你直接問它「那句話在哪」

先講以前怎麼找素材。

你拍了一整天的訪談，回來十幾個 GB 的檔案躺在硬碟裡，檔名是相機自動編的 C0042.MP4、C0043.MP4。剪接師記得「有一段受訪者講到產品定價講得特別好」，但不記得是哪一支、第幾分鐘。於是接下來兩三個小時，他做的事情是：開檔、快轉、聽、關掉、開下一檔。找一句話，翻一座山。

這件事荒謬的地方在於——素材裡明明已經有答案了，受訪者真的講了那句話，聲音就錄在檔案裡。問題不是資訊不存在，是你沒有辦法「用意思去問它」。你只能用檔名問，而檔名什麼都沒說。

arkiv 就是把這個「用什麼去問」整個換掉的工具。它跑在你自己的電腦上，用 Whisper 把每段影片的聲音轉成文字、用視覺模型看過每個畫面、再把這些都丟進向量資料庫。換完之後，你找素材的方式從「翻檔名」變成「打一句話問它」：搜「受訪者談到定價」、搜「戶外、有 Logo 出現的鏡頭」，它直接把對應的片段撈給你。

同一個動作，舊做法 vs 新做法

把「找素材」這個動作拆開來看，你會發現新舊兩種做法，差的不是速度，是你跟素材之間用什麼語言溝通。

舊做法裡，檔案系統只認得兩種東西：資料夾的位置，跟檔名的字串。你想找「定價那段」，但硬碟只聽得懂 C0042.MP4。中間那條從「我要的意思」到「機器認得的字串」的翻譯，全靠你的腦袋硬記。記得住就找得到，記不住就只能一支一支翻。所謂的「整理素材」，本質上是人類在替機器做翻譯的苦工——把畫面內容濃縮成檔名、把分類塞進資料夾結構。

新做法把這層翻譯交給了 AI。素材丟進 arkiv，它做三件事：Whisper 把每一句話轉成帶時間戳的文字，視覺模型把關鍵幀裡的場景、物件、品牌標出來，最後 nomic-embed-text 把這些文字壓成 768 維的向量，存進 ChromaDB。等你下次搜「定價」，它比對的不是字面有沒有「定價」兩個字，而是意思接不接近——所以你搜「報價」「多少錢」也找得到同一段。

這就是整件事的支點：檔名是你寫給機器看的，語意索引是機器寫給你查的。方向反過來了。

它怎麼把「看影片」變成「讀文字」

這裡有個值得停下來想的設計。arkiv 嚴格說起來，搜尋的時候根本沒有在「看」影片。

打個比方。圖書館要讓你能查一本書講什麼，不會要你每次都把整本翻過一遍——它先請人把每本書做成索引卡，卡片上寫摘要、關鍵字、放在哪一櫃。你查的是卡片，不是書。arkiv 做的就是替每段影片做索引卡：轉錄是內容摘要，視覺分析是畫面標籤，向量是讓你能「用意思查」的編碼。搜尋發生在卡片這一層，又快又輕；真正笨重的影片檔，只有在你確定要用的時候才被打開。

想通這一層，後面很多設計就都順了。為什麼它能在普通筆電上跑？因為平常在動的是那疊輕薄的索引，不是幾十 GB 的原片。為什麼它能跨語言搜尋？因為卡片上的向量本來就是多語言模型編的，中文搜得到日文素材。底層其實是同一個觀念在撐著。

兩個務實到有點土的設計

讓我意外的不是 arkiv 用了多潮的技術，而是它在「跑得動」這件事上多斤斤計較。

它要用兩個模型：一個校正 Whisper 的錯字、一個分析畫面。問題是這兩個同時載入要吃掉超過 12GB 的 VRAM，一般消費級顯卡撐不住。作者的解法不漂亮但很實在：分兩階段跑。第一階段先做轉錄加文字校正，做完主動呼叫 Ollama 把模型卸載、把記憶體吐回來，第二階段才載入視覺模型。慢一點，但保證 12GB 的機器跑得完整套。這是那種「我自己要用，所以我必須讓它在我手上的爛卡上能跑」才會做的取捨。

另一個是對付 Whisper 的幻覺。用過的人都知道，明明沒人講話，它有時會無中生有冒出一串文字，或者把同一句話重複二十遍。arkiv 疊了四道防線：先用 Silero VAD 偵測哪幾段真的有人聲、靜音段直接跳過；再用 no_speech_prob、logprob、compression_ratio 這些指標把低品質片段濾掉；接著用 N-gram 抓出重複句；最後連「啊啊啊啊啊」這種字元級的鬼打牆都清掉。過濾完才把文字交給 LLM 校正，而且校正結果有長度安全閥——輸出得落在原文的 50% 到 200% 之間，超出範圍就當校正失敗、保留原文。一個只有 8 顆 star、開發五天的小專案，願意在這種細節上疊四層防呆，我覺得這比任何 benchmark 都更能說明作者是真的拿它在幹活。

還有一段沒被替代：剪接台上的活

arkiv 最有特色的地方，是它沒有想把整條工作流都吃下來。它附了一個 DaVinci Resolve 的 plugin（約 460 行），讓你在 Resolve 裡面直接搜 arkiv 的資料庫，把素材一鍵匯入 Media Pool，還能自動套 clip color——綠色標 GOOD、橘色標 NG、黃色待確認，順便把 AI 的視覺分析寫進 timeline marker。匯出格式也給滿：SRT、VTT、EDL、FCPXML，主流剪接軟體都吃得下。

換句話說，它接手的是「初篩跟貼標籤」這段最耗時、最沒有創意可言的苦工，然後把整理好的結果交回剪接師手上。真正要怎麼剪、節奏怎麼抓，還是人的事。這個邊界劃得我蠻喜歡的——它沒有假裝自己能取代剪接師，它只是把剪接師從「翻檔案的人」還原成「做選擇的人」。

不過得把醜話講在前面：這是一個非常早期的專案，2026 年 3 月底才建立，沒有單元測試、沒有 CI，作者自己也標明不建議上生產環境。SQLite 不支援併發寫入，所以 CLI 跟 Web UI 不能同時匯入；EDL 匯出因為 DaVinci 端的限制不吃中日文；而且它完全是 local-first、沒有任何登入機制，你要是手癢把 port 開到外網，那等於把整個素材庫裸奔在網路上。這些都是「自己在本機用」沒問題、但別當產品在用的線。