8 分 54 秒的影片,從音訊轉錄到產出 14 頁 HTML 簡報,全程自動化。這是我最近用 Claude Code 跑通的一套完整工具鏈,過程中踩了幾個坑,但現在可以說真香。

為什麼要把影片變簡報?

假設你在會議上錄了一段技術分享,或者在 YouTube 看到不錯的演講。如果只留著 .mp4 檔,想複習時還要拖進度條,效率爛透了。如果能自動把音軌轉成逐字稿,關鍵畫面截圖下來,再搭配 Claude 的多模態能力讀取這些圖片,最後產出一份結構化的 HTML 簡報——這樣才是真正可複用的知識資產。

這次的範例是 Anthropic 官方影片「AI 協作者:重新定義軟體工程」。我用這套流程:

影片 → ffmpeg 提取音訊 → mlx-whisper 轉錄 → 截圖關鍵畫面 → Claude 多模態讀圖 → HTML 簡報

第一坑:pip3 裝不了 mlx-whisper

開發環境是 M-series Mac(Apple Silicon)。從 Python 3.11 開始,pip 加了 PEP 668 限制,防止直接修改系統套件,結果我跑 pip3 install mlx-whisper 時直接炸了:

1
2
3
error: externally-managed-environment

× This environment is externally managed

試了半天 --break-system-packages,但老實說這招不太安全,容易破壞系統環境。後來發現用 uv tool install 才是正解——它會在隔離的虛擬環境裡裝工具,既不污染系統 Python,也不需要 sudo

1
2
curl -LsSf https://astral.sh/uv/install.sh | sh
uv tool install mlx-whisper

裝好後就能直接跑 mlx-whisper 指令,蠻方便的。

第二坑:Whisper 轉出簡體中文

mlx-whisper 是 Apple Silicon 針對 MLX 框架最佳化的 Whisper 實現,轉錄速度比官方版本快一倍以上。但它有個小陷阱:輸出的繁體中文會有簡體字混雜。

比如「獲取」應該寫「取得」,「創建」應該寫「建立」。這時候需要轉換:

1
2
mlx-whisper video.mp4 --output_format=txt > transcript.txt
# 再用簡繁轉換工具處理一遍

我用 OpenCC 或線上簡繁轉換搞定,反正是自動化流程,加個轉換步驟也才多幾秒。

完整流程大拆解

1. 檢查環境

首先確認 ffmpeg 和 mlx-whisper 都裝好:

1
2
ffmpeg -version
mlx-whisper --version

如果沒有,ffmpeg 可以用 Homebrew 裝:

1
brew install ffmpeg

2. 用 ffmpeg 從影片提取音訊

Whisper 吃不了 .mp4,要先轉成 .wav 或 .m4a:

1
ffmpeg -i input.mp4 -q:a 0 -map a audio.wav

順手截幾張關鍵畫面用於簡報:

1
ffmpeg -i input.mp4 -vf fps=0.2 -q:v 2 frame_%04d.jpg

fps=0.2 代表每 5 秒截一張,可以調整密度。

3. 跑 mlx-whisper 轉錄

這步最簡單,mlx-whisper 會自動偵測語言:

1
mlx-whisper audio.wav --output_format json > transcript.json

輸出 JSON 格式方便後續處理,裡面包含時間碼和完整逐字稿。

4. Claude Code 的多模態魔術

現在的重點來了。我把轉錄文本和截圖都丟給 Claude Code,它可以直接讀取這些圖片,理解視覺內容和對應的字幕:

1
2
# Claude Code 可以用 Read 工具讀圖片
# 它會自動理解圖片中的文字、圖表、程式碼截圖等

Claude 的多模態能力在這裡特別值得一提——它不只讀文字,還能理解圖片中的設計、圖表、流程圖,完全不用手動描述。

5. 產出 HTML 簡報

最後一步交給 Claude Code 產生結構化的 HTML,包括:

  • 逐頁幻燈片(對應原影片的邏輯段落)
  • 每頁配上截圖和對應的轉錄文本
  • 導航按鈕
  • 簡單的 CSS 樣式

結果是 14 頁乾淨的 HTML 簡報,可以直接在瀏覽器打開,比影片更好複習。

為什麼選 mlx-whisper?

一開始我想用官方 OpenAI Whisper,但在 Apple Silicon 上跑起來有點肉。mlx-whisper 是 Apple Machine Learning Research 推出的最佳化版本,用 MLX 框架直接調用神經引擎,轉錄速度比 CPU 實現快 5-10 倍。

對於 8 分多的影片,跑起來大概 30 秒左右就完成了,真香。

Claude Code 的多模態為什麼重要

傳統的影片處理流程,可能要手動看截圖、邊看邊記錄、邊寫逐字稿。Claude Code 把這個流程壓扁了——它可以同時吃進:

  • 逐字稿(JSON,含時間碼)
  • 截圖集合(JPG/PNG)
  • 簡單的指示(「請產出 HTML 簡報,每張圖配上相關的轉錄段落」)

然後它會自動理解「這張截圖對應轉錄裡的哪一段」,產出邏輯連貫的簡報。這是傳統指令行工具做不到的。

實戰驗證:14 頁簡報怎麼生的

跑完上面的步驟後,我有:

  • transcript.json — 完整逐字稿
  • frame_0001.jpg ~ frame_00XX.jpg — 截圖集合

丟給 Claude Code 讀取和分析,它輸出一個單頁 HTML,嵌入所有資源(base64 編碼的圖片),可以直接分享,不用擔心圖片連結斷裂。

各頁的標題自動從轉錄文本提取(通常是每個邏輯段落的首句),內容則是配對的截圖加轉錄文本摘要。這些都是 Claude 的推理能力幫忙做的決策,我只是寫了一句指令。

幾個實用建議

  1. 截圖密度要調對:太密(fps=1)會產出一堆重複的靜態畫面,太稀(fps=0.1)會漏掉重要內容。我這次用 0.2 不錯。

  2. 轉錄語言混雜要預處理:如果影片同時有英文和中文,Whisper 會自動切換。最後輸出可能兩種語言混著,簡報時要想清楚要不要處理。

  3. HTML 簡報加個 CSS 框架:我讓 Claude 用了基本的 CSS Grid,移動裝置上也好看。如果要更炫,可以讓它引用 Bootstrap 或 Tailwind。

  4. JSON 轉錄格式最靈活:VTT 或 SRT 可以直接丟進影片播放器當字幕,但 JSON 更方便後續程式處理。

總結

這套流程的核心價值不在於工具本身有多新奇,而是怎麼把它們串起來。ffmpeg 是經典之作,mlx-whisper 是效能優化,但 Claude Code 的多模態能力才是真正改變遊戲規則的部分——它讓自動化流程能理解視覺內容,不再是單純的文字處理。

下次你有影片要複習或分享時,與其貼 YouTube 連結,不如跑一遍這個流程,產出帶截圖的 HTML 簡報。效率高,可複用,團隊知識也更容易沉澱。