用 Claude Code 把影片變簡報 — mlx-whisper 轉錄 + 多模態讀圖實戰

8 分 54 秒的影片，從音訊轉錄到產出 14 頁 HTML 簡報，全程自動化。這是我最近用 Claude Code 跑通的一套完整工具鏈，過程中踩了幾個坑，但現在可以說真香。

為什麼要把影片變簡報？

假設你在會議上錄了一段技術分享，或者在 YouTube 看到不錯的演講。如果只留著 .mp4 檔，想複習時還要拖進度條，效率爛透了。如果能自動把音軌轉成逐字稿，關鍵畫面截圖下來，再搭配 Claude 的多模態能力讀取這些圖片，最後產出一份結構化的 HTML 簡報——這樣才是真正可複用的知識資產。

這次的範例是 Anthropic 官方影片「AI 協作者：重新定義軟體工程」。我用這套流程：

影片 → ffmpeg 提取音訊 → mlx-whisper 轉錄 → 截圖關鍵畫面 → Claude 多模態讀圖 → HTML 簡報

第一坑：pip3 裝不了 mlx-whisper

開發環境是 M-series Mac（Apple Silicon）。從 Python 3.11 開始，pip 加了 PEP 668 限制，防止直接修改系統套件，結果我跑 pip3 install mlx-whisper 時直接炸了：

1
2
3

error: externally-managed-environment

× This environment is externally managed

試了半天 --break-system-packages，但老實說這招不太安全，容易破壞系統環境。後來發現用 uv tool install 才是正解——它會在隔離的虛擬環境裡裝工具，既不污染系統 Python，也不需要 sudo。

1 2	curl -LsSf https://astral.sh/uv/install.sh \| sh uv tool install mlx-whisper

裝好後就能直接跑 mlx-whisper 指令，蠻方便的。

第二坑：Whisper 轉出簡體中文

mlx-whisper 是 Apple Silicon 針對 MLX 框架最佳化的 Whisper 實現，轉錄速度比官方版本快一倍以上。但它有個小陷阱：輸出的繁體中文會有簡體字混雜。

比如「獲取」應該寫「取得」，「創建」應該寫「建立」。這時候需要轉換：

1 2	mlx-whisper video.mp4 --output_format=txt > transcript.txt # 再用簡繁轉換工具處理一遍

我用 OpenCC 或線上簡繁轉換搞定，反正是自動化流程，加個轉換步驟也才多幾秒。

完整流程大拆解

1. 檢查環境

首先確認 ffmpeg 和 mlx-whisper 都裝好：

1 2	ffmpeg -version mlx-whisper --version

如果沒有，ffmpeg 可以用 Homebrew 裝：

1	brew install ffmpeg

2. 用 ffmpeg 從影片提取音訊

Whisper 吃不了 .mp4，要先轉成 .wav 或 .m4a：

1	ffmpeg -i input.mp4 -q:a 0 -map a audio.wav

順手截幾張關鍵畫面用於簡報：

1	ffmpeg -i input.mp4 -vf fps=0.2 -q:v 2 frame_%04d.jpg

fps=0.2 代表每 5 秒截一張，可以調整密度。

3. 跑 mlx-whisper 轉錄

這步最簡單，mlx-whisper 會自動偵測語言：

1	mlx-whisper audio.wav --output_format json > transcript.json

輸出 JSON 格式方便後續處理，裡面包含時間碼和完整逐字稿。

4. Claude Code 的多模態魔術

現在的重點來了。我把轉錄文本和截圖都丟給 Claude Code，它可以直接讀取這些圖片，理解視覺內容和對應的字幕：

1 2	# Claude Code 可以用 Read 工具讀圖片 # 它會自動理解圖片中的文字、圖表、程式碼截圖等

Claude 的多模態能力在這裡特別值得一提——它不只讀文字，還能理解圖片中的設計、圖表、流程圖，完全不用手動描述。

5. 產出 HTML 簡報

最後一步交給 Claude Code 產生結構化的 HTML，包括：

逐頁幻燈片（對應原影片的邏輯段落）
每頁配上截圖和對應的轉錄文本
導航按鈕
簡單的 CSS 樣式

結果是 14 頁乾淨的 HTML 簡報，可以直接在瀏覽器打開，比影片更好複習。

為什麼選 mlx-whisper？

一開始我想用官方 OpenAI Whisper，但在 Apple Silicon 上跑起來有點肉。mlx-whisper 是 Apple Machine Learning Research 推出的最佳化版本，用 MLX 框架直接調用神經引擎，轉錄速度比 CPU 實現快 5-10 倍。

對於 8 分多的影片，跑起來大概 30 秒左右就完成了，真香。

Claude Code 的多模態為什麼重要

傳統的影片處理流程，可能要手動看截圖、邊看邊記錄、邊寫逐字稿。Claude Code 把這個流程壓扁了——它可以同時吃進：

逐字稿（JSON，含時間碼）
截圖集合（JPG/PNG）
簡單的指示（「請產出 HTML 簡報，每張圖配上相關的轉錄段落」）

然後它會自動理解「這張截圖對應轉錄裡的哪一段」，產出邏輯連貫的簡報。這是傳統指令行工具做不到的。

實戰驗證：14 頁簡報怎麼生的

跑完上面的步驟後，我有：

transcript.json — 完整逐字稿
frame_0001.jpg ~ frame_00XX.jpg — 截圖集合

丟給 Claude Code 讀取和分析，它輸出一個單頁 HTML，嵌入所有資源（base64 編碼的圖片），可以直接分享，不用擔心圖片連結斷裂。

各頁的標題自動從轉錄文本提取（通常是每個邏輯段落的首句），內容則是配對的截圖加轉錄文本摘要。這些都是 Claude 的推理能力幫忙做的決策，我只是寫了一句指令。

幾個實用建議

截圖密度要調對：太密（fps=1）會產出一堆重複的靜態畫面，太稀（fps=0.1）會漏掉重要內容。我這次用 0.2 不錯。
轉錄語言混雜要預處理：如果影片同時有英文和中文，Whisper 會自動切換。最後輸出可能兩種語言混著，簡報時要想清楚要不要處理。
HTML 簡報加個 CSS 框架：我讓 Claude 用了基本的 CSS Grid，移動裝置上也好看。如果要更炫，可以讓它引用 Bootstrap 或 Tailwind。
JSON 轉錄格式最靈活：VTT 或 SRT 可以直接丟進影片播放器當字幕，但 JSON 更方便後續程式處理。