用 Claude Skill 把 Prompt 寫對一次勝過快送 10 次｜AI Media Generator 拆解

大部分人寫 prompt 的時候，腦袋裡只有一張表：那張表叫做「英文形容詞越多越好」。cinematic, 8k, masterpiece, beautiful, hyper-detailed，一路堆到 token 上限。

這套打法在 Midjourney v4 時代還算管用，到了現在已經是純粹的雜訊。Seedance 看到 fast 會擺爛，要寫 extreme speed 它才動；Flux 看到任何藝術家名字直接拒絕；Midjourney v7 看到 cinematic 已經當你沒講話。同一句 prompt 在 14 個平台會拍出 14 種天壤之別的結果，這個事實沒人在意，因為大家都假設「我寫得越用力，模型就越聽話」。

反過來才對。

真正的問題不是 prompt 寫得不夠長

最近翻到一個 repo 叫 ai-media-generator，作者 Hao0321，2026-05-13 才開的 repo，28 顆星、5 個 fork、0 個 issue。從外觀看就是一個無人聞問的個人專案，但裡面藏了一個我覺得很值得拿出來講的觀察：

Writing the prompt correctly once ≫ submitting it fast 10 times。

寫對一次，勝過快速送 10 次。因為失敗的 prompt 不只是浪費 8 到 10 分鐘的 cycle time，還要燒真金白銀的 credits。Seedance 2.0 pro 一秒約 NT$0.24，一支 15 秒的廣告短片光是「跑錯一次」就是 NT$50 起跳。CHANGELOG 裡作者揭露自己 v1.4.0 和 v1.4.1 各失敗一次、燒掉約 NT$100 才總結出 image-to-video 的 80–150 字 golden formula。這種把失敗金額直接寫進 release note 的開發風格，比那些「大幅提升 30%」的官方部落格實在太多。

整個 Skill 沒有一行程式碼。全部都是 markdown。

它本質上是一本字典

把這個 Skill 想成兩件事的組合就懂了。

第一件：14 個 AI 平台的 prompt 字典。每個平台有自己的一份 reference markdown，列出它吃哪些詞、禁用哪些詞、攝影機運動要怎麼描述才會被解析。就像你去日本不會把英文當成日文丟出去——你得先查那一家店的菜單。Skill 就是那本菜單。

第二件：一個瀏覽器機器手。透過 claude-in-chrome 這個 MCP server，Claude 可以打開 OiiOii、Google Flow、Kling、Suno 的網頁，照著預先記錄好的 UI 座標點按鈕、填表單、按送出。這部分很笨——靠絕對座標而不是語意選擇器，網站改版就死了——但因為笨，所以可靠。

repo 三層結構分得很乾淨：

目錄	角色	內容
`references/`	知識層	每個平台怎麼吃 prompt（25 個檔、167 KB）
`templates/`	執行層	把使用者意圖轉成 prompt 的範本（含 60 KB preset-packs）
`automation/`	I/O 層	瀏覽器 site-profiles，記錄各平台 UI 座標

主入口是根目錄的 SKILL.md（20 KB），Claude Code 從這裡開始讀，再依需要懶載入其他章節。automation/site-profiles/oiioii.md 是最深的一個，70 KB，把 OiiOii 的 UI 整個 map 完整記錄下來——這是該專案最有耐心的部分。

寫一句中文就跑起來

安裝就 git clone，沒有 pip、npm、cargo、docker。clone 到 ~/.claude/skills/ai-media-generator 就是全域，clone 到 ./.claude/skills/ 就是專案層。我自己偏好專案層，免得 context window 被各種 Skill 灌爆。

裝完直接對 Claude 講話：

1	你：make a 15-second cinematic ad of running shoes on a rainy street

接下來 Skill 會做這幾件事：

解析 9 個 slot：media / duration / aspect / topic / style / character / setting / audio / language
缺的就補預設值（16:9、10s、BGM+SFX、English）
跑 references/selector.md 的決策樹自動挑平台 → 本例命中 Seedance 2.0 pro（OiiOii）
產 storyboard 加平台專屬 prompt
顯示 30 秒 override 預覽：logline、shot breakdown、預估成本（217 STAR ≈ NT$52）、給你改風格或平台的機會
你按 go 或沉默超時 → 自動點瀏覽器送出
回報產物路徑、實際成本、耗時、下一步建議

產出的 prompt 不是堆形容詞，而是導演風格的結構化描述：

1
2
3

[shot 1 / wide / 24mm] 一名身著金色鎧甲的將軍策馬奔馳在雨夜街道
追蹤鏡頭，金色路燈反光，地面積水濺起
不抖動、不變形、不多肢、穩定地平線

注意這個 prompt 的形狀：

有 shot 標號（鏡次 / 景別 / 焦距）
有具體攝影機運動指令
有負面詞清單（不抖動、不變形…）——大多數人會漏這段
完全沒有 cinematic beautiful masterpiece 這類會稀釋信號的詞

這跟一般人「腦補式 prompt」最大的差別在哪？大概就像你跟導演講「拍得有質感一點」對上「24mm 廣角、雨夜逆光、穩定追蹤鏡頭」的差別。質感是結果，不是輸入。輸入要描述機制。

14 個平台只有 4 個是真自動化

這點作者很誠實，在 README 寫得清清楚楚。

OiiOii (Seedance)、Google Flow (Veo 3.1)、Kling 3.0、Suno v5 是完整自動化——有座標 map、有 UI 點擊序列。其餘 10 個（Midjourney、Flux、Sora、Runway、Ideogram、Seedream、Nano Banana、Vidu、SD…）只能拿到「平台對味的 prompt」，要自己貼到網頁送出。

這個取捨我覺得是這個 repo 最值得學的地方。一個個人開發者要把 14 個平台全部都做到完整自動化，就是把自己累死。所以他用 80/20 法則：最常用的 4 個做到底，其他 10 個只解最難的那一塊（也就是 prompt 怎麼寫對）。剩下「貼到瀏覽器」這種純機械動作，留給使用者自己做。這比那種「我們支援 50 個平台」但每個都半套的工具誠實太多。

為什麼這個 repo 適合拿來臨摹

如果你最近想自己寫 Claude Skill 但不知道結構怎麼切，這個 repo 是少見的乾淨範本。原因有三：

第一是零程式碼。全部是 markdown 領域知識，看不到任何 .py .js .ts。這證明了 Claude Skill 的設計哲學：把工具當作可被 LLM 讀懂的「介面」，不是當作可被 LLM 呼叫的「函式」。這個觀念翻轉，是 Skill 跟傳統 plugin 最大的差異。

第二是分層乾淨。knowledge / template / automation 三層各司其職。要更新某個平台的 prompt 規則，去動 references/；要加新平台，去動 selector.md；要修自動化，去動 automation/。每一層都可以獨立改而不影響其他層——把程式碼當文章寫的人才會這樣分層，每個段落都能單獨讀。

第三是 CHANGELOG 寫得像戰場日誌。哪一次失敗、退款多少、修了什麼 hard rule，全部寫進去。v1.4.1 之後甚至訂了一條 hard rule：「不准自評生成品質為 good 或棒」——因為作者之前自我吹捧曾經掩蓋了實際的爛片。這種對自己誠實到極致的開發風格，在開源圈現在很少見。

它告訴你的事，跟它做的事一樣多

回到最初那句話：寫對一次勝過快送 10 次。

這話聽起來像是在講 AI 生成的成本，但真正的意思更廣。任何一個高摩擦的動作，你應該花更多時間在「下手前」，而不是「下手後修補」。寫程式是這樣，寫文章也是，連發 Slack 訊息問同事問題都是。

ai-media-generator 之所以值得看一眼，不是因為它支援 14 個平台，而是因為它把「下手前要查的東西」全部蒸餾成 markdown，丟給 Claude 當前置作業。下手前花 5 秒讓 Claude 查 references/seedance.md，比下手後花 10 分鐘等一支爛片強太多。

下次再想隨手塞 cinematic, 8k, beautiful 進 prompt 框的時候，停一下。問自己：這個平台真的吃這套嗎？

參考連結：