用 Claude Skill 把 Prompt 寫對一次勝過快送 10 次|AI Media Generator 拆解
大部分人寫 prompt 的時候,腦袋裡只有一張表:那張表叫做「英文形容詞越多越好」。cinematic, 8k, masterpiece, beautiful, hyper-detailed,一路堆到 token 上限。
這套打法在 Midjourney v4 時代還算管用,到了現在已經是純粹的雜訊。Seedance 看到 fast 會擺爛,要寫 extreme speed 它才動;Flux 看到任何藝術家名字直接拒絕;Midjourney v7 看到 cinematic 已經當你沒講話。同一句 prompt 在 14 個平台會拍出 14 種天壤之別的結果,這個事實沒人在意,因為大家都假設「我寫得越用力,模型就越聽話」。
反過來才對。
真正的問題不是 prompt 寫得不夠長
最近翻到一個 repo 叫 ai-media-generator,作者 Hao0321,2026-05-13 才開的 repo,28 顆星、5 個 fork、0 個 issue。從外觀看就是一個無人聞問的個人專案,但裡面藏了一個我覺得很值得拿出來講的觀察:
Writing the prompt correctly once ≫ submitting it fast 10 times。
寫對一次,勝過快速送 10 次。因為失敗的 prompt 不只是浪費 8 到 10 分鐘的 cycle time,還要燒真金白銀的 credits。Seedance 2.0 pro 一秒約 NT$0.24,一支 15 秒的廣告短片光是「跑錯一次」就是 NT$50 起跳。CHANGELOG 裡作者揭露自己 v1.4.0 和 v1.4.1 各失敗一次、燒掉約 NT$100 才總結出 image-to-video 的 80–150 字 golden formula。這種把失敗金額直接寫進 release note 的開發風格,比那些「大幅提升 30%」的官方部落格實在太多。
整個 Skill 沒有一行程式碼。全部都是 markdown。
它本質上是一本字典
把這個 Skill 想成兩件事的組合就懂了。
第一件:14 個 AI 平台的 prompt 字典。每個平台有自己的一份 reference markdown,列出它吃哪些詞、禁用哪些詞、攝影機運動要怎麼描述才會被解析。就像你去日本不會把英文當成日文丟出去——你得先查那一家店的菜單。Skill 就是那本菜單。
第二件:一個瀏覽器機器手。透過 claude-in-chrome 這個 MCP server,Claude 可以打開 OiiOii、Google Flow、Kling、Suno 的網頁,照著預先記錄好的 UI 座標點按鈕、填表單、按送出。這部分很笨——靠絕對座標而不是語意選擇器,網站改版就死了——但因為笨,所以可靠。
repo 三層結構分得很乾淨:
| 目錄 | 角色 | 內容 |
|---|---|---|
references/ |
知識層 | 每個平台怎麼吃 prompt(25 個檔、167 KB) |
templates/ |
執行層 | 把使用者意圖轉成 prompt 的範本(含 60 KB preset-packs) |
automation/ |
I/O 層 | 瀏覽器 site-profiles,記錄各平台 UI 座標 |
主入口是根目錄的 SKILL.md(20 KB),Claude Code 從這裡開始讀,再依需要懶載入其他章節。automation/site-profiles/oiioii.md 是最深的一個,70 KB,把 OiiOii 的 UI 整個 map 完整記錄下來——這是該專案最有耐心的部分。
寫一句中文就跑起來
安裝就 git clone,沒有 pip、npm、cargo、docker。clone 到 ~/.claude/skills/ai-media-generator 就是全域,clone 到 ./.claude/skills/ 就是專案層。我自己偏好專案層,免得 context window 被各種 Skill 灌爆。
裝完直接對 Claude 講話:
1 | 你:make a 15-second cinematic ad of running shoes on a rainy street |
接下來 Skill 會做這幾件事:
- 解析 9 個 slot:media / duration / aspect / topic / style / character / setting / audio / language
- 缺的就補預設值(16:9、10s、BGM+SFX、English)
- 跑
references/selector.md的決策樹自動挑平台 → 本例命中 Seedance 2.0 pro(OiiOii) - 產 storyboard 加平台專屬 prompt
- 顯示 30 秒 override 預覽:logline、shot breakdown、預估成本(217 STAR ≈ NT$52)、給你改風格或平台的機會
- 你按 go 或沉默超時 → 自動點瀏覽器送出
- 回報產物路徑、實際成本、耗時、下一步建議
產出的 prompt 不是堆形容詞,而是導演風格的結構化描述:
1 | [shot 1 / wide / 24mm] 一名身著金色鎧甲的將軍策馬奔馳在雨夜街道 |
注意這個 prompt 的形狀:
- 有 shot 標號(鏡次 / 景別 / 焦距)
- 有具體攝影機運動指令
- 有負面詞清單(不抖動、不變形…)——大多數人會漏這段
- 完全沒有
cinematicbeautifulmasterpiece這類會稀釋信號的詞
這跟一般人「腦補式 prompt」最大的差別在哪?大概就像你跟導演講「拍得有質感一點」對上「24mm 廣角、雨夜逆光、穩定追蹤鏡頭」的差別。質感是結果,不是輸入。輸入要描述機制。
14 個平台只有 4 個是真自動化
這點作者很誠實,在 README 寫得清清楚楚。
OiiOii (Seedance)、Google Flow (Veo 3.1)、Kling 3.0、Suno v5 是完整自動化——有座標 map、有 UI 點擊序列。其餘 10 個(Midjourney、Flux、Sora、Runway、Ideogram、Seedream、Nano Banana、Vidu、SD…)只能拿到「平台對味的 prompt」,要自己貼到網頁送出。
這個取捨我覺得是這個 repo 最值得學的地方。一個個人開發者要把 14 個平台全部都做到完整自動化,就是把自己累死。所以他用 80/20 法則:最常用的 4 個做到底,其他 10 個只解最難的那一塊(也就是 prompt 怎麼寫對)。剩下「貼到瀏覽器」這種純機械動作,留給使用者自己做。這比那種「我們支援 50 個平台」但每個都半套的工具誠實太多。
為什麼這個 repo 適合拿來臨摹
如果你最近想自己寫 Claude Skill 但不知道結構怎麼切,這個 repo 是少見的乾淨範本。原因有三:
第一是零程式碼。全部是 markdown 領域知識,看不到任何 .py .js .ts。這證明了 Claude Skill 的設計哲學:把工具當作可被 LLM 讀懂的「介面」,不是當作可被 LLM 呼叫的「函式」。這個觀念翻轉,是 Skill 跟傳統 plugin 最大的差異。
第二是分層乾淨。knowledge / template / automation 三層各司其職。要更新某個平台的 prompt 規則,去動 references/;要加新平台,去動 selector.md;要修自動化,去動 automation/。每一層都可以獨立改而不影響其他層——把程式碼當文章寫的人才會這樣分層,每個段落都能單獨讀。
第三是 CHANGELOG 寫得像戰場日誌。哪一次失敗、退款多少、修了什麼 hard rule,全部寫進去。v1.4.1 之後甚至訂了一條 hard rule:「不准自評生成品質為 good 或棒」——因為作者之前自我吹捧曾經掩蓋了實際的爛片。這種對自己誠實到極致的開發風格,在開源圈現在很少見。
它告訴你的事,跟它做的事一樣多
回到最初那句話:寫對一次勝過快送 10 次。
這話聽起來像是在講 AI 生成的成本,但真正的意思更廣。任何一個高摩擦的動作,你應該花更多時間在「下手前」,而不是「下手後修補」。寫程式是這樣,寫文章也是,連發 Slack 訊息問同事問題都是。
ai-media-generator 之所以值得看一眼,不是因為它支援 14 個平台,而是因為它把「下手前要查的東西」全部蒸餾成 markdown,丟給 Claude 當前置作業。下手前花 5 秒讓 Claude 查 references/seedance.md,比下手後花 10 分鐘等一支爛片強太多。
下次再想隨手塞 cinematic, 8k, beautiful 進 prompt 框的時候,停一下。問自己:這個平台真的吃這套嗎?
參考連結:
- GitHub Repo:Hao0321/ai-media-generator
- 平台選擇邏輯:
references/selector.md - 配合使用:
claude-in-chromeMCP server - License:MIT










