GPT-Image-2 Prompt 寶庫 — 330 個案例教我，把 prompt 寫成規格書，圖才會聽話

一個 repo，裡面沒有一行能跑的程式碼，只放別人寫好的 prompt 文字，兩週內衝破一萬一千顆星。

這件事本身，比裡面任何一張生成圖都值得研究。

因為它在說一件大部分人還沒意識到的事：當圖像生成模型強到一定程度，真正稀缺的東西，從「會不會畫」變成「會不會描述」。而描述這件事，是可以拆解、可以抄、可以變成範本的——這個 repo（awesome-gpt-image-2-API-and-Prompts）就是把 330 多個被驗證有效的描述，整套攤在你面前。

模型最大的進步，是它終於看得懂字了

先講一個你用過 DALL-E 3 大概就放棄過的需求：在圖裡放一行中文字。

結果通常是鬼畫符。筆畫像、但組不成字，像有人用沒學過中文的手在臨摹。所以那兩年大家的默契是：AI 生圖可以做背景、做氛圍、做沒有文字的純視覺，但只要牽涉到字，乖乖用 Photoshop 後製。

GPT-Image-2 把這條線挪掉了。它能把中文、日文、英文準確渲染進圖裡，不再是裝飾性的亂碼。這個差別聽起來很小，實際上是分水嶺——海報、產品包裝、社群貼圖、UI 草稿，這些「正式場合」要用的圖，幾乎全都有字。DALL-E 3 是「能用」，到了 GPT-Image-2 才是「能交件」。

順著文字能力一起來的，還有幾個質變：它吃得下數百到上千字的超長 prompt 而且每個細節都認真遵守；一次能生成九宮格分鏡、4x3 角色設定圖這種多面板構圖；人像寫實到那股熟悉的「AI 味」淡了很多。

但這些能力會不會被你用出來，全看你怎麼下指令。這就是那 330 個案例真正的價值——不是給你看圖，是給你看「為了生出這張圖，人家的 prompt 長什麼樣」。

把 prompt 當成規格書，不是當成許願

看完一輪高分案例，會發現它們有個共同點：沒有一個是用「幫我畫一張好看的夕陽」這種口氣寫的。

它們讀起來更像一份交給外包的規格書。主體是什麼、構圖怎麼擺、色調走哪個方向、光從哪裡來、不要出現什麼——一條一條交代清楚。這是整件事最反直覺的地方：你越是把它當成一個會讀心的藝術家去「許願」，它越給你平庸的結果；你越是把它當成一個聽話但不會自己腦補的執行者去「派工」，它越精準。

最基本的招式就是結構化分段，把一坨需求拆成模型一眼能對上的區塊：

Subject: 主體描述
Style & Composition: 風格與構圖
Color Palette: 色彩方案
Lighting: 燈光設定
Negative prompt: 排除項

同樣一段需求，揉成一句話寫，跟拆成五個欄位寫，出來的穩定度差很多。原因不難理解：模型在讀一句長句時，要自己猜哪段對應哪個面向；你先幫它分好欄，它就不用猜了。少猜一次，就少飄一次。

用攝影師的詞彙，比用形容詞精準一百倍

第二個反覆出現的技巧，是改用專業攝影術語去描述你要的風格。

「好看的照片」這種話對模型幾乎沒有指向性——它見過幾億張被標記成「好看」的圖，平均下來就是個誰都不得罪的中庸值。但如果你寫的是「35mm 底片、f/1.8 淺景深、golden hour 的側光、帶一點 film grain」，事情就完全不一樣了。

鏡頭：35mm, 85mm, f/1.8, telephoto lens
風格：35mm film photography, CCD camera, Fujifilm
光線：golden hour, chiaroscuro, volumetric god rays
後製：film grain, bokeh, shallow depth of field

這些詞為什麼有效？因為它們在攝影圈是有精確定義的——一個攝影師聽到「85mm f/1.8」就知道是淺景深的人像鏡，聽到「chiaroscuro」就知道是明暗對比強烈的林布蘭式打光。模型在海量圖文配對裡學到的，正是這套行話跟視覺特徵的對應關係。你用對術語，等於直接報座標給它，不用它在「好看」這片大霧裡瞎走。

換個角度想，這跟你寫 commit message 是同一回事。「修了一些東西」跟「修正登入失敗時 session 沒清乾淨導致的重登迴圈」，後者之所以有用，是因為它用了能精確定位的詞。對模型講話也一樣，含糊的詞拿到含糊的結果，這裡沒有例外。

把「不要什麼」講清楚，跟講「要什麼」一樣重要

AI 生圖有幾個老毛病：皮膚過度光滑像塑膠、後製銳化過頭、莫名其妙浮出浮水印。這些不是你「要」出來的，是模型自己腦補加上去的。

對付這種腦補，最直接的辦法是明確下負面指令：

1 2	no plastic skin, no digital over-sharpening, no airbrushing, no watermark, no text

這招的心法是：模型的預設行為裡藏著一堆你沒要求、但它習慣性會做的事。與其期待它剛好不做，不如把這些雷一個個點名禁掉。寫程式的人對這個邏輯應該很熟——你不會假設一個函式「應該不會」回傳 null，你會明確擋掉 null。對 prompt 也是，把已知的失敗模式列進排除清單，結果的下限就被你托住了。

真正進階的玩法：把 prompt 寫成可以複用的模板

到這裡都還是「寫好一張」。案例庫裡更值得偷的，是那些把 prompt 寫成參數化模板的人——他們不是在生一張圖，是在造一條能重複用的生產線。

1
2
3

Create a {argument name="grid layout" default="4x3"}
borderless grid where each panel is an independent
image of the {argument name="subject" default="a young woman"}.

把會變動的部分抽成變數，固定的結構留著。下次要換主體、換版面，只改幾個參數，整套構圖邏輯原封不動。這已經不是在「用」工具，是在「封裝」工具——跟你把一段重複邏輯抽成函式、把一串指令寫成 script，是完全一樣的工程直覺。

同一套思路再往上疊一層，就能用一個 prompt 生出整組分鏡。一個鏡頭一個鏡頭描述清楚景別與情緒，模型一次給你一整頁 storyboard：

1
2
3

Frame 1 (Top-Down Establishing): ...
Frame 2 (Low Angle Power): ...
Frame 3 (Wide Isolation): ...

電商產品圖、社群人像、遊戲角色設定集、UI 設計系統、整套品牌行銷視覺——repo 把這 330 多個案例分成七大類，每一個都附完整 prompt 跟生成結果，CC0 授權，你可以原封不動拿去改。

有幾個地方得先講清楚

別把它當成沒有代價的魔法。

那些漂亮案例的 prompt 動輒數百字，token 燒得不少，prompt 越長越貴，量大時成本要先算。OpenAI 有內容審核，碰到敏感題材的 prompt 會被擋。跨多張圖維持同一個角色的一致性，目前仍然是難題，多角度案例看起來行，真要連戲還是會漂。中文長段落的渲染雖然大幅進步，複雜句子偶爾還是出包。

還有一個容易踩的坑：這個 repo 推的 API 是 Evolink 中介平台，不是直連 OpenAI，定價和速率限制是另一套。但如果你只是想偷 prompt 寫法，根本不用碰它的 API——直接讀 cases/ 目錄裡的 markdown 就好。案例本身大多來自社群分享，repo 有標原作者，但歸屬不保證百分百準確。