一個 repo,裡面沒有一行能跑的程式碼,只放別人寫好的 prompt 文字,兩週內衝破一萬一千顆星。

這件事本身,比裡面任何一張生成圖都值得研究。

因為它在說一件大部分人還沒意識到的事:當圖像生成模型強到一定程度,真正稀缺的東西,從「會不會畫」變成「會不會描述」。而描述這件事,是可以拆解、可以抄、可以變成範本的——這個 repo(awesome-gpt-image-2-API-and-Prompts)就是把 330 多個被驗證有效的描述,整套攤在你面前。

模型最大的進步,是它終於看得懂字了

先講一個你用過 DALL-E 3 大概就放棄過的需求:在圖裡放一行中文字。

結果通常是鬼畫符。筆畫像、但組不成字,像有人用沒學過中文的手在臨摹。所以那兩年大家的默契是:AI 生圖可以做背景、做氛圍、做沒有文字的純視覺,但只要牽涉到字,乖乖用 Photoshop 後製。

GPT-Image-2 把這條線挪掉了。它能把中文、日文、英文準確渲染進圖裡,不再是裝飾性的亂碼。這個差別聽起來很小,實際上是分水嶺——海報、產品包裝、社群貼圖、UI 草稿,這些「正式場合」要用的圖,幾乎全都有字。DALL-E 3 是「能用」,到了 GPT-Image-2 才是「能交件」。

順著文字能力一起來的,還有幾個質變:它吃得下數百到上千字的超長 prompt 而且每個細節都認真遵守;一次能生成九宮格分鏡、4x3 角色設定圖這種多面板構圖;人像寫實到那股熟悉的「AI 味」淡了很多。

但這些能力會不會被你用出來,全看你怎麼下指令。這就是那 330 個案例真正的價值——不是給你看圖,是給你看「為了生出這張圖,人家的 prompt 長什麼樣」。

把 prompt 當成規格書,不是當成許願

看完一輪高分案例,會發現它們有個共同點:沒有一個是用「幫我畫一張好看的夕陽」這種口氣寫的。

它們讀起來更像一份交給外包的規格書。主體是什麼、構圖怎麼擺、色調走哪個方向、光從哪裡來、不要出現什麼——一條一條交代清楚。這是整件事最反直覺的地方:你越是把它當成一個會讀心的藝術家去「許願」,它越給你平庸的結果;你越是把它當成一個聽話但不會自己腦補的執行者去「派工」,它越精準。

最基本的招式就是結構化分段,把一坨需求拆成模型一眼能對上的區塊:

1
2
3
4
5
Subject: 主體描述
Style & Composition: 風格與構圖
Color Palette: 色彩方案
Lighting: 燈光設定
Negative prompt: 排除項

同樣一段需求,揉成一句話寫,跟拆成五個欄位寫,出來的穩定度差很多。原因不難理解:模型在讀一句長句時,要自己猜哪段對應哪個面向;你先幫它分好欄,它就不用猜了。少猜一次,就少飄一次。

用攝影師的詞彙,比用形容詞精準一百倍

第二個反覆出現的技巧,是改用專業攝影術語去描述你要的風格。

「好看的照片」這種話對模型幾乎沒有指向性——它見過幾億張被標記成「好看」的圖,平均下來就是個誰都不得罪的中庸值。但如果你寫的是「35mm 底片、f/1.8 淺景深、golden hour 的側光、帶一點 film grain」,事情就完全不一樣了。

1
2
3
4
鏡頭:35mm, 85mm, f/1.8, telephoto lens
風格:35mm film photography, CCD camera, Fujifilm
光線:golden hour, chiaroscuro, volumetric god rays
後製:film grain, bokeh, shallow depth of field

這些詞為什麼有效?因為它們在攝影圈是有精確定義的——一個攝影師聽到「85mm f/1.8」就知道是淺景深的人像鏡,聽到「chiaroscuro」就知道是明暗對比強烈的林布蘭式打光。模型在海量圖文配對裡學到的,正是這套行話跟視覺特徵的對應關係。你用對術語,等於直接報座標給它,不用它在「好看」這片大霧裡瞎走。

換個角度想,這跟你寫 commit message 是同一回事。「修了一些東西」跟「修正登入失敗時 session 沒清乾淨導致的重登迴圈」,後者之所以有用,是因為它用了能精確定位的詞。對模型講話也一樣,含糊的詞拿到含糊的結果,這裡沒有例外。

把「不要什麼」講清楚,跟講「要什麼」一樣重要

AI 生圖有幾個老毛病:皮膚過度光滑像塑膠、後製銳化過頭、莫名其妙浮出浮水印。這些不是你「要」出來的,是模型自己腦補加上去的。

對付這種腦補,最直接的辦法是明確下負面指令:

1
2
no plastic skin, no digital over-sharpening,
no airbrushing, no watermark, no text

這招的心法是:模型的預設行為裡藏著一堆你沒要求、但它習慣性會做的事。與其期待它剛好不做,不如把這些雷一個個點名禁掉。寫程式的人對這個邏輯應該很熟——你不會假設一個函式「應該不會」回傳 null,你會明確擋掉 null。對 prompt 也是,把已知的失敗模式列進排除清單,結果的下限就被你托住了。

真正進階的玩法:把 prompt 寫成可以複用的模板

到這裡都還是「寫好一張」。案例庫裡更值得偷的,是那些把 prompt 寫成參數化模板的人——他們不是在生一張圖,是在造一條能重複用的生產線。

1
2
3
Create a {argument name="grid layout" default="4x3"}
borderless grid where each panel is an independent
image of the {argument name="subject" default="a young woman"}.

把會變動的部分抽成變數,固定的結構留著。下次要換主體、換版面,只改幾個參數,整套構圖邏輯原封不動。這已經不是在「用」工具,是在「封裝」工具——跟你把一段重複邏輯抽成函式、把一串指令寫成 script,是完全一樣的工程直覺。

同一套思路再往上疊一層,就能用一個 prompt 生出整組分鏡。一個鏡頭一個鏡頭描述清楚景別與情緒,模型一次給你一整頁 storyboard:

1
2
3
Frame 1 (Top-Down Establishing): ...
Frame 2 (Low Angle Power): ...
Frame 3 (Wide Isolation): ...

電商產品圖、社群人像、遊戲角色設定集、UI 設計系統、整套品牌行銷視覺——repo 把這 330 多個案例分成七大類,每一個都附完整 prompt 跟生成結果,CC0 授權,你可以原封不動拿去改。

有幾個地方得先講清楚

別把它當成沒有代價的魔法。

那些漂亮案例的 prompt 動輒數百字,token 燒得不少,prompt 越長越貴,量大時成本要先算。OpenAI 有內容審核,碰到敏感題材的 prompt 會被擋。跨多張圖維持同一個角色的一致性,目前仍然是難題,多角度案例看起來行,真要連戲還是會漂。中文長段落的渲染雖然大幅進步,複雜句子偶爾還是出包。

還有一個容易踩的坑:這個 repo 推的 API 是 Evolink 中介平台,不是直連 OpenAI,定價和速率限制是另一套。但如果你只是想偷 prompt 寫法,根本不用碰它的 API——直接讀 cases/ 目錄裡的 markdown 就好。案例本身大多來自社群分享,repo 有標原作者,但歸屬不保證百分百準確。

原文來源:awesome-gpt-image-2-API-and-Prompts(GitHub,CC0 授權)

會描述,正在變成新的門檻

把這 330 個案例讀完,留下的不是「我學會幾個咒語」,而是一個更大的體感。

當生成一張專業水準圖片的成本被壓到趨近於零,按下生成鍵這個動作就不值錢了——它太便宜,誰都按得起。值錢的東西往上游退了一格:退到「你能不能把腦袋裡那個模糊的畫面,翻譯成一份精確到光線角度的規格」。會許願的人到處都是,會寫規格的人才稀缺。

這跟程式設計這幾年的走向是同一條線。當 AI 能幫你把程式碼敲出來,工程師的價值就不在打字速度,而在你能不能把一個含糊的需求想清楚、切乾淨、講成機器能照著做的東西。圖像生成只是把這件事用更直觀的方式演了一遍:工具負責執行,而「想清楚再精確地說出來」這份功課,它一點都沒幫你扛。

所以下次你打開生圖工具,先別急著敲那句「幫我畫一張很潮的海報」。先問自己:如果這是要交給一個聽話但不會通靈的外包,我得把這份規格寫到多細,他才不會交錯件?把那份規格寫出來——你會發現,圖聽不聽話,從來都是你的問題。