GPT Image 2 提示词工程:12 套模板,从入门到精准出图
2 分钟阅读
GPT Image 2 用的是另一种语言——不是关键词标签,是设计师和艺术总监互相交代任务时的"创意简报"语言。一旦理解这个转变,出图就不再靠抽卡碰运气。
如果你是 API 调用用户,之前的文章《1.8k Star 的 GPT Image 2 提示词仓库,7 个能直接抄的 prompt 》介绍了社区提示词仓库;本文则从底层原理出发,给出更完整的模板体系和工程化方法。
一、万能公式:六要素
无论做什么类型的图,所有高水准的提示词都遵循同一套骨架:
| 要素 | 描述 | 示例 |
|---|---|---|
| 载体 (Artifact) | 先给作品定性——是海报、产品实拍还是角色设定图 | “一张电影海报”、“影棚产品摄影” |
| 主体 (Subject) | 画面里是谁或什么 | “一位 28 岁的女性爵士乐手” |
| 场景 (Scene) | 时间、地点、正在发生什么 | “黄昏时分的纽约屋顶,吹奏萨克斯管” |
| 细节 (Detail) | 纹理、材质、氛围、具体道具 | “磨损的帆布围裙,双手布满老茧” |
| 约束 (Constraint) | 取景方式、构图要求、排除的元素 | “35mm 镜头,禁止平光,禁止卡通感” |
| 风格 (Style) | 胶片型号、插画风格、时代感参考 | “Kodak Vision3 500T,浅景深” |
二、文字精准渲染的解法
GPT Image 2 是目前少数能精准渲染画面文字的图像模型。触发方式:
- 1文案放在双引号或全大写中
- 2不常见的品牌名逐字母拼写
- 3提示词末尾加上
verbatim — no extra characters(原样输出,不得有额外字符)
这三步组合,能解决 80% 的文字乱码问题。
三、12 套模板,覆盖主流场景
01 纪实摄影:消除 AI 感的终极解法
过度磨皮、光影过亮——AI 生成的照片为什么一眼看穿?因为缺少人性化细节。秘诀是加入一个具体的物理细节,让画面感觉是"被观察到的"而非生成的。
一张彩色纪实摄影照片,描绘了【主体】在【具体地点和时间】正在【具体动作】。 【氛围细节:天气、水汽、灰尘或光影质感】。背景:【表面材质与纹理】。 细节:【一个人性化特征——磨损的靴子/手上的面粉/寒冷空气中呼出的白气】。 使用 35mm 镜头拍摄。仅限自然光。带有轻微胶片颗粒感。无后期加工痕迹。

02 电影感人像:让图有"贵感"
适用于英雄特写、社论人像、活动大片,或任何需要"昂贵感"的场景。
一张电影感高分辨率【人像/动作捕捉】,【主体】在【地点】【做动作】。 【灯光描述:色温、方向、质感】。焦点锐利,对准【脸部/核心元素】。 【胶片/风格参考】。反向约束:禁止卡通感,禁止平光,禁止廉价素材图既视感。

03 产品英雄位实拍:电商广告直出
适用于电商、方案演示、通讯稿或广告。GPT Image 2 在能准确描述表面材质和灯光的情况下,不同轮次的生成高度一致。
影棚产品摄影,【产品】悬浮在【表面】之上。影棚灯光:左上方柔和主光,右侧微妙补光, 干净的投影。背景:【白色/渐变/质感材质】。产品整体焦点清晰。 标签文字:"【标签内容】" verbatim — no extra characters。商业摄影,专业精修。

04 品牌视觉规范页
GPT Image 2 可以在单页内呈现一整套设计规范。只要结构描述清晰,它完全可以胜任。
一份为【品牌名】设计的专业单页品牌视觉规范文档。顶部:主 Logo,带有清晰的留白区域。 中间:色板——【Hex 1】,【Hex 2】,【Hex 3】,下方标注 Hex 标签。 下方:字体示例,【标题字体】和【正文字体】。 底部:正确/错误的使用示例。品牌口号:"【口号】" verbatim。 纯白背景。企业级设计审美。所有文字原样输出(verbatim)。
05 社交媒体广告:平台直出
适配 1:1、9:16、1.91:1 等各种比例。
一份【1:1/9:16】的社交媒体广告,为【品牌/产品】设计。视觉部分:【英雄位图像描述】。 文字层级叠加:标题"【内容】"(大号粗体,颜色);副标题"【内容】"(中等粗细); 行动按钮"【文字】"(颜色,胶囊形)。品牌色:【Hex 1】,【Hex 2】。 氛围:【充满活力/简约/奢华/俏皮】。无素材图感。所有文字 verbatim。

06 电影/活动海报:戏剧感拉满
适用于产品发布、活动宣传、任何能从戏剧化框架中获益的场景。
一张【时代感】风格的院线海报,片名为"【片名】"。【插画风格】。【调色板】。 【主体】位于前景,【背景细节】。标题:"【片名】"——【字体描述】、【颜色】、【位置】。 口号:"【内容】" verbatim。带有【纹理/做旧效果】。

07 漫画/分镜页面
GPT Image 2 支持非拉丁文字精准渲染——可以制作带有准确日语、韩语、孟加拉语的真实漫画。
- 【N】个分镜的单页漫画 - 布局:【网格描述,如 2x2】 - 每个分镜单独描述场景/动作/角度 - 艺术风格:【少年漫/青年漫/Webtoon/法式连环画】 - 对话框内容:分镜 N 气泡:"【对话】" verbatim
08 分屏时光旅行:前后对比叙事
适用于历史对比内容、前后效果展示或跨时代叙事。
一张由干净垂直线平分的分屏照片。左侧:【地点】在【年份】——【历史细节】。 右侧:同一视角的【年份】现状——【现代细节】。 双侧保持一致的透视和焦距。纪实摄影风格。
09 360 度全景图
大多数人不知道这在 GPT Image 2 中是可能的。技巧是:必须填满所有六个方向的元素描述。
一张关于【环境】的 360 度等距柱状全景图。 前方:【内容】;后方:【内容】;左右侧:【侧面元素】; 上方:【天空/天花板】;下方:【地面】。 【灯光与氛围】。高动态范围,全局锐利,无明显接缝。
10 信息图表
文字密集的图像通常是图像模型的软肋。GPT Image 2 能处理,但前提是给出明确的结构。
一张关于【话题】的干净单页信息图,标题为"【标题】",包含【N】个板块。 【布局方式:垂直堆叠/两栏网格/环形流】。 颜色:【主色 Hex】装饰,纯白背景,【字色 Hex】文字。 所有文字原样输出:第一部分 "标题"——"正文"……verbatim。
11 UI/App 原型图
适用于创始人、产品团队或任何需要可视化界面的场景。
一张【App 类型】的高保真 UI 原型图——【屏幕名称】界面。设备:【具体机型】。 屏幕内容:顶部标题"【标题】" verbatim; 【描述卡片、按钮、导航等各 UI 元素】;主按钮"【文字】" verbatim。 色板:【主色 Hex】为主,纯白背景,【强调色 Hex】用于交互元素。 字体:干净无衬线。扁平化设计,像素级精确间距。
12 角色设定参考图
长线项目角色一致性的核武器——先生成设定图,后续每条提示词开头写上"使用角色参考图,严格保留所有特征"。
为【角色名】设计的专业角色设计参考图。三视图并排:正面(左)、3/4 侧面(中)、正侧面(右)。 同一角色,同一套服装,比例完全一致。角色:【年龄、体态、特征】。 服装:【具体材质与颜色】。纯白背景。平整灯光。动画设定集审美。 标签文字:"【角色名】— Reference Sheet" verbatim。

四、API 用户福利:JSON 格式
在生产流程中批量调用时,JSON 格式能提供更精准的控制:
{
"meta": {
"image_quality": "Very High",
"style": "photorealistic",
"aspect_ratio": "16:9"
},
"scene": {
"location": "凌晨五点上海市场",
"time_of_day": "金黄时刻",
"weather": "薄雾"
},
"subject": {
"description": "整理水果的商贩",
"position": "中左侧",
"action": "弯腰整理木箱"
},
"lighting": "来自右侧的温暖定向光,柔和阴影",
"constraints": "无文字,无水印,极高细节"
}
五、5 条通用金律
- 1载体先行——开头第一句就定调。"院线海报"还是"一张照片"直接决定模型的底层构图理解。
- 2用事实说话,别谈感觉——"凌晨 5 点,浓雾笼罩鹅卵石街道"不需要模型猜。"忧郁、有氛围"才需要猜。
- 3单点迭代——出图之后一次只改一个变量。先声明你要保留什么,再说改哪一点。贪心一次改三处,会丢掉前面已生效的部分。
- 4明确取景角度——特写、中景、远景、俯拍、荷兰式斜角——你不说,模型默认居中中景。
- 5文字必带"原样输出"——只要画面里有字,结尾务必加
verbatim — no extra characters。
从"关键词"转向"指令集"。
从告诉它"要什么风格"到告诉它"画面里有什么"、"光从哪里来"、"焦点在哪"。
掌握这个转变,什么海报级画质、照片级写实、精准文字渲染,
几乎都能在一两次内搞定——不再靠抽卡碰运气。
参考:由 GitHub 开源社区及 AI 设计社区整理的经验总结 | 博客地址:https://jungelife.me/zh/blog/tools/gpt-image-2-prompt-engineering/