你有没有过这样的经历:脑子里有一个画面感极强的故事,但打开 AI 生图工具,憋了半天只会写"赛博朋克,雨夜,男人,霓虹灯,8k"?
结果出来的图,男人可能站在霓虹灯上面,雨也不知道下在哪里。
今天这篇文章,就是帮你彻底告别"关键词抽卡"的时代。


先搞清楚一件事:Gemini 不吃关键词,它吃故事
老一代 AI 画图,本质是"标签匹配"。你输入的每个逗号隔开的词,都是往池子里扔一个元素,模型负责拼凑。
Gemini 不一样。它底层是大语言模型,能读懂句子。它知道"雨水在前景中形成模糊的线条"和"雨水在背景里"是两回事。它能理解主谓宾,能区分因果关系。
所以,别再写标签式的提示词了,写一段话。
坏的写法:
赛博朋克,雨夜,霓虹灯,男人,奔跑,8k,虚幻引擎渲染
好的写法:
在一个赛博朋克风格的雨夜,一名身穿黑色风衣的男子在霓虹灯闪烁的湿滑街道上狂奔。雨水在前景中形成了模糊的线条,背景是高耸入云的钢铁建筑。
第二种写法看着长,但模型能精确分配每个元素的图层关系——谁在前景、谁在背景、谁在动、谁是静的。
这就是 Gemini 时代提示词的第一原则:用叙事代替标签。
四个东西写对了,出图就不会太差
行业里管它叫"四大支柱",听着唬人,其实就四个问题:
- 你是谁(角色设定)
告诉 Gemini 它的身份。别小看这一步,一句"你是一位拥有 20 年经验的好莱坞分镜师",就能让输出的构图从"AI味"变成"电影感"。 - 做什么(具体任务)
"生成一张图"太模糊。要写成:"根据以下剧本片段,生成一张 16:9 的电影级分镜,使用中景构图。" - 背景是什么(上下文)
这是画面的"Why"。补一句"这是主角刚经历重大失败后的深夜",模型就会自动把光线压暗、色调偏冷。 - 交付格式(物理规格)
画幅比例、是否需要文字、是否需要特定排版。说清楚,不给模型发挥的余地。
每张分镜图的万能公式
把上面的理论压缩成一行公式,每次写提示词照着套就行:
主体 + 动作 + 环境 + 镜头语言 + 风格氛围
举个例子:
一位 25 岁的亚洲青年男性(主体),正站在便利店橱窗前凝视窗内(动作),深夜的雨后街道,地面反射着荧光灯的暖色(环境),中景平视构图,半身被暖光照亮、半身被冷青色阴影吞没(镜头语言),电影级 Teal-and-Orange 调色,Kodak Vision3 500T 胶片颗粒感(风格氛围)。
注意几个细节:
- 主体要具象。不是"一个男人",是"25 岁、短发微乱、穿深色连帽卫衣、背旧帆布包的亚洲青年"。
- 动作要用强动词。不是"在街上",是"正倾身狂奔"或"双手插兜低头行走"。
- 情感别写抽象的。"悲伤"不行,要写"双肩下垂,目光呆滞地盯着地面,脸上有未干的泪痕"。
用镜头语言让画面有"导演感"
这是区分"AI出图"和"AI分镜"的分水岭。同一个场景,换一个景别,情绪天差地别。
景别速查表
| 怎么说 | 画面效果 | 什么时候用 |
|---|---|---|
| Extreme Long Shot(极远景) | 人在画面里小到几乎看不见 | 开篇建立世界观 |
| Wide Shot(远景) | 全身入画,环境清晰 | 交代人物与环境的关系 |
| Medium Shot(中景) | 腰部以上 | 日常对话、从容叙事 |
| Medium Close-Up(中近景) | 胸部以上 | 表情开始成为重点 |
| Close-Up(特写) | 整个头部 | 情感爆发,强调面部细节 |
| Extreme Close-Up(极大特写) | 只有眼睛或嘴唇 | 心理压迫,关键线索 |
角度速查表
| 怎么说 | 心理效果 |
|---|---|
| Eye Level(平视) | 平等、客观 |
| Low Angle(仰拍) | 主体高大、有威胁感 |
| High Angle(俯拍) | 主体渺小、脆弱 |
| Dutch Angle(荷兰角) | 不安、混乱,心理失衡 |
光线速查表
| 怎么说 | 视觉效果 |
|---|---|
| Three-point softbox(三点柔光) | 干净均匀,商业人像感 |
| Chiaroscuro / Rembrandt lighting(伦勃朗光) | 高对比,一半亮一半暗,戏剧感拉满 |
| Golden hour backlighting(黄金时刻逆光) | 温暖怀旧,轮廓光 |
| 指定焦段如 85mm portrait lens | 人像黄金焦段,完美虚化背景 |
| 指定底片如 Kodak Vision3 500T | 电影级胶片色彩科学 |
记住:不要写"好看的光线",要写"伦勃朗光,打火机火焰在左脸形成暖橙三角"。越具体,AI 越老实。
角色一致性:分镜的终极痛点
做一张图容易,做九张风格统一、同一个人的图——这才是真难。
纯靠文字描述,哪怕你一个字不改,换个动作模型就给你换张脸。
解决方案叫"锚定与枢轴",三步走:
- 第一步:生成角色基准图
用提示词反复生成直到出一张满意的"基准脸"。这张图就是你整套九宫格的"人物身份证"。 - 第二步:上传为参考图
把满意的图上传到 Gemini,勾选"作为参考"。Gemini 是原生多模态模型,它会把这张图的特征编码成数学约束——后续生成的每一帧都会被这张脸"锁死"。 - 第三步:枢轴扭转
后续的提示词只需要描述新场景和新动作,角色身份被参考图锁死了。同时记得在每帧提示词里加一句保险:
"指令红线:绝对保持面部解剖结构、发型与固有肤色特征不变。"
九宫格情感弧线设计
帧1 城市全景 → 冷漠、庞大帧2 霓虹特写 → 疏离、赛博感帧3 雨巷背影 → 孤独、迷失帧4 侧脸点烟 → 沉思、挣扎帧5 积水倒影 → 自我碎裂帧6 便利店前 → 短暂温暖 ← 情绪开始转折帧7 天桥俯拍 → 渺小感帧8 回眸微笑 → 释然、接纳 ← 核心转折点帧9 路灯剪影 → 余韵、继续前行
做分镜九宫格的完整工作流
- 第一步:定角色 — 写好角色锚定文本,反复生成一张满意的"基准脸"。
- 第二步:定风格 — 确定风格后缀,锁死色彩体系和质感。
- 第三步:拆场景 — 按情感弧线把故事拆成 9 个视觉节拍,每帧一个情绪,一个动作。
- 第四步:配镜头 — 每个场景分配景别 + 角度 + 光线类型。
- 第五步:逐帧生成 — 把角色锚定 + 场景描述 + 风格后缀拼起来,一帧一帧生成。
- 第六步:拼贴成图 — 用任何拼图工具拼成 3x3 九宫格。
可以直接替换的变体方向
| 主题 | 情感弧线 | 色彩体系 | 关键场景替换 |
|---|---|---|---|
| 雨天咖啡馆 | 等待 → 邂逅 → 离别 | 暖琥珀 + 雾灰 | 窗边座位、拿铁拉花特写、雨伞 |
| 深夜末班车 | 疲惫 → 恍惚 → 到站 | 荧光白 + 深蓝 | 空车厢、车窗倒影、到站指示灯 |
| 凌晨天台 | 压抑 → 呐喊 → 黎明 | 深紫 + 破晓橙 | 城市夜景、风吹发丝、第一缕阳光 |
| 老街漫步 | 怀旧 → 发现 → 告别 | 褪色暖黄 + 青绿 | 老招牌、石板路、转角回眸 |
写在最后
AI 分镜的本质不是让模型帮你画画,而是你用文字当导筒,用提示词当场面调度,把脑子里的电影一帧帧拍出来。
模型只是你的摄影师。你才是导演。
而一个好导演,永远知道自己要什么。
来源:冬眠咖啡(微信公众平台)