Sora 2 提示词完全指南

编写视频提示词就像给摄影师做简报——清晰的指令能让 Sora 2 更好地理解你的创意意图。本指南基于 OpenAI 官方文档，系统介绍如何通过提示词控制视频生成的各个方面。

官方来源
本指南基于 OpenAI Cookbook 的 “Sora 2 Prompting Guide”（2025年10月6日发布）。
原文作者：Robin Koenig (OpenAI), Joanne Shin (OpenAI)
中文版由 SoratoAI 社区整理，结合实践经验进行了本地化调整。

开始之前需要知道的

提示词是创意愿望清单，不是死板合同

想象一下，你在给一位从未见过故事板的摄影师做简报。如果省略细节，他就会即兴发挥——结果可能偏离你的预期。通过具体说明"镜头"需要达到的效果，你能让模型更好地控制画面并保持一致性。

但是，留出一些想象空间同样重要。给模型更多创作自由，可能带来意想不到的惊喜和美妙诠释。这两种方法都有效：

详细提示词 → 更强的控制力和一致性
简洁提示词 → 更多创意空间和多样化结果

如何平衡取决于你的目标和期望效果。

拥抱多样性，做好迭代准备

就像使用 ChatGPT 一样，多次使用同一条提示词会产生不同结果——这是特性，不是bug。每次生成都是全新尝试，有时第二或第三个版本效果会更好。

对镜头、灯光或动作的微小调整，都可能让结果发生显著变化。你需要和模型合作：你提供方向，模型提供富有创意的变体。

重要提示
这并非精确科学——请将下面的指南看作实用建议，而非严格规则。实践中需要根据具体情况灵活调整。

API 参数设置

提示词控制视频内容，但某些属性只能通过 API 参数设置，无法通过文字描述改变：

必须显式设置的参数

参数	说明	可选值
model	模型版本	`sora-2` 或 `sora-2-pro`
size	视频分辨率	见下表
seconds	视频时长	`4`、`8`、`12`（默认为 4）

支持的分辨率

sora-2 模型

1280x720（横屏 720p）
720x1280（竖屏 720p）

sora-2-pro 模型

1280x720（横屏 720p）
720x1280（竖屏 720p）
1024x1792（竖屏高清）
1792x1024（横屏高清）

这些参数是视频的"容器"——分辨率、时长和质量不会因为文字描述如"让它更长"而改变。必须在 API 调用中显式设置，提示词控制其他所有内容（主体、动作、灯光、风格）。

分辨率对生成效果的影响

视频分辨率直接影响视觉保真度和动态连贯性：

高分辨率能更精确地生成细节、纹理和光影过渡
低分辨率会压缩视觉信息，通常带来模糊感或瑕疵

视频时长的最佳实践

模型在较短视频中能更可靠地遵循指令。为获得最佳效果：

尽量生成简短镜头
如果项目允许，将两个 4 秒片段剪辑在一起，效果可能比直接生成 8 秒片段更好

有效的提示词结构

清晰的提示词应该像在故事板上画草图一样描述镜头：

说明镜头取景 - 明确摄影机的角度和构图
点明景深 - 指定焦点和背景虚化程度
分步骤描述动作 - 用可执行的节拍描述运动
设定灯光和色调 - 定义光源、方向和色彩基调

用几个独特细节来锚定主体，使其保持可识别性，同时用一个单一、合理的动作让镜头更容易跟拍。

单镜头 vs 多镜头

单镜头描述

一个清晰的镜头单元包含：

一个机位设置
一个主体动作
一种光线方案

多镜头序列

如果需要覆盖连续场景，可以在一条提示词里描述多个镜头，但要让每个镜头描述块保持独立。这让你能灵活地：

生成独立短片后期剪辑
或生成连续序列一次性播放

把每个镜头当作创意单元来处理。

提示词长度的权衡

简短提示词 ✨

给模型更多创作自由
可能得到意想不到的惊喜

详细提示词 ⚙️

限制模型创造力
会尽力遵循指导，但不总是可靠

简短提示词示例

在一段90年代纪录片风格的采访中，一位瑞典老人坐在书房里说："我至今还记得我年轻的时候。"

这个提示词为什么有效？

90年代纪录片风格 - 设定视频风格，模型会据此选择镜头、灯光和色调
一位瑞典老人坐在书房里 - 简单描述主体和场景，让模型有自由发挥空间
说："我至今还记得我年轻的时候。" - 描述对白，Sora 很可能能精确复现

注意事项：这个提示词能稳定生成符合要求的视频，但不一定完全符合你的设想，因为许多细节未被提及：

具体时间、天气
服装、氛围
角色相貌和年龄
摄影机角度、剪辑
布景设计
其他细节

除非你描述这些细节，否则 Sora 会自己创造。

超详细提示词（电影级）

对于复杂、电影感的镜头，可以超越标准结构，用专业制作术语指定：

外观和格式
镜头与滤镜
调色/色板
光线方向
纹理质感
场景内音效（Diegetic sound）
镜头时序
拍摄理由

这类似于导演给摄影团队或 VFX 团队做简报。详细的镜头、滤镜、灯光、调色和运动线索，能帮助模型锁定非常具体的美学风格。

电影级提示词示例

格式与外观
时长4秒；180°快门；数字拍摄模仿65毫米胶片对比度；细颗粒感；
高光部分有轻微光晕；无胶片抖动。

镜头与滤镜
32mm/50mm球面定焦镜头；1/4黑柔焦滤镜；
轻微旋转环形偏振镜以控制火车车窗反光。

调色/色板
高光：带有琥珀色调的清晨阳光
中间调：平衡中性色，阴影部分略带青色
暗部：柔和中性黑色，为保留薄雾感而轻微提亮

光线与氛围
自然阳光从摄影机左侧以低角度射入（早上7:30）
补光：轨道旁使用4x4英尺银色反光板
对面墙壁作为吸光
场景光源：站台上的钠灯逐渐变暗
氛围：轻柔薄雾；火车废气飘过光束

地点与构图
城市通勤站台，黎明时分
前景：黄色安全线，长凳上的咖啡杯
中景：等待的乘客在薄雾中形成剪影
背景：进站的火车正在刹车
避免出现任何标牌或公司品牌

服装/道具/群众演员
主要角色：30多岁旅行者，身穿海军蓝外套，单肩背包，手机随意拿在身侧
群众演员：穿暗色衣服的通勤者；一名推自行车的骑行者
道具：纸质咖啡杯，拉杆箱，LED出发信息牌（通用目的地）

音效
仅场景内音效：微弱铁轨摩擦声，火车刹车嘶嘶声，
远处模糊广播声（-20 LUFS），低沉环境嗡嗡声
脚步声和纸张沙沙声；无配乐或后期音效

优化分镜表（2个镜头/总时长4秒）

0.00–2.40 — "抵达漂移"（32mm镜头，肩扛式缓慢向左移动）
镜头滑过站台标牌边缘；浅焦揭示出旅行者在画面中央，正望着轨道远方。
晨光在镜头中绽放；火车头灯在薄雾中柔和闪耀。
目的：建立场景和基调，暗示期待感。

2.40–4.00 — "转身停顿"（50mm镜头，缓慢弧线推近）
切到更近的过肩弧线镜头，火车停稳；旅行者稍微转向镜头，
阳光勾勒出脸颊轮廓，手机屏幕反射光芒。眼睛向上瞥向某个看不见的东西。
目的：用最少动作创造聚焦于人物的瞬间。

摄影机备注（为何这样拍）
保持视线高度较低并靠近镜头轴线，营造亲密感
允许火车玻璃产生微小眩光，作为美学纹理
保留手持拍摄的微小不完美，增加真实感
不要让过曝眩光破坏剪影清晰度；保留皮肤高光平滑过渡

后期制作
叠加细颗粒感和轻微色度噪点增加真实感；
场景光源有克制的光晕；使用冷暖色调LUT营造清晨色调分离感
混音：优先处理火车和环境细节，而不是脚步声瞬态
封面帧：旅行者转身瞬间，金色轮廓光，进站火车在背景薄雾中柔焦

这种详细程度适合需要匹配真实电影摄影风格（如 IMAX 航拍、35mm 手持、复古 16mm 纪录片）或在多个镜头间保持严格连续性的场景。

用视觉线索引导风格

风格是引导模型走向期望结果的最强有力杠杆之一。描述整体美学——例如：

“1970年代电影风格”
“史诗级、IMAX 规模场景”
“16毫米黑白胶片”

这些描述为所有其他选择定下视觉基调。尽早确立风格，模型才能将其贯穿始终。

风格如何影响解读

同样的细节，在不同风格要求下会产生截然不同效果：

精致的好莱坞戏剧
手持手机拍摄的短片
颗粒感十足的复古广告

一旦基调设定好，再用镜头、动作和光线添加具体细节。

清晰至上：具体胜过模糊

使用指向可见结果的动词和名词，避免含糊描述：

糟糕示例 ❌	优秀示例 ✅
“一条美丽的街道”	“湿漉漉的沥青路面，斑马线，霓虹灯在水坑中的倒影”
“人物快速移动”	“骑车人蹬了三下踏板，刹车，停在人行横道前”
“电影感”	“2.0倍变形宽银幕镜头，浅景深，体积光”

摄影机方向和构图

摄影机方向和构图塑造镜头的感觉：

高角度广角镜头 - 强调空间和环境
平视特写镜头 - 聚焦于情感

景深增加另一层维度：

浅景深 - 主体在模糊背景中脱颖而出
深景深 - 前景和背景都保持清晰

灯光同样能强烈设定基调：

柔和温暖主光 - 营造温馨氛围
单一硬光加冷色边缘 - 推向戏剧化

弱提示 vs 强提示示例

糟糕示例：

摄影机镜头：电影感

优秀示例：

摄影机镜头：广角镜头，低角度
景深：浅景深（主体清晰，背景模糊）
光线与色调：温暖逆光，带有柔和轮廓光

优秀构图指令示例

广角建立镜头，平视角度
广角镜头，跟随冲锋从左向右移动
航拍广角镜头，轻微俯角
中景特写，从背后略带角度

优秀摄影机运动指令示例

缓慢倾斜的镜头
手持新闻采访式摄影机

角色一致性注意事项

引入角色时，要预料到一些不可预测性——措辞的微小变化可能改变：

角色身份
姿势
场景焦点

保持一致性的方法：

在不同镜头间保持描述一致
重复使用相同措辞确保连贯性
避免混合可能相互冲突的特征

控制动作与时机

动作往往是最难搞定的部分，所以要保持简单。

一镜一事原则

每个镜头应该只有：

一个清晰的摄影机运动
一个清晰的主体动作

用节拍描述动作

动作最好用节拍或计数的方式描述——比如小步、手势或停顿——这样才有时间上的依据。

糟糕示例 ❌：

演员走过房间。

优秀示例 ✅：

演员向窗户走了四步，停顿了一下，在最后一秒拉上了窗帘。

第二个示例使得时机精确且可实现。

光线与色彩一致性

光线和动作、场景一样，共同决定画面情绪。

光线质感的影响

遍布画面的漫射光 - 平静而中性
单一强光源 - 鲜明对比和紧张感

剪辑连贯性的关键

当你想把多个片段剪辑在一起时，保持光线逻辑一致性是使剪辑无缝衔接的关键。

描述光线的最佳实践

既要描述光的质感，也要描述强化这种质感的色彩锚点。

糟糕示例 ❌：

光线与色调：光线明亮的房间

优秀示例 ✅：

光线与色调：柔和窗光，辅以温暖台灯补光，以及来自走廊的冷色边缘光
色调锚点：琥珀色、奶油色、胡桃棕

指定 3-5 种颜色有助于在不同镜头间保持色调稳定。

使用图像输入获得更多控制

为了对镜头的构图和风格进行更精细控制，可以使用图像输入作为视觉参考。

图像输入的作用

可以锁定的元素：

角色设计
服装
布景装饰
整体美学

模型将图片作为第一帧的锚点，而文本提示词定义接下来发生的事情。

如何使用

在 POST /videos 请求中，将图像文件作为 input_reference 参数包含进来。

要求：

图像必须匹配目标视频分辨率（size）
支持的格式：image/jpeg、image/png、image/webp

示例对比

输入图像（用 GPT Image 生成）	生成视频（Sora 2）
	提示词：“她转身微笑，然后慢慢走出画面。”
	提示词：“冰箱门打开。一只可爱、胖乎乎的紫色怪物从里面走出来。”

实验技巧

如果你还没有视觉参考，OpenAI 的图像生成模型是创建它们的强大工具。你可以：

快速生成环境和场景设计
将它们作为参考传入 Sora
测试美学并生成美丽的视频起点

对白与音效

对白编写规范

对白必须在提示词中直接描述。将它放在场景描述下方的单独区块里，这样模型能清楚区分视觉描述和口语台词。

对白编写要点

保持简洁自然 - 避免冗长复杂的演讲
限制对话量 - 尽量限制在几句话内，以便时机能与视频长度匹配
标记说话者 - 对于多角色场景，一致地标记说话者并使用轮流发言
考虑时长匹配：
- 4秒镜头 - 通常容纳1-2句简短对话
- 8秒片段 - 可以支持更多一些

冗长复杂的演讲不太可能同步得很好，而且可能破坏节奏。

带对白的提示词示例

一个狭窄、没有窗户的房间，墙壁是陈旧灰烬的颜色。
天花板上悬挂着一个光秃秃的灯泡，灯光汇聚在中央那张伤痕累累的金属桌子上。
两把椅子隔桌相对。一边坐着警探，风衣搭在椅背上，眼神锐利而不眨。
他对面，嫌疑人懒散地靠着，烟雾慢悠悠地向天花板卷去。
寂静压迫着一切，只有头顶灯光的微弱嗡嗡声打破了沉默。

对白：
- 警探："你在撒谎。我能从你的沉默中听出来。"
- 嫌疑人："或许我只是懒得说话了。"
- 警探："不管怎样，今晚结束前你会开口的。"

无声镜头的音效提示

如果镜头是无声的，你仍然可以用一个微小的声音来暗示节奏，例如：

“远处交通的嘶嘶声”
“一声清脆的折断声”

把它看作节奏提示，而不是完整音轨。

背景音描述示例

背景是意式浓缩咖啡机的嗡嗡声和人们的低语声。

使用 Remix 功能迭代

Remix 功能是用来微调的，不是用来赌运气的。

Remix 最佳实践

进行可控的、一次一项的修改
明确说明改动点：
- “同样的镜头，换成85毫米镜头”
- “同样的灯光，新的色调：青色、沙色、铁锈色”

接近目标时的策略

当结果接近理想时：

将它固定为参考
只描述需要调整的部分

这样，所有已经奏效的部分就能保持不变。

问题镜头的处理

如果一个镜头总是出错：

简化 - 固定住镜头，简化动作，清空背景
验证 - 一旦成功了
迭代 - 再一步步增加复杂性

Remix 示例

原始视频	Remix 生成视频
	提示词：“把怪物的颜色改成橙色”
	提示词：“紧接着又出来第二个怪物”

提示词模板与范例

标准提示词结构

一种有效的写法是将不同类型信息分开。这并非放之四海而皆准的成功秘诀，但它提供了清晰框架，使保持一致性变得更容易。

并非每个细节都需要包含 - 如果某件事对镜头不重要，可以省略它。

事实上，对某些元素保持开放性会鼓励模型更具创造力。你对每个视觉选择的规定越不严格，模型就越有空间去解读，并用出人意料但往往很美妙的变体给你惊喜。

描述详细程度的权衡

高度描述性提示词 → 更一致、可控的结果
较轻量提示词 → 解锁感觉新颖、富有想象力的多样化成果

通用模板

[用通俗语言进行散文式的场景描述。描述角色、服装、布景、天气和其他细节。
尽可能详细地描述，以生成符合你构想的视频。]

摄影：
摄影机镜头：[构图和角度，例如：广角建立镜头，平视角度]
景深：[浅/深]
镜头/风格线索：[例如：变形镜头、手持]
情绪：[整体基调，例如：电影感的紧张，俏皮的悬疑，奢华的期待]

动作：
- [动作1：一个清晰、具体的节拍或手势]
- [动作2：片段内的另一个独特节拍]
- [动作3：另一个动作或台词]

对白：
[如果镜头有对白，在此处或作为动作列表的一部分添加简短自然的台词。
保持简短，以匹配视频长度。]

完整示例

示例 1：机器人工作室场景

风格：手绘2D/3D混合动画，具有柔和笔刷纹理、温暖钨丝灯光和
富有质感的定格动画感。美学风格唤起了2000年代中期的故事书动画——
舒适、不完美、充满机械魅力。微妙的水彩渲染和绘画般纹理；
色调上有冷暖平衡；电影感的运动模糊以增强动画真实感。

在一个杂乱的工作室里，架子上堆满了齿轮、螺栓和泛黄的蓝图。
中央，一个小小的圆形机器人坐在一张木凳上，它凹陷的身体上贴着
不匹配的金属板和旧漆层。它大大的发光眼睛闪烁着淡蓝色的光，
紧张地摆弄着一个嗡嗡作响的灯泡。空气中回荡着安静的机械嗡鸣声，
雨点敲打着窗户，背景中时钟在稳定地滴答作响。

摄影：
摄影机：中景特写，缓慢推进，悬挂的工具产生轻微的视差效果
镜头：35毫米虚拟镜头；浅景深以柔化背景的杂乱
光线：来自头顶场景光源的暖色主光；来自窗户的冷色溢光以形成对比
情绪：温柔、奇幻，带有一丝悬念

动作：
- 机器人敲了敲灯泡；火花噼啪作响
- 它吓得一哆嗦，灯泡掉了下来，眼睛睁得大大的
- 灯泡在慢动作中翻滚；它在最后一刻接住了它
- 一股蒸汽从它胸口喷出——既是松了口气，又带着自豪
- 机器人轻声说："差点丢了……但我接住了！"

背景音：
雨声，时钟滴答声，柔和的机械嗡鸣声，微弱的灯泡嘶嘶声。

示例 2：屋顶浪漫舞蹈场景

风格：1970年代浪漫剧情片，用35毫米胶片拍摄，带有自然的镜头眩光、
柔焦和温暖的光晕。轻微的胶片抖动和手持微抖唤起了复古的亲密感。
温暖的柯达风格调色；灯泡上有轻微光晕；胶片颗粒感和柔和的暗角
以营造时代真实感。

在黄金时刻，一个砖砌公寓的屋顶变成了一个小舞台。
晾衣绳上挂着的白床单在风中摇曳，捕捉着最后一缕阳光。
一串串不匹配的仙女灯在头顶微弱地嗡嗡作响。
一个穿着飘逸红色丝绸连衣裙的年轻女子赤脚跳舞，
卷发在渐逝的光线中闪耀。她的舞伴——袖子卷起，吊带松垮——
在一旁拍手，笑容灿烂而毫无防备。下方，城市在汽车喇叭声、
地铁的震动和远处的笑声中嗡嗡作响。

摄影：
摄影机：中景广角镜头，从平视角度缓慢向前推进
镜头：40毫米球面镜头；浅焦以将这对情侣与天际线分离开
光线：金色的自然主光，辅以钨丝灯补光；仙女灯提供边缘光
情绪：怀旧、温柔、电影感

动作：
- 她旋转；裙摆飞扬，捕捉到阳光
- 女人（笑着说）："看？今晚连这座城市都在和我们共舞。"
- 他走上前，抓住她的手，将她带入阴影中
- 男人（微笑着说）："那只是因为你在领舞。"
- 床单飘过画面，短暂地遮住了天际线，然后再次分开

背景音：
仅自然环境音：微弱的风声、布料飘动的声音、街道噪音、模糊的音乐。
无额外配乐。

常见问题排查

结果太随机？

解决方案：增加取景、景深、光线锚点的描述

运动不可读？

解决方案：收敛到"一个摄影机运动 + 一个动作"

剪辑不连贯？

解决方案：固定光线逻辑与色板

角色不一致？

解决方案：复用同一套身份描述与措辞

总结与最佳实践

核心要点

API参数先行 - model、size、seconds 必须显式设置
简洁 vs 详细 - 根据需求平衡控制力和创意空间
一镜一事 - 一个摄影机运动 + 一个主体动作
视觉锚点 - 用具体、可见的描述代替模糊词汇
光线一致性 - 跨镜头保持光线逻辑稳定
迭代优化 - 使用 Remix 进行微调，而非重新生成