Sora 2 提示词完全指南
编写视频提示词就像给摄影师做简报——清晰的指令能让 Sora 2 更好地理解你的创意意图。本指南基于 OpenAI 官方文档,系统介绍如何通过提示词控制视频生成的各个方面。
本指南基于 OpenAI Cookbook 的 “Sora 2 Prompting Guide”(2025年10月6日发布)。
原文作者:Robin Koenig (OpenAI), Joanne Shin (OpenAI)
中文版由 SoratoAI 社区整理,结合实践经验进行了本地化调整。
开始之前需要知道的
提示词是创意愿望清单,不是死板合同
想象一下,你在给一位从未见过故事板的摄影师做简报。如果省略细节,他就会即兴发挥——结果可能偏离你的预期。通过具体说明"镜头"需要达到的效果,你能让模型更好地控制画面并保持一致性。
但是,留出一些想象空间同样重要。给模型更多创作自由,可能带来意想不到的惊喜和美妙诠释。这两种方法都有效:
- 详细提示词 → 更强的控制力和一致性
- 简洁提示词 → 更多创意空间和多样化结果
如何平衡取决于你的目标和期望效果。
拥抱多样性,做好迭代准备
就像使用 ChatGPT 一样,多次使用同一条提示词会产生不同结果——这是特性,不是bug。每次生成都是全新尝试,有时第二或第三个版本效果会更好。
对镜头、灯光或动作的微小调整,都可能让结果发生显著变化。你需要和模型合作:你提供方向,模型提供富有创意的变体。
这并非精确科学——请将下面的指南看作实用建议,而非严格规则。实践中需要根据具体情况灵活调整。
API 参数设置
提示词控制视频内容,但某些属性只能通过 API 参数设置,无法通过文字描述改变:
必须显式设置的参数
参数 | 说明 | 可选值 |
---|---|---|
model | 模型版本 | sora-2 或 sora-2-pro |
size | 视频分辨率 | 见下表 |
seconds | 视频时长 | 4 、8 、12 (默认为 4) |
支持的分辨率
sora-2 模型
- 1280x720(横屏 720p)
- 720x1280(竖屏 720p)
sora-2-pro 模型
- 1280x720(横屏 720p)
- 720x1280(竖屏 720p)
- 1024x1792(竖屏高清)
- 1792x1024(横屏高清)
分辨率对生成效果的影响
视频分辨率直接影响视觉保真度和动态连贯性:
- 高分辨率能更精确地生成细节、纹理和光影过渡
- 低分辨率会压缩视觉信息,通常带来模糊感或瑕疵
视频时长的最佳实践
模型在较短视频中能更可靠地遵循指令。为获得最佳效果:
- 尽量生成简短镜头
- 如果项目允许,将两个 4 秒片段剪辑在一起,效果可能比直接生成 8 秒片段更好
有效的提示词结构
清晰的提示词应该像在故事板上画草图一样描述镜头:
- 说明镜头取景 - 明确摄影机的角度和构图
- 点明景深 - 指定焦点和背景虚化程度
- 分步骤描述动作 - 用可执行的节拍描述运动
- 设定灯光和色调 - 定义光源、方向和色彩基调
用几个独特细节来锚定主体,使其保持可识别性,同时用一个单一、合理的动作让镜头更容易跟拍。
单镜头 vs 多镜头
单镜头描述
一个清晰的镜头单元包含:
- 一个机位设置
- 一个主体动作
- 一种光线方案
多镜头序列
如果需要覆盖连续场景,可以在一条提示词里描述多个镜头,但要让每个镜头描述块保持独立。这让你能灵活地:
- 生成独立短片后期剪辑
- 或生成连续序列一次性播放
把每个镜头当作创意单元来处理。
提示词长度的权衡
简短提示词 ✨
- 给模型更多创作自由
- 可能得到意想不到的惊喜
详细提示词 ⚙️
- 限制模型创造力
- 会尽力遵循指导,但不总是可靠
简短提示词示例
在一段90年代纪录片风格的采访中,一位瑞典老人坐在书房里说:"我至今还记得我年轻的时候。"
这个提示词为什么有效?
90年代纪录片风格
- 设定视频风格,模型会据此选择镜头、灯光和色调一位瑞典老人坐在书房里
- 简单描述主体和场景,让模型有自由发挥空间说:"我至今还记得我年轻的时候。"
- 描述对白,Sora 很可能能精确复现
注意事项:这个提示词能稳定生成符合要求的视频,但不一定完全符合你的设想,因为许多细节未被提及:
- 具体时间、天气
- 服装、氛围
- 角色相貌和年龄
- 摄影机角度、剪辑
- 布景设计
- 其他细节
除非你描述这些细节,否则 Sora 会自己创造。
超详细提示词(电影级)
对于复杂、电影感的镜头,可以超越标准结构,用专业制作术语指定:
- 外观和格式
- 镜头与滤镜
- 调色/色板
- 光线方向
- 纹理质感
- 场景内音效(Diegetic sound)
- 镜头时序
- 拍摄理由
这类似于导演给摄影团队或 VFX 团队做简报。详细的镜头、滤镜、灯光、调色和运动线索,能帮助模型锁定非常具体的美学风格。
电影级提示词示例
格式与外观
时长4秒;180°快门;数字拍摄模仿65毫米胶片对比度;细颗粒感;
高光部分有轻微光晕;无胶片抖动。
镜头与滤镜
32mm/50mm球面定焦镜头;1/4黑柔焦滤镜;
轻微旋转环形偏振镜以控制火车车窗反光。
调色/色板
高光:带有琥珀色调的清晨阳光
中间调:平衡中性色,阴影部分略带青色
暗部:柔和中性黑色,为保留薄雾感而轻微提亮
光线与氛围
自然阳光从摄影机左侧以低角度射入(早上7:30)
补光:轨道旁使用4x4英尺银色反光板
对面墙壁作为吸光
场景光源:站台上的钠灯逐渐变暗
氛围:轻柔薄雾;火车废气飘过光束
地点与构图
城市通勤站台,黎明时分
前景:黄色安全线,长凳上的咖啡杯
中景:等待的乘客在薄雾中形成剪影
背景:进站的火车正在刹车
避免出现任何标牌或公司品牌
服装/道具/群众演员
主要角色:30多岁旅行者,身穿海军蓝外套,单肩背包,手机随意拿在身侧
群众演员:穿暗色衣服的通勤者;一名推自行车的骑行者
道具:纸质咖啡杯,拉杆箱,LED出发信息牌(通用目的地)
音效
仅场景内音效:微弱铁轨摩擦声,火车刹车嘶嘶声,
远处模糊广播声(-20 LUFS),低沉环境嗡嗡声
脚步声和纸张沙沙声;无配乐或后期音效
优化分镜表(2个镜头/总时长4秒)
0.00–2.40 — "抵达漂移"(32mm镜头,肩扛式缓慢向左移动)
镜头滑过站台标牌边缘;浅焦揭示出旅行者在画面中央,正望着轨道远方。
晨光在镜头中绽放;火车头灯在薄雾中柔和闪耀。
目的:建立场景和基调,暗示期待感。
2.40–4.00 — "转身停顿"(50mm镜头,缓慢弧线推近)
切到更近的过肩弧线镜头,火车停稳;旅行者稍微转向镜头,
阳光勾勒出脸颊轮廓,手机屏幕反射光芒。眼睛向上瞥向某个看不见的东西。
目的:用最少动作创造聚焦于人物的瞬间。
摄影机备注(为何这样拍)
保持视线高度较低并靠近镜头轴线,营造亲密感
允许火车玻璃产生微小眩光,作为美学纹理
保留手持拍摄的微小不完美,增加真实感
不要让过曝眩光破坏剪影清晰度;保留皮肤高光平滑过渡
后期制作
叠加细颗粒感和轻微色度噪点增加真实感;
场景光源有克制的光晕;使用冷暖色调LUT营造清晨色调分离感
混音:优先处理火车和环境细节,而不是脚步声瞬态
封面帧:旅行者转身瞬间,金色轮廓光,进站火车在背景薄雾中柔焦
这种详细程度适合需要匹配真实电影摄影风格(如 IMAX 航拍、35mm 手持、复古 16mm 纪录片)或在多个镜头间保持严格连续性的场景。
用视觉线索引导风格
风格是引导模型走向期望结果的最强有力杠杆之一。描述整体美学——例如:
- “1970年代电影风格”
- “史诗级、IMAX 规模场景”
- “16毫米黑白胶片”
这些描述为所有其他选择定下视觉基调。尽早确立风格,模型才能将其贯穿始终。
风格如何影响解读
同样的细节,在不同风格要求下会产生截然不同效果:
- 精致的好莱坞戏剧
- 手持手机拍摄的短片
- 颗粒感十足的复古广告
一旦基调设定好,再用镜头、动作和光线添加具体细节。
清晰至上:具体胜过模糊
使用指向可见结果的动词和名词,避免含糊描述:
糟糕示例 ❌ | 优秀示例 ✅ |
---|---|
“一条美丽的街道” | “湿漉漉的沥青路面,斑马线,霓虹灯在水坑中的倒影” |
“人物快速移动” | “骑车人蹬了三下踏板,刹车,停在人行横道前” |
“电影感” | “2.0倍变形宽银幕镜头,浅景深,体积光” |
摄影机方向和构图
摄影机方向和构图塑造镜头的感觉:
- 高角度广角镜头 - 强调空间和环境
- 平视特写镜头 - 聚焦于情感
景深增加另一层维度:
- 浅景深 - 主体在模糊背景中脱颖而出
- 深景深 - 前景和背景都保持清晰
灯光同样能强烈设定基调:
- 柔和温暖主光 - 营造温馨氛围
- 单一硬光加冷色边缘 - 推向戏剧化
弱提示 vs 强提示示例
糟糕示例:
摄影机镜头:电影感
优秀示例:
摄影机镜头:广角镜头,低角度
景深:浅景深(主体清晰,背景模糊)
光线与色调:温暖逆光,带有柔和轮廓光
优秀构图指令示例
- 广角建立镜头,平视角度
- 广角镜头,跟随冲锋从左向右移动
- 航拍广角镜头,轻微俯角
- 中景特写,从背后略带角度
优秀摄影机运动指令示例
- 缓慢倾斜的镜头
- 手持新闻采访式摄影机
角色一致性注意事项
引入角色时,要预料到一些不可预测性——措辞的微小变化可能改变:
- 角色身份
- 姿势
- 场景焦点
保持一致性的方法:
- 在不同镜头间保持描述一致
- 重复使用相同措辞确保连贯性
- 避免混合可能相互冲突的特征
控制动作与时机
动作往往是最难搞定的部分,所以要保持简单。
一镜一事原则
每个镜头应该只有:
- 一个清晰的摄影机运动
- 一个清晰的主体动作
用节拍描述动作
动作最好用节拍或计数的方式描述——比如小步、手势或停顿——这样才有时间上的依据。
糟糕示例 ❌:
演员走过房间。
优秀示例 ✅:
演员向窗户走了四步,停顿了一下,在最后一秒拉上了窗帘。
第二个示例使得时机精确且可实现。
光线与色彩一致性
光线和动作、场景一样,共同决定画面情绪。
光线质感的影响
- 遍布画面的漫射光 - 平静而中性
- 单一强光源 - 鲜明对比和紧张感
剪辑连贯性的关键
当你想把多个片段剪辑在一起时,保持光线逻辑一致性是使剪辑无缝衔接的关键。
描述光线的最佳实践
既要描述光的质感,也要描述强化这种质感的色彩锚点。
糟糕示例 ❌:
光线与色调:光线明亮的房间
优秀示例 ✅:
光线与色调:柔和窗光,辅以温暖台灯补光,以及来自走廊的冷色边缘光
色调锚点:琥珀色、奶油色、胡桃棕
指定 3-5 种颜色有助于在不同镜头间保持色调稳定。
使用图像输入获得更多控制
为了对镜头的构图和风格进行更精细控制,可以使用图像输入作为视觉参考。
图像输入的作用
可以锁定的元素:
- 角色设计
- 服装
- 布景装饰
- 整体美学
模型将图片作为第一帧的锚点,而文本提示词定义接下来发生的事情。
如何使用
在 POST /videos 请求中,将图像文件作为 input_reference
参数包含进来。
要求:
- 图像必须匹配目标视频分辨率(size)
- 支持的格式:
image/jpeg
、image/png
、image/webp
示例对比
输入图像(用 GPT Image 生成) | 生成视频(Sora 2) |
---|---|
提示词:“她转身微笑,然后慢慢走出画面。” | |
提示词:“冰箱门打开。一只可爱、胖乎乎的紫色怪物从里面走出来。” |
实验技巧
如果你还没有视觉参考,OpenAI 的图像生成模型是创建它们的强大工具。你可以:
- 快速生成环境和场景设计
- 将它们作为参考传入 Sora
- 测试美学并生成美丽的视频起点
对白与音效
对白编写规范
对白必须在提示词中直接描述。将它放在场景描述下方的单独区块里,这样模型能清楚区分视觉描述和口语台词。
对白编写要点
- 保持简洁自然 - 避免冗长复杂的演讲
- 限制对话量 - 尽量限制在几句话内,以便时机能与视频长度匹配
- 标记说话者 - 对于多角色场景,一致地标记说话者并使用轮流发言
- 考虑时长匹配:
- 4秒镜头 - 通常容纳1-2句简短对话
- 8秒片段 - 可以支持更多一些
带对白的提示词示例
一个狭窄、没有窗户的房间,墙壁是陈旧灰烬的颜色。
天花板上悬挂着一个光秃秃的灯泡,灯光汇聚在中央那张伤痕累累的金属桌子上。
两把椅子隔桌相对。一边坐着警探,风衣搭在椅背上,眼神锐利而不眨。
他对面,嫌疑人懒散地靠着,烟雾慢悠悠地向天花板卷去。
寂静压迫着一切,只有头顶灯光的微弱嗡嗡声打破了沉默。
对白:
- 警探:"你在撒谎。我能从你的沉默中听出来。"
- 嫌疑人:"或许我只是懒得说话了。"
- 警探:"不管怎样,今晚结束前你会开口的。"
无声镜头的音效提示
如果镜头是无声的,你仍然可以用一个微小的声音来暗示节奏,例如:
- “远处交通的嘶嘶声”
- “一声清脆的折断声”
把它看作节奏提示,而不是完整音轨。
背景音描述示例
背景是意式浓缩咖啡机的嗡嗡声和人们的低语声。
使用 Remix 功能迭代
Remix 功能是用来微调的,不是用来赌运气的。
Remix 最佳实践
- 进行可控的、一次一项的修改
- 明确说明改动点:
- “同样的镜头,换成85毫米镜头”
- “同样的灯光,新的色调:青色、沙色、铁锈色”
接近目标时的策略
当结果接近理想时:
- 将它固定为参考
- 只描述需要调整的部分
这样,所有已经奏效的部分就能保持不变。
问题镜头的处理
如果一个镜头总是出错:
- 简化 - 固定住镜头,简化动作,清空背景
- 验证 - 一旦成功了
- 迭代 - 再一步步增加复杂性
Remix 示例
原始视频 | Remix 生成视频 |
---|---|
提示词:“把怪物的颜色改成橙色” | |
提示词:“紧接着又出来第二个怪物” |
提示词模板与范例
标准提示词结构
一种有效的写法是将不同类型信息分开。这并非放之四海而皆准的成功秘诀,但它提供了清晰框架,使保持一致性变得更容易。
并非每个细节都需要包含 - 如果某件事对镜头不重要,可以省略它。
事实上,对某些元素保持开放性会鼓励模型更具创造力。你对每个视觉选择的规定越不严格,模型就越有空间去解读,并用出人意料但往往很美妙的变体给你惊喜。
描述详细程度的权衡
- 高度描述性提示词 → 更一致、可控的结果
- 较轻量提示词 → 解锁感觉新颖、富有想象力的多样化成果
通用模板
[用通俗语言进行散文式的场景描述。描述角色、服装、布景、天气和其他细节。
尽可能详细地描述,以生成符合你构想的视频。]
摄影:
摄影机镜头:[构图和角度,例如:广角建立镜头,平视角度]
景深:[浅/深]
镜头/风格线索:[例如:变形镜头、手持]
情绪:[整体基调,例如:电影感的紧张,俏皮的悬疑,奢华的期待]
动作:
- [动作1:一个清晰、具体的节拍或手势]
- [动作2:片段内的另一个独特节拍]
- [动作3:另一个动作或台词]
对白:
[如果镜头有对白,在此处或作为动作列表的一部分添加简短自然的台词。
保持简短,以匹配视频长度。]
完整示例
示例 1:机器人工作室场景
风格:手绘2D/3D混合动画,具有柔和笔刷纹理、温暖钨丝灯光和
富有质感的定格动画感。美学风格唤起了2000年代中期的故事书动画——
舒适、不完美、充满机械魅力。微妙的水彩渲染和绘画般纹理;
色调上有冷暖平衡;电影感的运动模糊以增强动画真实感。
在一个杂乱的工作室里,架子上堆满了齿轮、螺栓和泛黄的蓝图。
中央,一个小小的圆形机器人坐在一张木凳上,它凹陷的身体上贴着
不匹配的金属板和旧漆层。它大大的发光眼睛闪烁着淡蓝色的光,
紧张地摆弄着一个嗡嗡作响的灯泡。空气中回荡着安静的机械嗡鸣声,
雨点敲打着窗户,背景中时钟在稳定地滴答作响。
摄影:
摄影机:中景特写,缓慢推进,悬挂的工具产生轻微的视差效果
镜头:35毫米虚拟镜头;浅景深以柔化背景的杂乱
光线:来自头顶场景光源的暖色主光;来自窗户的冷色溢光以形成对比
情绪:温柔、奇幻,带有一丝悬念
动作:
- 机器人敲了敲灯泡;火花噼啪作响
- 它吓得一哆嗦,灯泡掉了下来,眼睛睁得大大的
- 灯泡在慢动作中翻滚;它在最后一刻接住了它
- 一股蒸汽从它胸口喷出——既是松了口气,又带着自豪
- 机器人轻声说:"差点丢了……但我接住了!"
背景音:
雨声,时钟滴答声,柔和的机械嗡鸣声,微弱的灯泡嘶嘶声。
示例 2:屋顶浪漫舞蹈场景
风格:1970年代浪漫剧情片,用35毫米胶片拍摄,带有自然的镜头眩光、
柔焦和温暖的光晕。轻微的胶片抖动和手持微抖唤起了复古的亲密感。
温暖的柯达风格调色;灯泡上有轻微光晕;胶片颗粒感和柔和的暗角
以营造时代真实感。
在黄金时刻,一个砖砌公寓的屋顶变成了一个小舞台。
晾衣绳上挂着的白床单在风中摇曳,捕捉着最后一缕阳光。
一串串不匹配的仙女灯在头顶微弱地嗡嗡作响。
一个穿着飘逸红色丝绸连衣裙的年轻女子赤脚跳舞,
卷发在渐逝的光线中闪耀。她的舞伴——袖子卷起,吊带松垮——
在一旁拍手,笑容灿烂而毫无防备。下方,城市在汽车喇叭声、
地铁的震动和远处的笑声中嗡嗡作响。
摄影:
摄影机:中景广角镜头,从平视角度缓慢向前推进
镜头:40毫米球面镜头;浅焦以将这对情侣与天际线分离开
光线:金色的自然主光,辅以钨丝灯补光;仙女灯提供边缘光
情绪:怀旧、温柔、电影感
动作:
- 她旋转;裙摆飞扬,捕捉到阳光
- 女人(笑着说):"看?今晚连这座城市都在和我们共舞。"
- 他走上前,抓住她的手,将她带入阴影中
- 男人(微笑着说):"那只是因为你在领舞。"
- 床单飘过画面,短暂地遮住了天际线,然后再次分开
背景音:
仅自然环境音:微弱的风声、布料飘动的声音、街道噪音、模糊的音乐。
无额外配乐。
常见问题排查
结果太随机?
解决方案:增加取景、景深、光线锚点的描述
运动不可读?
解决方案:收敛到"一个摄影机运动 + 一个动作"
剪辑不连贯?
解决方案:固定光线逻辑与色板
角色不一致?
解决方案:复用同一套身份描述与措辞
总结与最佳实践
核心要点
- API参数先行 - model、size、seconds 必须显式设置
- 简洁 vs 详细 - 根据需求平衡控制力和创意空间
- 一镜一事 - 一个摄影机运动 + 一个主体动作
- 视觉锚点 - 用具体、可见的描述代替模糊词汇
- 光线一致性 - 跨镜头保持光线逻辑稳定
- 迭代优化 - 使用 Remix 进行微调,而非重新生成
推荐工作流程
- 明确目标 - 确定镜头要达到的效果
- 设置参数 - 选择合适的 model、size、seconds
- 编写初始提示词 - 从简洁开始,或使用模板
- 生成并评估 - 查看多个变体,选择最接近的
- Remix优化 - 对选中版本进行针对性调整
- 剪辑整合 - 将满意的片段整合到项目中
参考资源
- 官方指南:OpenAI Cookbook - Sora 2 Prompting Guide
- API文档:Sora API Reference
- 图像生成:GPT Image Generation
- 提示词库:访问 Sora2 提示词库 获取精选提示词和创作灵感
- 社区讨论:访问 SoratoAI 社区 与其他创作者交流经验
版权声明:本指南基于 OpenAI 官方文档(Robin Koenig & Joanne Shin 著)整理,由 SoratoAI 社区进行中文本地化和实践优化。