Sora 2 提示词完全指南

编写视频提示词就像给摄影师做简报——清晰的指令能让 Sora 2 更好地理解你的创意意图。本指南基于 OpenAI 官方文档,系统介绍如何通过提示词控制视频生成的各个方面。

官方来源
本指南基于 OpenAI Cookbook 的 “Sora 2 Prompting Guide”(2025年10月6日发布)。
原文作者:Robin Koenig (OpenAI), Joanne Shin (OpenAI)
中文版由 SoratoAI 社区整理,结合实践经验进行了本地化调整。

开始之前需要知道的

提示词是创意愿望清单,不是死板合同

想象一下,你在给一位从未见过故事板的摄影师做简报。如果省略细节,他就会即兴发挥——结果可能偏离你的预期。通过具体说明"镜头"需要达到的效果,你能让模型更好地控制画面并保持一致性。

但是,留出一些想象空间同样重要。给模型更多创作自由,可能带来意想不到的惊喜和美妙诠释。这两种方法都有效:

  • 详细提示词 → 更强的控制力和一致性
  • 简洁提示词 → 更多创意空间和多样化结果

如何平衡取决于你的目标和期望效果。

拥抱多样性,做好迭代准备

就像使用 ChatGPT 一样,多次使用同一条提示词会产生不同结果——这是特性,不是bug。每次生成都是全新尝试,有时第二或第三个版本效果会更好。

对镜头、灯光或动作的微小调整,都可能让结果发生显著变化。你需要和模型合作:你提供方向,模型提供富有创意的变体

重要提示
这并非精确科学——请将下面的指南看作实用建议,而非严格规则。实践中需要根据具体情况灵活调整。

API 参数设置

提示词控制视频内容,但某些属性只能通过 API 参数设置,无法通过文字描述改变:

必须显式设置的参数

参数说明可选值
model模型版本sora-2sora-2-pro
size视频分辨率见下表
seconds视频时长4812(默认为 4)

支持的分辨率

sora-2 模型

  • 1280x720(横屏 720p)
  • 720x1280(竖屏 720p)

sora-2-pro 模型

  • 1280x720(横屏 720p)
  • 720x1280(竖屏 720p)
  • 1024x1792(竖屏高清)
  • 1792x1024(横屏高清)
这些参数是视频的"容器"——分辨率、时长和质量不会因为文字描述如"让它更长"而改变。必须在 API 调用中显式设置,提示词控制其他所有内容(主体、动作、灯光、风格)。

分辨率对生成效果的影响

视频分辨率直接影响视觉保真度和动态连贯性

  • 高分辨率能更精确地生成细节、纹理和光影过渡
  • 低分辨率会压缩视觉信息,通常带来模糊感或瑕疵

视频时长的最佳实践

模型在较短视频中能更可靠地遵循指令。为获得最佳效果:

  • 尽量生成简短镜头
  • 如果项目允许,将两个 4 秒片段剪辑在一起,效果可能比直接生成 8 秒片段更好

有效的提示词结构

清晰的提示词应该像在故事板上画草图一样描述镜头:

  1. 说明镜头取景 - 明确摄影机的角度和构图
  2. 点明景深 - 指定焦点和背景虚化程度
  3. 分步骤描述动作 - 用可执行的节拍描述运动
  4. 设定灯光和色调 - 定义光源、方向和色彩基调

用几个独特细节来锚定主体,使其保持可识别性,同时用一个单一、合理的动作让镜头更容易跟拍。

单镜头 vs 多镜头

单镜头描述

一个清晰的镜头单元包含:

  • 一个机位设置
  • 一个主体动作
  • 一种光线方案

多镜头序列

如果需要覆盖连续场景,可以在一条提示词里描述多个镜头,但要让每个镜头描述块保持独立。这让你能灵活地:

  • 生成独立短片后期剪辑
  • 或生成连续序列一次性播放

把每个镜头当作创意单元来处理。

提示词长度的权衡

简短提示词

  • 给模型更多创作自由
  • 可能得到意想不到的惊喜

详细提示词 ⚙️

  • 限制模型创造力
  • 会尽力遵循指导,但不总是可靠

简短提示词示例

在一段90年代纪录片风格的采访中,一位瑞典老人坐在书房里说:"我至今还记得我年轻的时候。"

这个提示词为什么有效?

  • 90年代纪录片风格 - 设定视频风格,模型会据此选择镜头、灯光和色调
  • 一位瑞典老人坐在书房里 - 简单描述主体和场景,让模型有自由发挥空间
  • 说:"我至今还记得我年轻的时候。" - 描述对白,Sora 很可能能精确复现

注意事项:这个提示词能稳定生成符合要求的视频,但不一定完全符合你的设想,因为许多细节未被提及:

  • 具体时间、天气
  • 服装、氛围
  • 角色相貌和年龄
  • 摄影机角度、剪辑
  • 布景设计
  • 其他细节

除非你描述这些细节,否则 Sora 会自己创造。

超详细提示词(电影级)

对于复杂、电影感的镜头,可以超越标准结构,用专业制作术语指定:

  • 外观和格式
  • 镜头与滤镜
  • 调色/色板
  • 光线方向
  • 纹理质感
  • 场景内音效(Diegetic sound)
  • 镜头时序
  • 拍摄理由

这类似于导演给摄影团队或 VFX 团队做简报。详细的镜头、滤镜、灯光、调色和运动线索,能帮助模型锁定非常具体的美学风格。

电影级提示词示例

格式与外观
时长4秒;180°快门;数字拍摄模仿65毫米胶片对比度;细颗粒感;
高光部分有轻微光晕;无胶片抖动。

镜头与滤镜
32mm/50mm球面定焦镜头;1/4黑柔焦滤镜;
轻微旋转环形偏振镜以控制火车车窗反光。

调色/色板
高光:带有琥珀色调的清晨阳光
中间调:平衡中性色,阴影部分略带青色
暗部:柔和中性黑色,为保留薄雾感而轻微提亮

光线与氛围
自然阳光从摄影机左侧以低角度射入(早上7:30)
补光:轨道旁使用4x4英尺银色反光板
对面墙壁作为吸光
场景光源:站台上的钠灯逐渐变暗
氛围:轻柔薄雾;火车废气飘过光束

地点与构图
城市通勤站台,黎明时分
前景:黄色安全线,长凳上的咖啡杯
中景:等待的乘客在薄雾中形成剪影
背景:进站的火车正在刹车
避免出现任何标牌或公司品牌

服装/道具/群众演员
主要角色:30多岁旅行者,身穿海军蓝外套,单肩背包,手机随意拿在身侧
群众演员:穿暗色衣服的通勤者;一名推自行车的骑行者
道具:纸质咖啡杯,拉杆箱,LED出发信息牌(通用目的地)

音效
仅场景内音效:微弱铁轨摩擦声,火车刹车嘶嘶声,
远处模糊广播声(-20 LUFS),低沉环境嗡嗡声
脚步声和纸张沙沙声;无配乐或后期音效

优化分镜表(2个镜头/总时长4秒)

0.00–2.40 — "抵达漂移"(32mm镜头,肩扛式缓慢向左移动)
镜头滑过站台标牌边缘;浅焦揭示出旅行者在画面中央,正望着轨道远方。
晨光在镜头中绽放;火车头灯在薄雾中柔和闪耀。
目的:建立场景和基调,暗示期待感。

2.40–4.00 — "转身停顿"(50mm镜头,缓慢弧线推近)
切到更近的过肩弧线镜头,火车停稳;旅行者稍微转向镜头,
阳光勾勒出脸颊轮廓,手机屏幕反射光芒。眼睛向上瞥向某个看不见的东西。
目的:用最少动作创造聚焦于人物的瞬间。

摄影机备注(为何这样拍)
保持视线高度较低并靠近镜头轴线,营造亲密感
允许火车玻璃产生微小眩光,作为美学纹理
保留手持拍摄的微小不完美,增加真实感
不要让过曝眩光破坏剪影清晰度;保留皮肤高光平滑过渡

后期制作
叠加细颗粒感和轻微色度噪点增加真实感;
场景光源有克制的光晕;使用冷暖色调LUT营造清晨色调分离感
混音:优先处理火车和环境细节,而不是脚步声瞬态
封面帧:旅行者转身瞬间,金色轮廓光,进站火车在背景薄雾中柔焦

这种详细程度适合需要匹配真实电影摄影风格(如 IMAX 航拍、35mm 手持、复古 16mm 纪录片)或在多个镜头间保持严格连续性的场景。

用视觉线索引导风格

风格是引导模型走向期望结果的最强有力杠杆之一。描述整体美学——例如:

  • “1970年代电影风格”
  • “史诗级、IMAX 规模场景”
  • “16毫米黑白胶片”

这些描述为所有其他选择定下视觉基调。尽早确立风格,模型才能将其贯穿始终。

风格如何影响解读

同样的细节,在不同风格要求下会产生截然不同效果:

  • 精致的好莱坞戏剧
  • 手持手机拍摄的短片
  • 颗粒感十足的复古广告

一旦基调设定好,再用镜头、动作和光线添加具体细节。

清晰至上:具体胜过模糊

使用指向可见结果的动词和名词,避免含糊描述:

糟糕示例 ❌优秀示例 ✅
“一条美丽的街道”“湿漉漉的沥青路面,斑马线,霓虹灯在水坑中的倒影”
“人物快速移动”“骑车人蹬了三下踏板,刹车,停在人行横道前”
“电影感”“2.0倍变形宽银幕镜头,浅景深,体积光”

摄影机方向和构图

摄影机方向和构图塑造镜头的感觉:

  • 高角度广角镜头 - 强调空间和环境
  • 平视特写镜头 - 聚焦于情感

景深增加另一层维度:

  • 浅景深 - 主体在模糊背景中脱颖而出
  • 深景深 - 前景和背景都保持清晰

灯光同样能强烈设定基调:

  • 柔和温暖主光 - 营造温馨氛围
  • 单一硬光加冷色边缘 - 推向戏剧化

弱提示 vs 强提示示例

糟糕示例

摄影机镜头:电影感

优秀示例

摄影机镜头:广角镜头,低角度
景深:浅景深(主体清晰,背景模糊)
光线与色调:温暖逆光,带有柔和轮廓光

优秀构图指令示例

  • 广角建立镜头,平视角度
  • 广角镜头,跟随冲锋从左向右移动
  • 航拍广角镜头,轻微俯角
  • 中景特写,从背后略带角度

优秀摄影机运动指令示例

  • 缓慢倾斜的镜头
  • 手持新闻采访式摄影机

角色一致性注意事项

引入角色时,要预料到一些不可预测性——措辞的微小变化可能改变:

  • 角色身份
  • 姿势
  • 场景焦点

保持一致性的方法

  • 在不同镜头间保持描述一致
  • 重复使用相同措辞确保连贯性
  • 避免混合可能相互冲突的特征

控制动作与时机

动作往往是最难搞定的部分,所以要保持简单

一镜一事原则

每个镜头应该只有:

  • 一个清晰的摄影机运动
  • 一个清晰的主体动作

用节拍描述动作

动作最好用节拍或计数的方式描述——比如小步、手势或停顿——这样才有时间上的依据。

糟糕示例 ❌:

演员走过房间。

优秀示例 ✅:

演员向窗户走了四步,停顿了一下,在最后一秒拉上了窗帘。

第二个示例使得时机精确且可实现。

光线与色彩一致性

光线和动作、场景一样,共同决定画面情绪

光线质感的影响

  • 遍布画面的漫射光 - 平静而中性
  • 单一强光源 - 鲜明对比和紧张感

剪辑连贯性的关键

当你想把多个片段剪辑在一起时,保持光线逻辑一致性是使剪辑无缝衔接的关键。

描述光线的最佳实践

既要描述光的质感,也要描述强化这种质感的色彩锚点

糟糕示例 ❌:

光线与色调:光线明亮的房间

优秀示例 ✅:

光线与色调:柔和窗光,辅以温暖台灯补光,以及来自走廊的冷色边缘光
色调锚点:琥珀色、奶油色、胡桃棕

指定 3-5 种颜色有助于在不同镜头间保持色调稳定。

使用图像输入获得更多控制

为了对镜头的构图和风格进行更精细控制,可以使用图像输入作为视觉参考。

图像输入的作用

可以锁定的元素:

  • 角色设计
  • 服装
  • 布景装饰
  • 整体美学

模型将图片作为第一帧的锚点,而文本提示词定义接下来发生的事情。

如何使用

在 POST /videos 请求中,将图像文件作为 input_reference 参数包含进来。

要求

  • 图像必须匹配目标视频分辨率(size)
  • 支持的格式:image/jpegimage/pngimage/webp

示例对比

输入图像(用 GPT Image 生成)生成视频(Sora 2)
女性城市天际线提示词:“她转身微笑,然后慢慢走出画面。”
紫色怪物提示词:“冰箱门打开。一只可爱、胖乎乎的紫色怪物从里面走出来。”

实验技巧

如果你还没有视觉参考,OpenAI 的图像生成模型是创建它们的强大工具。你可以:

  1. 快速生成环境和场景设计
  2. 将它们作为参考传入 Sora
  3. 测试美学并生成美丽的视频起点

对白与音效

对白编写规范

对白必须在提示词中直接描述。将它放在场景描述下方的单独区块里,这样模型能清楚区分视觉描述和口语台词。

对白编写要点

  1. 保持简洁自然 - 避免冗长复杂的演讲
  2. 限制对话量 - 尽量限制在几句话内,以便时机能与视频长度匹配
  3. 标记说话者 - 对于多角色场景,一致地标记说话者并使用轮流发言
  4. 考虑时长匹配
    • 4秒镜头 - 通常容纳1-2句简短对话
    • 8秒片段 - 可以支持更多一些
冗长复杂的演讲不太可能同步得很好,而且可能破坏节奏。

带对白的提示词示例

一个狭窄、没有窗户的房间,墙壁是陈旧灰烬的颜色。
天花板上悬挂着一个光秃秃的灯泡,灯光汇聚在中央那张伤痕累累的金属桌子上。
两把椅子隔桌相对。一边坐着警探,风衣搭在椅背上,眼神锐利而不眨。
他对面,嫌疑人懒散地靠着,烟雾慢悠悠地向天花板卷去。
寂静压迫着一切,只有头顶灯光的微弱嗡嗡声打破了沉默。

对白:
- 警探:"你在撒谎。我能从你的沉默中听出来。"
- 嫌疑人:"或许我只是懒得说话了。"
- 警探:"不管怎样,今晚结束前你会开口的。"

无声镜头的音效提示

如果镜头是无声的,你仍然可以用一个微小的声音来暗示节奏,例如:

  • “远处交通的嘶嘶声”
  • “一声清脆的折断声”

把它看作节奏提示,而不是完整音轨。

背景音描述示例

背景是意式浓缩咖啡机的嗡嗡声和人们的低语声。

使用 Remix 功能迭代

Remix 功能是用来微调的,不是用来赌运气的。

Remix 最佳实践

  1. 进行可控的、一次一项的修改
  2. 明确说明改动点
    • “同样的镜头,换成85毫米镜头”
    • “同样的灯光,新的色调:青色、沙色、铁锈色”

接近目标时的策略

当结果接近理想时:

  1. 将它固定为参考
  2. 只描述需要调整的部分

这样,所有已经奏效的部分就能保持不变。

问题镜头的处理

如果一个镜头总是出错:

  1. 简化 - 固定住镜头,简化动作,清空背景
  2. 验证 - 一旦成功了
  3. 迭代 - 再一步步增加复杂性

Remix 示例

原始视频Remix 生成视频
原始怪物视频提示词:“把怪物的颜色改成橙色”
原始怪物视频提示词:“紧接着又出来第二个怪物”

提示词模板与范例

标准提示词结构

一种有效的写法是将不同类型信息分开。这并非放之四海而皆准的成功秘诀,但它提供了清晰框架,使保持一致性变得更容易。

并非每个细节都需要包含 - 如果某件事对镜头不重要,可以省略它。

事实上,对某些元素保持开放性会鼓励模型更具创造力。你对每个视觉选择的规定越不严格,模型就越有空间去解读,并用出人意料但往往很美妙的变体给你惊喜。

描述详细程度的权衡

  • 高度描述性提示词 → 更一致、可控的结果
  • 较轻量提示词 → 解锁感觉新颖、富有想象力的多样化成果

通用模板

[用通俗语言进行散文式的场景描述。描述角色、服装、布景、天气和其他细节。
尽可能详细地描述,以生成符合你构想的视频。]

摄影:
摄影机镜头:[构图和角度,例如:广角建立镜头,平视角度]
景深:[浅/深]
镜头/风格线索:[例如:变形镜头、手持]
情绪:[整体基调,例如:电影感的紧张,俏皮的悬疑,奢华的期待]

动作:
- [动作1:一个清晰、具体的节拍或手势]
- [动作2:片段内的另一个独特节拍]
- [动作3:另一个动作或台词]

对白:
[如果镜头有对白,在此处或作为动作列表的一部分添加简短自然的台词。
保持简短,以匹配视频长度。]

完整示例

示例 1:机器人工作室场景

风格:手绘2D/3D混合动画,具有柔和笔刷纹理、温暖钨丝灯光和
富有质感的定格动画感。美学风格唤起了2000年代中期的故事书动画——
舒适、不完美、充满机械魅力。微妙的水彩渲染和绘画般纹理;
色调上有冷暖平衡;电影感的运动模糊以增强动画真实感。

在一个杂乱的工作室里,架子上堆满了齿轮、螺栓和泛黄的蓝图。
中央,一个小小的圆形机器人坐在一张木凳上,它凹陷的身体上贴着
不匹配的金属板和旧漆层。它大大的发光眼睛闪烁着淡蓝色的光,
紧张地摆弄着一个嗡嗡作响的灯泡。空气中回荡着安静的机械嗡鸣声,
雨点敲打着窗户,背景中时钟在稳定地滴答作响。

摄影:
摄影机:中景特写,缓慢推进,悬挂的工具产生轻微的视差效果
镜头:35毫米虚拟镜头;浅景深以柔化背景的杂乱
光线:来自头顶场景光源的暖色主光;来自窗户的冷色溢光以形成对比
情绪:温柔、奇幻,带有一丝悬念

动作:
- 机器人敲了敲灯泡;火花噼啪作响
- 它吓得一哆嗦,灯泡掉了下来,眼睛睁得大大的
- 灯泡在慢动作中翻滚;它在最后一刻接住了它
- 一股蒸汽从它胸口喷出——既是松了口气,又带着自豪
- 机器人轻声说:"差点丢了……但我接住了!"

背景音:
雨声,时钟滴答声,柔和的机械嗡鸣声,微弱的灯泡嘶嘶声。

示例 2:屋顶浪漫舞蹈场景

风格:1970年代浪漫剧情片,用35毫米胶片拍摄,带有自然的镜头眩光、
柔焦和温暖的光晕。轻微的胶片抖动和手持微抖唤起了复古的亲密感。
温暖的柯达风格调色;灯泡上有轻微光晕;胶片颗粒感和柔和的暗角
以营造时代真实感。

在黄金时刻,一个砖砌公寓的屋顶变成了一个小舞台。
晾衣绳上挂着的白床单在风中摇曳,捕捉着最后一缕阳光。
一串串不匹配的仙女灯在头顶微弱地嗡嗡作响。
一个穿着飘逸红色丝绸连衣裙的年轻女子赤脚跳舞,
卷发在渐逝的光线中闪耀。她的舞伴——袖子卷起,吊带松垮——
在一旁拍手,笑容灿烂而毫无防备。下方,城市在汽车喇叭声、
地铁的震动和远处的笑声中嗡嗡作响。

摄影:
摄影机:中景广角镜头,从平视角度缓慢向前推进
镜头:40毫米球面镜头;浅焦以将这对情侣与天际线分离开
光线:金色的自然主光,辅以钨丝灯补光;仙女灯提供边缘光
情绪:怀旧、温柔、电影感

动作:
- 她旋转;裙摆飞扬,捕捉到阳光
- 女人(笑着说):"看?今晚连这座城市都在和我们共舞。"
- 他走上前,抓住她的手,将她带入阴影中
- 男人(微笑着说):"那只是因为你在领舞。"
- 床单飘过画面,短暂地遮住了天际线,然后再次分开

背景音:
仅自然环境音:微弱的风声、布料飘动的声音、街道噪音、模糊的音乐。
无额外配乐。

常见问题排查

结果太随机?

解决方案:增加取景、景深、光线锚点的描述

运动不可读?

解决方案:收敛到"一个摄影机运动 + 一个动作"

剪辑不连贯?

解决方案:固定光线逻辑与色板

角色不一致?

解决方案:复用同一套身份描述与措辞

总结与最佳实践

核心要点

  1. API参数先行 - model、size、seconds 必须显式设置
  2. 简洁 vs 详细 - 根据需求平衡控制力和创意空间
  3. 一镜一事 - 一个摄影机运动 + 一个主体动作
  4. 视觉锚点 - 用具体、可见的描述代替模糊词汇
  5. 光线一致性 - 跨镜头保持光线逻辑稳定
  6. 迭代优化 - 使用 Remix 进行微调,而非重新生成

推荐工作流程

  1. 明确目标 - 确定镜头要达到的效果
  2. 设置参数 - 选择合适的 model、size、seconds
  3. 编写初始提示词 - 从简洁开始,或使用模板
  4. 生成并评估 - 查看多个变体,选择最接近的
  5. Remix优化 - 对选中版本进行针对性调整
  6. 剪辑整合 - 将满意的片段整合到项目中

参考资源


版权声明:本指南基于 OpenAI 官方文档(Robin Koenig & Joanne Shin 著)整理,由 SoratoAI 社区进行中文本地化和实践优化。