Sora 2 提示词指南发布:OpenAI 官方最佳实践

Sora 2 提示词指南发布:OpenAI 官方最佳实践

October 8, 2025·SoratoAI·新闻, 创作指南·Sora 2, 提示词, OpenAI, 官方指南

OpenAI 在其 Cookbook 上正式发布了《Sora 2 Prompting Guide》,这是首个官方提示词编写指南。本文为你提炼核心要点,让你快速上手 Sora 2 视频生成。

官方发布
发布时间:2025年10月6日
原文作者:Robin Koenig (OpenAI), Joanne Shin (OpenAI)
完整指南请访问:官方文档版本

核心理念:提示词是镜头简报

编写视频提示词就像给摄影师做简报——你提供方向,模型提供创意变体。关键在于找到控制力创意空间之间的平衡。

两种策略

详细提示词 ⚙️

  • 提供更强控制力和一致性
  • 适合需要精确复现的场景

简洁提示词

  • 给模型更多创作自由
  • 可能带来意想不到的惊喜

必须掌握的API参数

以下参数无法通过文字描述改变,必须在API调用中显式设置:

{
  "model": "sora-2-pro",        // sora-2 或 sora-2-pro
  "size": "1280x720",           // 视频分辨率
  "seconds": "8"                // 4、8 或 12 秒
}

支持的分辨率

模型支持分辨率
sora-21280x720, 720x1280
sora-2-pro1280x720, 720x1280
1024x1792, 1792x1024
关键提示
这些是视频的"容器"参数,不会因为"让它更长"之类的描述而改变。提示词控制的是内容:主体、动作、灯光、风格。

有效提示词的五大要素

清晰的提示词应该像故事板一样描述镜头:

  1. 摄影机取景 - 广角?特写?什么角度?
  2. 景深设置 - 浅景深(背景虚化)还是深景深(全清晰)?
  3. 动作节拍 - 用可执行的步骤描述运动
  4. 光线方案 - 描述光的来源、方向和质感
  5. 色彩锚点 - 指定3-5个主要颜色

从弱到强:示例对比

场景描述

❌ 糟糕✅ 优秀
“一条美丽的街道”“湿漉漉的沥青,斑马线,霓虹灯在水坑中的倒影”
“人物快速移动”“骑车人蹬了三下踏板,刹车,停在人行横道前”

镜头设置

糟糕示例

摄影机镜头:电影感

优秀示例

摄影机镜头:广角镜头,低角度
景深:浅景深(主体清晰,背景模糊)
光线与色调:温暖逆光,带有柔和轮廓光

动作描述

糟糕示例

演员走过房间。

优秀示例

演员向窗户走了四步,停顿了一下,在最后一秒拉上了窗帘。

简短提示词示例

有时候,简洁也很有效:

在一段90年代纪录片风格的采访中,
一位瑞典老人坐在书房里说:"我至今还记得我年轻的时候。"

为什么有效?

  • 90年代纪录片风格 设定了整体美学
  • 瑞典老人坐在书房里 提供基本场景
  • 对白简短清晰,易于同步

注意:许多细节未指定(时间、天气、服装、年龄等),Sora 会自行填补。

复制即用的标准模板

[用通俗语言描述场景:角色、服装、布景、天气等]

摄影:
摄影机镜头:[广角建立镜头,平视角度]
景深:[浅景深 / 深景深]
镜头/风格:[变形镜头 / 手持 / 固定机位]
情绪:[电影感紧张 / 俏皮悬疑 / 温馨舒适]

动作:
- [动作1:清晰具体的节拍或手势]
- [动作2:另一个独特节拍]
- [动作3:收尾动作或台词]

对白:
[如果有对白,1-3句简短台词]

高级技巧速览

1. 使用图像输入锁定风格

将图片作为 input_reference 参数传入,可以锁定:

  • 角色设计
  • 服装风格
  • 布景装饰
  • 整体美学
实验建议:用 OpenAI 图像生成快速创建视觉参考,然后传入 Sora 作为起点。

2. 对白编写要点

  • 放在单独区块,与视觉描述分开
  • 保持简洁自然
  • 标记说话者(多角色场景)
  • 匹配时长:4秒片段 = 1-2句对话

示例

对白:
- 警探:"你在撒谎。我能从你的沉默中听出来。"
- 嫌疑人:"或许我只是懒得说话了。"

3. 用 Remix 做精准迭代

Remix 是微调工具,不是重新生成:

  • ✅ “同样的镜头,换成85毫米镜头”
  • ✅ “同样的灯光,新的色调:青色、沙色、铁锈色”
  • ❌ 不要一次改太多东西

策略:接近目标时,固定为参考,只描述"差量修改"。

常见问题快速解决

问题解决方案
🎲 结果太随机增加取景、景深、光线锚点描述
🏃 运动不可读收敛到"一个摄影机运动 + 一个动作"
✂️ 剪辑不连贯固定光线逻辑与色板
👤 角色不一致复用同一套身份描述与措辞

为什么这套方法有效?

它贴合 Sora 2 从文字到视觉的转换逻辑:

  1. 明确的摄影机意图 - 减少模型猜测
  2. 受限的运动 - 一次只做一件事
  3. 稳定的光线逻辑 - 保持视觉连贯性
  4. 可见的锚点 - 用具体名词和动词

实战建议

推荐工作流程

  1. 明确目标 → 这个镜头要达到什么效果?
  2. 设置参数 → 选择 model、size、seconds
  3. 编写提示词 → 从模板开始,或保持简洁
  4. 生成多个版本 → 拥抱多样性,选择最接近的
  5. Remix 优化 → 针对性调整,而非重来
  6. 剪辑整合 → 将满意片段组合成完整作品

时长选择建议

  • ⏱️ 4秒片段 - 指令遵循最可靠
  • ⏱️ 8秒片段 - 需要更精确的提示词
  • 💡 技巧:两个4秒片段剪辑效果可能优于单个8秒生成

完整参考资源

想深入了解所有细节?查看完整版指南:

📖 阅读完整文档版 →

完整版包含:

  • 电影级超详细提示词示例
  • 光线与色彩理论详解
  • 两个完整场景案例(机器人工作室、屋顶舞蹈)
  • 更多疑难排查技巧

关于本指南

官方来源OpenAI Cookbook - Sora 2 Prompting Guide
作者:Robin Koenig (OpenAI), Joanne Shin (OpenAI)
本文整理:SoratoAI 社区

探索更多创作资源