Sora (OpenAI)：关于从文本生成视频的人工智能，您需要了解的一切

Sora 是 OpenAI 的人工智能模型，能够将文本提示转换为视频。索拉可能会引发艺术创作的一场革命，他提出了许多问题，我们在此努力回答这些问题。

在以其文本生成器引起了无与伦比的热情之后聊天GPT及其 DALL-E 图像生成器，OpenAI 推出 Sora，它的视频生成器。与其他平台一样，它是一种基于人工智能的工具，能够根据文本形式的提示创建内容。 Sora 承诺彻底改变互联网和其他领域的许多创意用途，以下是您需要了解的内容。

索拉如何运作？

与 GPT 模型一样，Sora 也基于变压器架构。在神经网络中，变压器将利用其研究领域来建立序列组件之间的关系，从而允许其将输入序列修改为输出序列并生成对提示的响应。这个系统看起来人工智能理解了问题并正在思考创建一个相关的答案，但实际上并不涉及推理技能。这些是使用数学表示将概念相互关联的算法。

当大型语言模型 (LLM) 在其操作中使用令牌时，Sora 使用 OpenAI 所谓的令牌。“补丁”（视觉修复）。这项技术已经在数据可视化领域得到了证明。视频通过压缩转换为补丁，然后这些补丁充当令牌。它们可用于使用变压器重建视频（或图像）。

“Sora 是一种流媒体模型，它从看起来像静态噪声的视频开始生成视频，然后通过几个步骤消除噪声来逐渐对其进行转换””，OpenAI 解释道。可以根据单个提示一次性创建视频，也可以使用多个提示来延长或纠正视频。

该模型使用相同的再现技术由 DALL-E 3 使用。这包括生成非常详细和描述性的图例，以开发丰富的视觉训练数据库。因此，该模型可以从该数据库中提取数据，以更忠实地遵守生成视频中用户的文本指令。

除了文本提示之外，Sora 还支持包含静止图像的处理指令。然后它根据该图像的内容创建动画。提示甚至可以建议一段视频，Sora 可以扩展该视频或添加缺失的场景。

目前，Sora 可以生成长达一分钟的视频。此限制是由于创建严格遵守用户指令和所需视觉风格的视频所需的资源量所致。 OpenAI 尚未就生成视频所需的处理时间进行沟通。第一批用户的回归似乎表明与 Sora 一起制作一个一分钟的视频大约需要一个小时。这样的延迟代表了该服务的一个很大的弱点，阻止用户通过新的提示有效地纠正他们的视频以优化它们并获得更相关的结果。

Sora的画质有多好？

Sora 生成视频清晰度高达 1920 x 1080p，即全高清。它还可以生成高达 1080 x 1920p 的垂直格式视频，并适应任何比例。与此类的其他服务不同，视频每秒的帧数是未知的。

索拉能够创造超写实效果图，而且还有更抽象的场景，根据提示中解释的要求。图像中可能会出现技巧和畸变，并且我们可能会注意到幻觉现象，就像使用 DALL-E 生成图像一样。动作以及角色之间或与场景和物体之间的交互也可能会出现错误。但 OpenAI 发布的第一个例子令人印象深刻，我们可以认为 Sora 可能已经准备好生成在互联网或电视上播放的广告位。

OpenAI 自己也承认，Sora 仍然需要改进。“它可能很难准确模拟复杂场景的物理原理，并且可能无法理解因果关系的具体情况”，该公司承认。例如，如果一个人咬了一块饼干，它可能没有咬痕。管理碎玻璃也是 OpenAI 遇到的一个难题。该模式可能会在提示的空间指令中变得混乱，例如混合左右。遵循场景的方向指示（例如特定轨迹或摄像机角度）也可能很困难。

另一方面，空能够创建具有精确的主题和背景细节的场景，表达情感，尊重视觉风格，在单个视频中多次改变镜头，甚至采用特定的电影格式，例如35毫米。 3D 一致性已经掌握。 Sora 可以生成带有动态摄像机移动的视频。“随着摄像机的移动和旋转，场景中的人物和元素在三维空间中连贯地移动”，我们学习。

同样，OpenAI 对 Sora 在整个视频的时间连贯性和对象持久性方面的表现感到满意。“我们的模型可以保存人、动物和物体，即使它们被隐藏或离开框架。它可以在单个样本中生成同一角色的多个镜头，并在整个视频中保持其外观”，该公司表示。

如何尝试索拉？

Sora仅对会员开放OpenAI 红队网络。这是一个精心挑选的用户组，其任务是测试该工具的功能。目的是向 OpenAI 报告技术、法律或道德问题，以便在更广泛的发布之前解决这些问题。深度造假问题尤其令视频生成解决方案的发行商感到担忧。在这方面必须设置障碍。尊重版权是另一个需要考虑的重要问题。

“我们还允许一些艺术家、设计师和电影制作人就如何推进该模型提供反馈，以便它对创意专业人士尽可能有用”，还报道了 OpenAI。该公司正在分享其进展，并向 OpenAI 之外的一些人敞开 Sora 的大门，以获得尽可能多的反馈并改进其工具。我们还不知道 Sora 何时或以何种形式向公众开放。

Sora 会集成到 ChatGPT 中吗？

我们目前不知道 OpenAI 打算如何向公众分发 Sora。如果我们依赖公司最近做出的战略决策，则不能确定该工具是否拥有自己的用户平台。 DALL-E 2 不再在自己的界面上接受新客户端，而必须通过付费版或开发版 ChatGPT 才能访问 DALL-E 3。因此我们可以想象，当它推出时，Sora 将直接集成到聊天GPT Plus。尚不确定 Sora 在发布时是否会免费提供，即使是有限的。

Sora 内置了哪些安全措施？

在 Sora 向公众开放之前，OpenAI 已经宣布了一系列措施来降低这一强大工具被滥用的风险。公司目前正在开发工具“帮助检测误导性内容”，特别引用了一个分类系统，可以检测 Sora 生成的视频。还明确指出，如果未来该模型要集成到 OpenAI 产品中，团队计划将C2PA元数据。这一开放标准已用于 DALL-E 3 生成的图像，可以追踪内容的来源以了解其是否由人工智能创建。

Sora 还将受益于其其他服务中已实施的安全功能。计划是一个文本分类器其作用是检查并拒绝违反 OpenAI 使用政策的提示。禁止请求显示极端暴力、性内容、仇恨图像、与名人相似或第三方 IP 地址的内容的提示。此外，图像分类器将检查每个生成视频的图像，以确保没有视频违反这些著名的使用政策。

Sora的竞争对手是谁？

继文本和图像生成模型之后，分代人工智能领域的主要参与者正在认真致力于视频生成模型的开发。谷歌是ChatGPT和GPT-4与Gemini的主要竞争对手之一，它也将自己定位为在Gemini领域的强劲对手使用 Lumiere 进行视频创作。 Google Lumiere 也无法向公众开放，目前仅限于 5 秒的视频。提示可以包含图像，而不仅仅是文本。

在数字重量级人物中，Meta 也对这个主题感兴趣，特别是鸸鹋视频，它允许您根据纯文本提示、纯图像提示或两者的组合创建视频。我们可以引用 Runway 的 Gen-2，它不仅能够根据文本或图像创建视频，还能够根据另一个视频创建视频。 Stable Video Diffusion 和 Pika 也是该市场的有力竞争者。

询问我们最新的！