ChatGPT 制造商 OpenAI 深入研究人工智能生成视频，最新推出文本到视频生成器 Sora

Feb 20, 2024

随着Sora的诞生，人工智能领域又被推上风口浪尖，以文本创建视频，无论是时间、成本还是效果，都可谓相当优秀，同时，视频制作领域未来发展如何，也给人们带来了不同的思考。但毋庸置疑，OpenAI 的 Sora 文本转视频工具的影响将是“深远的”

Sora 是 ChatGPT 制造商 OpenAI 的新型文本到视频生成器，可以根据文本指令创建现实且富有想象力的场景。Sora 可以生成长达一分钟的视频，同时保持视觉质量并遵守用户的提示。

Sora 不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

[通过实验和明确的指导方针为生成式人工智能做好准备]

技术学家、商业和技术顾问伯纳德·马尔 (Bernard Marr) 表示，该技术基本上将书面描述转化为视频内容，利用人工智能模型来理解文本输入并生成相应的视觉和听觉元素。

“这个过程涉及深度学习算法，能够解释文本并合成反映所描述的场景、动作和对话的视频，”马尔说。

Marr 表示，虽然 Sora 并不是其他提供商（例如 Google 的 Gemini）提供的人工智能引擎的新功能，但预计其影响将是深远的。

他说，与任何先进的 genAI 技术一样，Sora 的影响将有助于重塑内容创作、增强故事讲述并使视频制作民主化。

马尔说：“文本转视频功能在不同领域都具有巨大潜力，例如教育，可以创建沉浸式学习材料；营销，可以生成引人入胜的内容；娱乐，可以快速制作原型和讲故事。”

然而，马尔警告说，人工智能模型将文本描述转化为成熟视频的能力也强调了严格的道德考虑和防止滥用的必要性。

马尔说：“文本到视频技术的出现带来了有关版权侵权的复杂问题，特别是当它能够生成可能与受版权保护的作品密切相关的内容时。” 诉讼，现在明确说明如何解决版权问题还为时过早。”

马尔说，更令人担忧的是该技术产生高度令人信服的深度赝品的能力，引发了严重的道德和隐私问题，强调了严格审查和监管的必要性。

Emerj 人工智能的创始人兼首席研究员 Dan Faggella 五年前在联合国做了关于深度造假的演讲。当时，他强调，尽管有关于深度造假的警告，“人们还是愿意相信他们愿意相信的事情。”

然而，还有一个更大的考虑：很快，人们将能够生活在 genAI 世界中，他们戴上耳机，告诉人工智能模型创建一个独特的世界来满足情感需求，无论是放松、幽默还是动作——所有这些专门为该用户以编程方式构建。

文本到视频模型还可以构建能够带来人工智能体验的应用程序，以帮助人们提高工作效率、教育他们并让他们专注于最重要的工作。“也许训练他们成为一名出色的销售人员，也许帮助他们编写出色的代码，并做比他们现在能做的更多的编码，”他说。

OpenAI 的 Sora 和谷歌的 Gemini 1.5 多模式人工智能模型目前都是内部研究项目，仅提供给特定的第三方学者和其他测试该技术的机构。

谷歌表示，与 OpenAI 流行的 ChatGPT 不同，用户可以向其查询引擎输入大量信息，以获得更准确的响应。

尽管 Sora 和 Gemini 1.5 目前是内部研究项目，但它们展示了真实的示例和详细信息，包括视频、照片、gif 和相关研究论文。

除了 Google 的 Gemini 多模态 AI 引擎之外，Sora 还出现了多种文本到视频模型，包括 Meta 的 Emu、Runway 的 Gen-2 和 Stability AI 的 Stable Video Diffusion。

谷歌有两个并行的研究项目，推进发言人所说的“最先进的视频生成模型”。这些项目是 Lumiere 和 VideoPoet。

Lumiere 于本月初发布，是 Google 更先进的视频生成技术；它提供每秒 80 帧的速度，而 Stable Video Diffusion 等竞争对手的速度为每秒 25 帧。

Marr 表示：“Gemini 旨在处理信息和自动化任务，从一开始就提供了模式的无缝集成，对于寻求简单、以任务为导向的体验的用户来说，可能会变得更加直观。” “另一方面，GPT-4 的分层方法允许随着时间的推移更精细地增强功能，从而在对话能力和内容生成方面提供灵活性和深度。”

在正面比较中，Sora 似乎比 Google 的视频生成模型更强大。谷歌的 Lumiere 可以制作分辨率为 512×512 像素的视频，而 Sora 声称可以达到高达 1920×1080 像素或高清质量的分辨率。

卢米埃尔的视频长度被限制在5秒左右；Sora 的视频最长可达一分钟。

此外，卢米埃尔无法制作由多个镜头组成的视频，而索拉可以。据报道，与其他模型一样，Sora 也能够执行视频编辑任务，例如从图像或其他视频创建视频、组合不同视频的元素以及及时扩展视频。

Marr 表示：“在 OpenAI 的 Sora 与 Runway AI 等初创公司之间的竞争中，成熟度可能会在可靠性和可扩展性方面提供优势。虽然初创公司通常会带来创新方法和敏捷性，但拥有微软等公司大量资金的 OpenAI 将能够迅速赶上并有可能超越。”