AI视频生成工具变革

Details: Category: 人工智能

OpenAI发布了 Sora，一款能够生成长达一分钟视频的强大工具，AI视频制作领域迎来了一次时代性的变革。

全新AI视频生成工具 Pika 爆火，美国AI创业公司Pika Labs发布了全新的文生视频产品Pika 1.0。

以下是最新的排行榜归纳表格：

工具名称	优点	备注
Sora	可生成长达一分钟的高质量视频；根据用户提示进行调整，提供个性化服务	官网
Runway	结合了两种不同模型的功能，具备文字生成和影片编辑能力	官网
Stable Video Diffusion	提供广泛的视频应用于媒体、娱乐、教育、营销等领域；功能强大	官网
Pika Labs	简洁易用的特点，容易上手；能够轻松打造专业级的视频内容	官网
Morph Studio	提供快速、高品质的影片生成服务；可以根据简单的文字提示创建出令人惊艳的视频	官网
Kaiber	专注于动画视频生成，风格多样、主题丰富	官网
Wonder Studio	可将CG角色动画、灯光合成到真实场景中；提供全新的创作体验	官网
VisionStory	专注于舞蹈视频生成，用户可根据音乐和视觉风格打造独一无二的作品	官网

引爆全球的Sora -人工智能模型

Sora (人工智能模型)是由 OpenAI 开发的首个文生视频模型，它能够根据文本指令创建长达60秒的视频

近日，人工智能研究公司OpenAI发布首个文生视频模型Sora，其视频生成能力、效果呈现的成熟度震撼了全世界。Sora通过接收简单的文本指令，就能生成长达60秒的视频，其中包含多角度镜头切换、复杂的视频场景、生动的角色表情等等。Sora is an AI model that can create realistic and imaginative scenes from text instructions. Creating video from text

Sora不仅能够理解用户在提示中所要求的内容，还理解这些内容在物理世界中的存在方式。 Sora的横空出世，不仅颠覆了生成式AI在视频领域的市场格局，更预示着AGI（通用人工智能）将提前到来。

Sora生成的视频带有C2PA元数据标签，以表示它们是由人工智能模型生成的。由于担心Sora可能被滥用，OpenAI表示目前没有计划向公众发布该模型。

Sora的工作原理：

Sora 的工作原理是使用扩散模型，它从一个看起来像静态噪声的视频开始，然后通过多个步骤逐渐去除噪声，最终生成视频。它使用类似于 GPT 模型的变换器架构，这使得它能够处理更广泛的视觉数据，包括不同的持续时间、分辨率和宽高比。Sora 还使用了 DALL·E 3 中的重述技术，为视觉训练数据生成高度描述性的字幕，从而使模型能够更忠实地遵循用户在生成视频中的文本指令。

Sora的核心能力：

文本到视频生成能力: Sora能根据用户提供的文本描述生成长达60秒的视频，这些视频不仅保持了视觉品质，而且完整准确还原了用户的提示词。而在Sora发布之前，市面上的AI视频模型大多只能生成3或4秒长的视频，不仅角色形象扭曲，还得用户输入图片，而Sora则将AI生成视频长度扩展到了60秒。这意味着Sora生成的视频，能承载更多的信息、内容更为丰富，甚至达到了许多短视频平台发布内容的要求。
复杂场景和角色生成能力: Sora不仅能够呈现提示词包含的元素，还理解这些元素在物理世界中的运动方式。此前的AI视频生成工具如Pika、runway等尝试过镜头和动作的处理，但相较之下，它们生成的视频运动生硬，且遇到大幅度动作的场景就会变形，导致很多AI视频看起来像PPT电影一样。然而，Sora对视频动态的处理已经非常接近现实了。例如Sora官网展示的这个视频案例，无论是动作的连贯性还是顺畅读度，Sora都处理得很好。
多镜头生成能力: 目前，常见的AI视频工作流程是使用AI生成图片，然后再用这些图片生成视频。而Sora 具有创建多个镜头的能力，可以在同一视频中保持角色和视觉风格的准确度。此外，Sora 不仅能够从文本指令生成视频，还能够从现有的静态图像生成视频，或者扩展现有视频，填充缺失的帧。
从静态图像生成视频能力: Sora 不仅能够仅从文本指令生成视频，还能够从现有的静态图像生成视频，或者扩展现有视频，填充缺失的帧。这些能力使得 Sora 成为理解现实世界并模拟其运动的基础，这对于实现通用人工智能（AGI）是一个重要的里程碑。
物理世界模拟能力: Sora展示了人工智能在理解真实世界场景并与之互动的能力，能够模拟真实物理世界的运动，如物体的移动和相互作用，这是实现通用人工智能（AGI）的重要里程碑。

弱点：

尽管 Sora 在生成视频方面表现出色，但它也存在一些弱点，比如在模拟复杂场景的物理规律时可能会遇到困难，可能无法理解特定事件的因果关系。此外，模型可能会混淆提示中的空间细节，比如左右混淆，或者在描述随时间发生的事件时可能会有困难。

资料来源“Sora究竟是什么意思？”

AI生成视频工具Pika爆火

pika

2023年底，AI视频生成领域可谓是“热闹非凡”。11月16日，社交媒体巨头Meta发布工具Emu Video。几乎是同一时间，字节跳动的PixelDance模型也宣布问世。11月21日，Runway的Gen-2动态笔刷Motion Brush面世。11月24日，AIGC领域的佼佼者Stable AI推出了Stable Video Diffusion（稳定视频扩散模型）。5天后，Pika 1.0发布。

华人联创，OpenAI联创参投，创始人郭文景（Demi Guo）和联合创始人兼CTO Chenlin Meng都是斯坦福大学AI Lab博士生。此前文生视频领域比较受关注的公司有Runway、Stability AI。Runway和Pika 1.0对标的产品是Gen-2模型。Stability AI此前也推出了Stable Video Diffusion模型，目前该产品对生成视频长度有限制。

郭文景这样解释AI生成图片和AI生成视频技术的区别：“视频有很多和图片不一样的问题，比如要确保流畅性、确保动作；视频比图像更大，需要更大的GPU内存。视频生成需要考虑逻辑问题，还要考虑如何生成，是一帧一帧还是一起生成。现在很多模型一起生成，生成的视频就很短。但如果要一帧一帧生成，又要怎么做？很多是图片生成不会面临的新的技术问题。” 接下来，她想要突破的关键点依然是AI生成视频的时长以及清晰度、流畅性。

Pika Labs成立于今年4月，公司定位是AI视频生成工具，致力于让每个人都成为创意视频导演和制作人。3个月，公司就在Discord上发布了第一代产品，8个月之后，新的Pika 1.0面世。目前，Pika 1.0可以支持3D动画、动漫或电影等各种类型，且还可以支持各种画布延展、局部修改、视频时长拓展等编辑功能。

Pika 1.0 系初创公司 pika_labs 推出的产品，这是一款AI视频生成工具，能够生成和编辑3D动画、动漫、卡通和电影等各种风格的视频。用户可通过Pika对视频内容进行实时的精准编辑，比如根据已有素材扩展画面、以文字生成视频素材或控制镜头、以“图+提示词”直接生成动画等。

AI LincWe!

AI LincWe! 人工智能, 学习AI的基本概念、原理和应用，了解AI的发展趋势，亲自动手实践。对AI感兴趣，不论新手小白、背景、经验和水平如何，在这里可以找到适合的内容和资源。

AI视频生成工具变革

学习文章

AI LincWe!

文章精选

Pika Labs 使用指南

相关链接