AI视频生成工具变革

OpenAI发布了 Sora,一款能够生成长达一分钟视频的强大工具,AI视频制作领域迎来了一次时代性的变革。

全新AI视频生成工具 Pika 爆火,美国AI创业公司Pika Labs发布了全新的文生视频产品Pika 1.0。


以下是最新的排行榜归纳表格

工具名称优点 备注 
 Sora 可生成长达一分钟的高质量视频;根据用户提示进行调整,提供个性化服务 官网
 Runway 结合了两种不同模型的功能,具备文字生成和影片编辑能力 官网
Stable Video Diffusion 提供广泛的视频应用于媒体、娱乐、教育、营销等领域;功能强大 官网 
 Pika Labs 简洁易用的特点,容易上手;能够轻松打造专业级的视频内容 官网
 Morph Studio 提供快速、高品质的影片生成服务;可以根据简单的文字提示创建出令人惊艳的视频 官网
 Kaiber 专注于动画视频生成,风格多样、主题丰富 官网
 Wonder Studio 可将CG角色动画、灯光合成到真实场景中;提供全新的创作体验 官网
 VisionStory 专注于舞蹈视频生成,用户可根据音乐和视觉风格打造独一无二的作品 官网

 

引爆全球的Sora -人工智能模型

what is sora1

Sora (人工智能模型)是由 OpenAI 开发的首个文生视频模型,它能够根据文本指令创建长达60秒的视频

近日,人工智能研究公司OpenAI发布首个文生视频模型Sora,其视频生成能力、效果呈现的成熟度震撼了全世界。Sora通过接收简单的文本指令,就能生成长达60秒的视频,其中包含多角度镜头切换、复杂的视频场景、生动的角色表情等等。Sora is an AI model that can create realistic and imaginative scenes from text instructions. Creating video from text

Sora不仅能够理解用户在提示中所要求的内容,还理解这些内容在物理世界中的存在方式。 Sora的横空出世,不仅颠覆了生成式AI在视频领域的市场格局,更预示着AGI(通用人工智能)将提前到来。

Sora生成的视频带有C2PA元数据标签,以表示它们是由人工智能模型生成的。由于担心Sora可能被滥用,OpenAI表示目前没有计划向公众发布该模型。

Sora的工作原理:

Sora 的工作原理是使用扩散模型,它从一个看起来像静态噪声的视频开始,然后通过多个步骤逐渐去除噪声,最终生成视频。它使用类似于 GPT 模型的变换器架构,这使得它能够处理更广泛的视觉数据,包括不同的持续时间、分辨率和宽高比。Sora 还使用了 DALL·E 3 中的重述技术,为视觉训练数据生成高度描述性的字幕,从而使模型能够更忠实地遵循用户在生成视频中的文本指令。

Sora的核心能力:

  • 文本到视频生成能力: Sora能根据用户提供的文本描述生成长达60秒的视频,这些视频不仅保持了视觉品质,而且完整准确还原了用户的提示词。而在Sora发布之前,市面上的AI视频模型大多只能生成3或4秒长的视频,不仅 角色形象扭曲,还得用户输入图片,而Sora则将AI生成视频长度扩展到了60秒。这意味着Sora生成的视频,能承载更多的信息、内容更为丰富,甚至达到了许多短视频平台发布内容的要求。
  • 复杂场景和角色生成能力: Sora不仅能够呈现提示词包含的元素,还理解这些元素在物理世界中的运动方式。此前的AI视频生成工具如Pika、runway等尝试过镜头和动作的处理,但相较之下,它们生成的视频运动生硬,且遇到大幅度动作的场景就会变形,导致很多AI视频看起来像PPT电影一样。然而,Sora对视频动态的处理已经非常接近现实了。例如Sora官网展示的这个视频案例,无论是动作的连贯性还是顺畅读度,Sora都处理得很好。
  • 多镜头生成能力: 目前,常见的AI视频工作流程是使用AI生成图片,然后再用这些图片生成视频。而Sora 具有创建多个镜头的能力,可以在同一视频中保持角色和视觉风格的准确度。此外,Sora 不仅能够从文本指令生成视频,还能够从现有的静态图像生成视频,或者扩展现有视频,填充缺失的帧。
  • 从静态图像生成视频能力: Sora 不仅能够仅从文本指令生成视频,还能够从现有的静态图像生成视频,或者扩展现有视频,填充缺失的帧。这些能力使得 Sora 成为理解现实世界并模拟其运动的基础,这对于实现通用人工智能(AGI)是一个重要的里程碑。
  • 物理世界模拟能力: Sora展示了人工智能在理解真实世界场景并与之互动的能力,能够模拟真实物理世界的运动,如物体的移动和相互作用,这是实现通用人工智能(AGI)的重要里程碑。

弱点:

尽管 Sora 在生成视频方面表现出色,但它也存在一些弱点,比如在模拟复杂场景的物理规律时可能会遇到困难,可能无法理解特定事件的因果关系。此外,模型可能会混淆提示中的空间细节,比如左右混淆,或者在描述随时间发生的事件时可能会有困难。

Sora将改变哪些行业:

技术浪潮下,重塑与变革必然势不可挡。Sora 凭借高度还原能力,可能会对多个行业产生显著影响,包括但不限于以下几个领域:

  • 内容创作与媒体产业:电影、广告、动画制作等行业可以利用Sora快速产出预览或初步版本的内容,节省大量的制作时间和成本。同时,Sora的多模态特性使得视频内容的创作更加灵活,创作者可以更容易地实现创意想法。
  • 影视制作行业:Sora可以用于制作电影预告片、音乐视频、游戏预告等,提供更加丰富和吸引人的视觉体验。它还可以用于虚拟现实(VR)和增强现实(AR)内容的创作,为用户带来更加沉浸式的体验。
  • 营销与广告:广告公司可以利用Sora快速生成符合品牌定位的视频内容,减少拍摄和后期制作的成本。同时,Sora可以根据市场反馈快速调整视频内容,提高广告的针对性和效果。
  • 游戏设计开发:游戏开发者可以利用Sora生成游戏场景和角色动画,减少3D模型和动画制作的成本和时间。这将使得游戏开发更加高效,同时也能够快速迭代和更新游戏内容。
  • 教育和培训:Sora 可以生成教育视频,帮助学生更好地理解复杂的概念,或者模拟实验和操作过程,提高学习效果。

资料来源“Sora究竟是什么意思?

AI生成视频工具Pika爆火

pika

2023年底,AI视频生成领域可谓是“热闹非凡”。11月16日,社交媒体巨头Meta发布工具Emu Video。几乎是同一时间,字节跳动的PixelDance模型也宣布问世。11月21日,Runway的Gen-2动态笔刷Motion Brush面世。11月24日,AIGC领域的佼佼者Stable AI推出了Stable Video Diffusion(稳定视频扩散模型)。5天后,Pika 1.0发布。

华人联创,OpenAI联创参投,创始人郭文景(Demi Guo)和联合创始人兼CTO Chenlin Meng都是斯坦福大学AI Lab博士生。此前文生视频领域比较受关注的公司有Runway、Stability AI。Runway和Pika 1.0对标的产品是Gen-2模型。Stability AI此前也推出了Stable Video Diffusion模型,目前该产品对生成视频长度有限制。

郭文景这样解释AI生成图片和AI生成视频技术的区别:“视频有很多和图片不一样的问题,比如要确保流畅性、确保动作;视频比图像更大,需要更大的GPU内存。视频生成需要考虑逻辑问题,还要考虑如何生成,是一帧一帧还是一起生成。现在很多模型一起生成,生成的视频就很短。但如果要一帧一帧生成,又要怎么做?很多是图片生成不会面临的新的技术问题。” 接下来,她想要突破的关键点依然是AI生成视频的时长以及清晰度、流畅性。

Pika Labs成立于今年4月,公司定位是AI视频生成工具,致力于让每个人都成为创意视频导演和制作人。3个月,公司就在Discord上发布了第一代产品,8个月之后,新的Pika 1.0面世。目前,Pika 1.0可以支持3D动画、动漫或电影等各种类型,且还可以支持各种画布延展、局部修改、视频时长拓展等编辑功能。

Pika 1.0 系初创公司 pika_labs 推出的产品,这是一款AI视频生成工具,能够生成和编辑3D动画、动漫、卡通和电影等各种风格的视频。用户可通过Pika对视频内容进行实时的精准编辑,比如根据已有素材扩展画面、以文字生成视频素材或控制镜头、以“图+提示词”直接生成动画等。