OpenAI 视频生成模型 Sora 刷屏背后:哪些行业真要被颠覆了

创投圈
2024
02/20
21:38
分享
评论

 

春节假期期间,诞生了两个顶流。一个是成功减肥 100 斤的贾玲,还有一个 AI 科技圈的 Sora。

就在三天前,当大家都还在沉浸在春节假期中时,OpenAI 却悄悄地放出一记大招,在没有任何预兆和消息透露的情况下,奥特曼突然官宣了 OpenAI 首个文生视频大模型 Sora,颠覆了整个生成式视频大模型的全球格局。

随着 Sora 的亮相,关于它的讨论和报道如潮水般涌来。"Sora 风 " 不仅席卷整个科技圈,也在影视圈、游戏圈刷屏,马斯克、周鸿祎、贾扬清等一众科技大佬纷纷下场讨论。

马斯克直言:人类要完蛋了。

360 创始人周鸿祎第一时间发博表示,Sora 意味着 AGI 实现将从 10 年缩短到两三年。他谈到 Sora 通过把大语言模型和扩散模型结合,实现了对现实世界的理解和对世界的模拟两层能力。一旦 AI 接上摄像头,把所有电影、YouTube 和 TikTok 上的视频看一遍,对世界的理解将远超过文字学习。

前阿里 VP 贾扬清也对 Sora 赞不绝口,直呼:真的非常牛。他认为 Sora 的出现将对整个 AI 行业产生深远影响。对于对标 OpenAI 的公司来说,它们将面临被其他大厂收购的机会;对于算法小厂来说,它们要么在算法上与 OpenAI 媲美,要么在垂直领域深耕应用,要么就选择开源。他还预言,随着 Sora 的推出,infra 的需求将继续猛增。

随着 Sora 概念的持续发酵,资本市场也闻风而动。2 月 19 日早盘,Sora 概念股大幅高开,个股掀涨停潮。截至发稿,会畅通讯、当虹科技、因赛集团等 7 股涨停,易点天下、数码视讯等跟涨。

然而,Sora 的出现也引发了人们对于 "AI 代替人类 " 的焦虑。随着 AI 技术的不断发展,许多行业都面临着被自动化和智能化的风险。这种焦虑不仅体现在科技圈内部,也在各个行业中蔓延开来。

有趣的是,在互联网上,一些人已经敏锐地捕捉到了这种焦虑情绪的商业价值。他们利用人们害怕被 AI 取代的心理售卖各种 AI 课程,并赚了春节过后的第一桶金。

AI 输出视频效果炸裂,现实内爆

这一次,Sora 之所以能够震惊行业,成为 " 顶流 ",在于其能够对世界进行模拟,它不仅能够理解提示词中的角色、场景、概念等,还能理解 " 这些事物在物理世界中是如何存在的 "。

从时长到运镜再到角色理解,Sora 模型刷新了多个行业指标,甚至重新定义了文生视频在当下的技术极限。

首先在视频生成时长上,此前的视频生成模型 Runway、Pika 等生成的视频长度仅为几秒,Sora 的 60 秒超长长度可谓吊打同行。

只要输入 " 猛犸象在雪地上走进 "、" 维多利亚冠鸽 " 等关键词就能够迅速生成一个 60 秒左右的高清视频,里面包含的丰富的细节、鲜艳的色彩。

目前,Sora 还能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。该模型不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。

例如,输入提示词:中国龙的中国农历新年庆祝视频。

Sora 就能够生成一个热闹的舞龙游街视频,里面一个值得注意的细节是,有不少观众在举着手机录视频,这一细节不仅为整个场景增添生动性与现实感,更展示了 Sora 模型对现代文化和习俗的深刻理解。

Sora 还可以在单个生成的视频中创建多个镜头,也就是说,Sora 已经掌握 " 运镜 " 技术。不少网友调侃:" 自导电影,指日可待。"

提示词:无人机摄像机围绕着一座美丽的历史教堂盘旋。Sora 视频运镜以无人机视角对教堂环绕拍摄,这个视频的运镜似乎有与专业摄影师一比高下的意味。

不仅如此,Sora 还能够理解并生成专业摄影动画效果。例如,输入提示词:从郊区房屋的窗台上长出的一朵花的定格动画,将得到以下画面。一朵花缓缓绽放,期间还有跟随花朵绽放的丝滑运镜,谁看了不说一声 " 牛逼 "。

除了文生视频外,Sora 还支持图生视频、扩展生成视频、视频生成视频、连接视频等。

图生视频

提示词:在一个华丽的历史大厅里,一个巨大的潮汐达到顶峰并开始崩溃。两名冲浪者抓住时机,熟练地驾驭海浪。

扩展生成视频

Sora 还能够向前或向后扩展视频。以下视频从生成的视频片段开始向前、向后延伸,以产生无缝的无限循环。

视频生成视频

利用 SDEdit, ( 32 ) 到索拉技术使 Sora 能够零镜头转换输入视频的风格和环境。

输入视频

将设置改为在茂密的丛林中输入视频

连接视频

Sora 可以在两个输入视频之间逐渐插值,在具有完全不同主题和场景构图的视频之间创建无缝过渡。上下两侧视频结合生成中间视频。

不过,Sora 模型的弱点也很明显,在以下视频中,我们发现,老人吹蜡烛并没有将蜡烛吹灭;篮球穿过球筐边缘直接落地。

Sora 难以准确模拟复杂场景的物理特性,并且可能无法理解因果关系,此外,还可能混淆提示的空间细节,如左右混淆等。

理解和模拟现实世界到底该如何实现

Sora 作为一种扩散模型,具备三维空间连贯性、模拟数字世界、长期连续性和物体持久性等特点。

其训练过程受到大语言模型的启发,采用扩散型变换器结构,简单来说,就是将视频压缩到低维潜在空间并分解为时空区块。Sora 在压缩空间上训练并生成视频,配合解码器模型还原到像素空间。随着计算量增加,样本质量显著提升。

Sora 可生成不同分辨率、持续时间和纵横比的视频,并使用 DALL · E 3 为视觉训练数据生成高度描述性的标题,将简短提示转换为详细提示。因此,该模型能够更准确地理解提示词文本。

在数据方面,OpenAI 将视频和图像表示为 patch,类似于 Transformer 中的 tokens。这种基于 patch 的表示使得 Sora 可以在比以前更广泛的视觉数据上进行训练,涵盖不同的持续时间、分辨率和纵横比。

另外,OpenAI 还发现在原始大小的数据上训练相比以往将视频调整大小、裁剪或修剪为标准大小具有更为明显的好处。

采样灵活性

Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有内容进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。它还使我们能够在以全分辨率生成之前以较小的尺寸快速制作内容原型——所有这些都使用相同的模型。

改进的取景和构图

OpenAI 发现,以原始纵横比对视频进行训练可以改善构图和取景。研究团队将 Sora 与模型的一个版本进行了比较,该模型将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在方形裁剪上训练的模型有时会生成视频,其中主体仅部分可见。相比之下,Sora 的视频改善了取景。

Sora 视频模型还支持现有图像或视频输入,并具有图像生成功能、新兴的仿真功能。这些功能使 Sora 能够模拟物理世界中人、动物和环境的某些方面。

OpenAI 表示,Sora 是能够理解和模拟现实世界的模型的基础,并且相信这一能力将是实现 AGI 的重要里程碑。

Sora 刷屏时代,国内厂商抢注文生视频

这次,Sora 视频模型的刷屏,无疑在国内 AI 领域掀起了巨大的波澜。

从之前爆火的 Runway、Pika,到现在的 Sora,随着多模态模型能力的不断提升,加注文生视频领域成为国内大厂发展大模型的必经之路。

在中国的大模型企业里,AI 大模型工场一直在跟踪和报道,以百度为例。去年年末,推出文生视频工具 " 度加剪辑 ",它凭借一键获取最新热点、AI 生成文案、一键生成视频等强大功能,迅速在市场上崭露头角。

与此同时,360 作为国内知名的安全企业,在 AI 领域同样有着深厚的积累。2023 年 6 月份就推出了 "360 智脑文生视频 " 的创作工具,显示了 " 无中生有 " 的能力。

字节跳动也在积极布局 AI,日前,抖音集团 CEO 张楠宣布已经辞去集团 CEO 一职,全力聚焦剪映发展,据 AI 大模型工场了解,张楠过去一年已经在该领域投入了大量精力,并即将推出一个新的 AI 生图和视频产品。

阿里达摩院也宣布开源 Video-LLaMA,帮助大语言模型加上了 " 眼睛 " 和 " 耳朵 ",使其能够理解和生成视频内容。

此外,除了这些科技巨头,更多的初创企业也在跃跃欲试。如 " 数美科技 " 推出的 " 视频内容生成器 " 等。这些初创企业的加入,无疑为文生视频这一新赛道注入了更多的活力和可能性。

实际上,文生视频的爆发在意料之中,只是没有想到会这么快。AI 大模型工场在之前的文章中就曾谈到,2024 年多模态将成为主流叙事,从文字、图像到视频,多模态让 AI 更直观和生动。

可以说,Sora 的出现加速了国内大模型多模态能力的发展,为国内 AI 市场带来了新的机遇和挑战。在这个新的一年里,谁能够最先做出 " 国产版 Sora",或许将成为决定胜负的关键。

但无论如何,这一场由 Sora 引发的 AI 热潮,已经让整个国内大模型市场充满了无限的可能性和期待。

来源:AI 大模型工场

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表砍柴网的观点和立场。

相关热点

相关推荐

1
3