当前位置: 首页  >> 智能环球  >> 查看详情

OpenAI正式发布Sora,一文看懂它的文生视频功能到底强在哪?

来源: 极客公园   日期:2024-12-10  责编: 殷绪江  
分享:
    12月10日,Sam Atman和几位OpenAI内部员工通过直播,展示了Sora的功能和实际用例。继今年2月释出视频样片后,Sora引发了全球人工智能界热潮,此后国内外人工智能公司纷纷推出文生视频产品。而作为这一赛道的开创者,今天Sora终于揭开了神秘面纱。整体来说,Sora展示的一系列产品功能,表明其在视频生成的质量、功能的独创性、技术的复杂度等方面,超出了目前的文生视频产品。
   在文、图生视频的基础功能之上,它加入了故事板(相当于通过分镜创作自己的故事)、用文本调整原视频、不同场景视频的融合等功能(相当于给视频直接加特效),整个产品功能设计似乎都在让视频更接近创作者的自我表达、帮助他们完成一个理想的镜头故事。
   当地时间12月9日晚些时候,美国、以及大多数其他国家的用户,可以访问官网体验Sora。它被包含在ChatGPT Plus、ChatGPT Pro的会员订阅中,无需额外付费。其中,Plus能生成最多50个高级视频、视频分辨率最高达720p、时长为5秒,而Pro则能生成最多500个高级视频、分辨率高达1080p、时长为20秒、还能去水印。
Sam Altman介绍做Sora有三大原因:
   一是从工具性角度,OpenAI喜欢为创意人员制作工具,这对公司的文化很重要;
   二是从用户交互角度,人工智能系统不能只通过文本交互,也应该理解并生成视频,帮助人类使用人工智能。这类似于国内大模型公司谈到的,「模型每扩展一次模态,用户渗透率就会上升。」
   三则是从技术角度,这对OpenAI的AGI路线图至关重要,人工智能应该学到更多关于世界的规律,这正是所谓理解物理规律的「世界模型」。既要用技术改变世界,也要用产品促进人类创造,这就是Sora在做的事情。
生成视频之外,还能分镜、加特效、无限创作
   打开主界面,用户可以查看和管理所有的视频生成内容,并且切换网格视图、列表视图,以及创建文件夹和收藏夹,查看书签等。研究人员称这个主界面设计,是为了更好地帮助用户创作故事。在主页面的中间底部,是Sora的文生视频、图生视频功能。比如,Sam Altman先给到文字输入,「长毛猛犸象在沙漠中行走,广角镜头拍摄」。接着,需要选择视频的画面比、分辨率、时长(5-20秒)、以及最终生成的视频数量(最多可生成四段以供挑选)等,才能获得生成的视频。
   最终,可以看到生成的视频效果非常真实、有质感,且基本遵照了输入的指令。对于Sora视频生成效果的出色表现,或许人们是不意外的。但此次,Sora还发布了一系列独有的、进阶的的产品功能。在极客公园看来,这些功能基本围绕视频的更准确表达,也就是通过分镜、加特效等等方式,让人们能通过视频创作出一个自己想要的故事。
   首先是故事板(storyboard),它被研究人员称为是一种「全新的创意工具」。从产品设计上看,它相当于按时间轴的方式,把一段故事(视频)切成了多个不同的故事卡(视频帧)。用户只需要设计和调整每张故事卡(视频帧),Sora会自动把它们补成一段流畅的故事(视频)——这很像电影里的分镜、动画的手稿,当导演画好分镜、一个片子就拍出来了,一个漫画师写好手稿、一个动画就设计出来了。比如研究人员设想的第一个分镜是,「美丽的白鹤站在小溪中,拥有一条黄色的尾巴。」第二个分镜是,「鹤将头探入水中,并捉出一条鱼」。那他做的工作就是,分别创建这两张故事卡(视频帧),并在两者之间设大概五秒钟的间隔。这个间隔对Sora很重要,给了它把两组动作连起来的发挥空间。
   最终,他得到了一个完整的视频镜头,「美丽的白鹤站在小溪中,它拥有一条黄色的尾巴。接着鹤将头探入水中,并捉出一条鱼。」更为奇妙的是,在这个故事板上,创作要素不只是故事卡,也可以是直接的图片、视频。也就是说,可以将任意的图片、视频拉到故事板上,结合故事卡,对它进行创作。以视频为例,研究人员将上述白鹤的视频切下来导入故事板,进行了剪切,这就给视频的前方和后方留出了继续创作的间隙,也就是说可以有新的开头和结尾。
   这带来的想象是,故事板可以无限的创作下去。也就是说Sora生成的20秒视频,可以被不断地创造、剪切、创造……直至完全达到心目中理想的镜头。这个过程就像一个剪辑师、导演,通过对分镜设计和镜头素材的不断生成剪辑,慢慢剪出自己心中的片子。和真实世界中不同,Sora提供的素材是无限的。而和其他的文生视频产品不同,Sora的视频是可以修改加工的。这使得它生成的视频一定会更符合用户心中的想象、创意。这似乎正是Sora此次产品的核心思路:尽最大可能地,让生成的视频符合用户心中想要的创意。这样可以更好理解Sora的其他功能,比如可以通过文字直接修改视频、可以无缝融合两段不同的视频、可以给视频改变画风等,这相当于是直接给视频加「特效」了。而一般的文生视频产品,可能需要不断地调整prompt(提示词)、不断重新生成视频。
   总的来说,Sora除了在生成视频上不出意料的出色表现之外,它还带来了更独有的视频创作产品功能,相当于给视频加分镜、剪辑、特效。这意味着,每个人都有机会创作出自己真正想要的表达,离当一个导演也更近了。「如果你带着期望进入Sora,认为你只需要点击一个按钮就可以生成一部电影,那么我认为你的期望是错误的。」OpenAI研究人员说道。他表示,Sora是一种工具,允许人们同时在多个地方、尝试多个想法,尝试以前完全不可能的事情,「实际上我们认为这是创作者的超级特殊延伸。」
服务大众还不单独收费,还是靠底层模型的能力
   作为文生视频赛道的开创者,Sora的推出时间算是最晚的。对此,OpenAI研究团队表示,为了对Sora进行广泛的部署,需要找到让模型更快、更便宜的办法。为此,研究团队做了大量的工作。在直播中,OpenAI宣布推出Sora turbo,这是原始Sora模型的新高端加速版本。它具有今年早些时候OpenAI在「世界模拟技术」报告中谈到的所有功能,此外还增加了从文本生成视频、动画图像和混合视频等功能。这是此次Sora产品功能背后的技术基础。看起来相比文字,视频的推理成本更高,但此次OpenAI并没有单独针对Sora收费。20美元/月的ChatGPT Plus会员、以及200美元/月的ChatGPT Pro会员,都可以使用Sora。前者的权益包括最多50个高级视频、分辨率达720p,时长为5秒,后者的权益包括最多500个高级视频、无限普通视频,分辨率高达1080p、持续时间为20秒、并且下载无水印。
   Sora对OpenAI的意义不止于此。团队发现,视频模型在大规模训练时会展现出许多有趣的新能力,使得Sora能够模拟现实世界中人、动物和环境的某些方面。「我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有希望的道路。」或许正是因此,让Sora尽快被大众用起来、用数据更好地训练世界模型,对于OpenAI最终的AGI梦想如此重要。
   在迭代技术的路上,也顺带推动了人类的创造。「这个版本的Sora会犯错误,它并不完美,但它已经到了我们认为它将对增强人类创造力非常有用的地步。我们迫不及待地想看看世界将用它来做什么。」缔造它的OpenAI如此说道。




 

【免责声明】:
   凡注明 “环球科技网” 字样的图片或文字内容均属于本网站专稿,如需转载图片请保留 “环球科技网” 水印,转载文字内容请注明来源“环球科技网”;凡本网注明“来源:XXX(非环球科技网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其作品内容的实质真实性负责,转载信息版权属于原媒体及作者。如转载内容涉及版权或者其他问题,请投诉至邮箱;1978751725@qq.com 
本网公告
环球科技网从不发布负面新闻资讯,也绝不会发布负面信息。如发现负面信息链接请甄别是否为环球科技网所发。
本网系北京伯乐传媒广告有限公司主办、所有。本网唯一域名(www.hqkjw.cn),其它域名链接均为假冒。望广大网民及企业主认真甄别。


咨询、采访、合作、投稿等请致电:13911566744(含微信)

     
 
 


 

相关文章

  • 新型锂电池助无人机不惧温差长距续航 新型锂电池助无人机不惧温差长距续航 2024-12-10 10:48:42

      12月5日,记者从中国科学院大连化学物理研究所获悉,该所陈忠伟院士团队研发的高比能宽温域锂离子电池,成功适配中国科学院沈阳自动化研究所设计的新型工业级复合翼无人机,并在辽宁省大连市长海县空域顺利完成试飞。此次试飞展示了中国科学院大连化学物理研究所在无人机动力电源领域的重要技术突破,为低空经济发展注入强劲动力。   无人机搭载的高比能锂电池能量密度高达每公... [阅读]

  • “不要选A,选了又要多做好多题!” “不要选A,选了又要多做好多题!” 2024-12-09 12:55:41

       当下,AI加持下的自习室似乎正在成为一门火热的生意。其核心是AI算法和大模型加持的学习机,以及学习机上的智能助学系统,辅以线下督学、托管等服务。这些AI自习室的宣传广告五花八门,“学业规划”“靶向检测”“查缺补漏”“自主学习”等不一而足,... [阅读]

  • 孟樸:5G+AI为发展新质生产力提供技术基础 孟樸:5G+AI为发展新质生产力提供技术基础 2024-12-09 10:43:43

       新华网海南博鳌12月3日电(记者 凌纪伟)12月2日至4日,2024企业家博鳌论坛系列活动在海南博鳌举行。在3日举行的主论坛圆桌会议上,高通公司中国区董事长孟樸表示,作为连接计算领域的创新企业,近年来高通注意到,颠覆性的科技创新成果在全球范围内不断涌现,为发展数字经济和新质生产力提供了技术基础。   &ldquo... [阅读]

  • 科大讯飞:为华为Mate 70至少三项功能提供技术支持 科大讯飞:为华为Mate 70至少三项功能提供技术支持 2024-12-05 15:19:55

       12月5日消息,日前有投资者在互动平台的提问,科大讯飞和华为最新的Mate 70系列有没有什么合作?    科大讯飞回应称,华为Mate70中的基于大模型的通话摘要功能、方言自由说功能以及全屋智能场景中的全屋广播等功能均由科大讯飞提供相关技术支持。科大讯飞表示,科大讯飞与华为始终保持良好的合作与交流,公司已与鸿蒙... [阅读]