当前位置: 网站首页 技术文章 正文

海外市场观察:Sora如何面临可灵的激烈竞争

来源:互联网 发布时间:2024-08-02 21:41:40

在开放公测后,一众业内人士和吃瓜群众迅速涌入,在快手旗下创作工具快影 App申请,一试可灵“到底灵不灵”。而汇集多项测评及反馈,可以看到,可灵在技术上还和Sora有一定差距,除了语义理解问题、生成画面不符合物理世界规律、真实性差等“硬伤”外,“画风质感一言难尽”“美观性欠佳”“快手味过浓”也是被频繁提及的关键词。

 

一言以蔽之,正如当年依靠下沉市场异军突起的路径,快手如今在AI界,又一次展现出惊人相似的气质——基本功底不差,但仍然难逃“下沉”标签与命运。

 

一、存在语义理解、画风质感等多薄弱环节:可灵难逃“下沉”标签?

 

在架构选择上,可灵紧跟Sora步伐。据快手大模型团队介绍,其采用类似 Sora 模型的 DiT 结构,用Transformer代替了传统扩散模型中基于卷积网络的U-Net,这也是当下文生视频领域的主流趋势——过去几年,基于U-Net架构的扩散模型暴露出无法处理复杂指令等问题,而Diffusion Transformer在处理大规模视觉数据方面具有显著优势,能够生成更为复杂和连贯的视频内容。

 

基于此,可灵整体表现不会太差,然而,在进一步功力比拼中,可灵的短板逐渐暴露。

 

首先,是语义理解层面,在知乎“如何看待中国版Sora可灵爆火”这一问题下,有网友表示,输入“一只大熊猫在开心地吃粽子”,结果生成了熊猫在吃水饺;再比如,想生成猫咪赛龙舟的场景,输入“一群猫咪坐在龙舟里”,结果生成的视频中没有猫咪,只有人。

 

 

而这背后,则显露出可灵在语义理解能力的与细节捕捉能力的功力不足:无论是无法分别出“人类”和“猫咪”的区别,还是混淆“粽子”和“水饺”,都意味着着可灵在语义层面上存在理解偏差,无法精确捕捉输入描述中的关键信息,尤其是在处理非常规或特定领域的对象时,语义解析层面还有提升空间。

 

再往前追溯,可灵在构建视频场景时,可能受限于其训练数据和算法能力,无法准确地将文字描述转化为符合预期的视觉内容:

 

训练过程中,可灵所依赖的数据集或缺乏足够的“赛龙舟”等特定场景的数据,导致模型无法准确学习并生成相关视频,此外,训练策略可能没有针对细节进行足够的优化,让模型未能充分学习到“人类与猫咪”等不同对象之间的区别和特征。

 

再比如,据《每日经济新闻》测评,在一些视频生成时,可灵存在诸多“失灵”时刻。例如,弹吉他的熊猫拥有人类的手指;提示词中“浅绿色的布艺沙发”,到了视频中呈现的则是红棕色的皮质沙发。同时,在一些视频中,当有多个主体时,有时也会出现一些元素无法完全呈现在视频中的情况。

 

 

事实上,台上一分钟的文生视频秀肌肉背后,比拼的是“台下十年功”的训练积累。这也是为什么,大差不差的架构下,可灵生成的视频有诸多“bug”。

 

正如此前,一览科技创始人罗江春公开表示,国内生成式视频大模型面临的最大挑战,本质上是底层能力的差距,这个底层能力包括数据、模型和算力:“我们有能力追上Sora今天的效果,但是当追上的时候,Sora又已经往前走了一大步,这个差距会保持比较长一段时间。”

 

除了硬伤外,可灵的画风更是被诟病最多的地方。在同样的提示词下,可灵和Sora生成的画风对比“一言难尽”。

 

拿让Sora迅速爆火出圈的那段视频来说,提示词为“一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志,她背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果,许多行人四处走动。”

 

而有网友把同样的提示词投喂给可灵,生成的视频却极为“快手风”:

 

歪嘴女主角迈着六亲不认的步伐,穿着看上去正常但凑在一起就莫名土味的穿搭,走出了精神小妹进城讨债的气势,背后还有紧身裤小伙乱入,整个街道也有一种浓浓的城乡结合部既视感。让人不禁想配一段社会语录,比如“精致小包怀里夹,开上我的小捷达”“大姐走路就这么der,好像赵四跳皮筋”之类的。

 

 

在社交平台上,也有很多网友表示“生成的画风很古早”“有点土”“果然是快手做出来的东西,有一种快手味”。

相关教程