当前位置: 网站首页 技术文章 正文

腾讯出新招!GameGen-O模型一键打造类黑神话游戏视频

来源:互联网 发布时间:2024-09-17 11:19:41

难以置信的是,大型模型似乎即将有能力创作出像《黑神话·悟空》这样的顶级游戏作品。

腾讯出新招!GameGen_O模型一键打造类黑神话游戏视频

想象一下,《西游记》的经典故事与现代技术的融合,再配上背景音乐,那味道简直了(doge)。

这是腾讯最近推出的GameGen-O,一种专为生成开放世界视频游戏而设计的Transformer模型。

简而言之,GameGen-O能够模拟多种游戏引擎的功能,创造出游戏角色、动态环境、复杂的动作等。

而且它还支持交互控制,用户可以通过文本、操作指示甚至是视频提示来定制游戏内容。

这一消息一经发布便在网络上迅速传播开来,引发了网民们的热烈讨论:

游戏工作室Azra Games的联合创始人兼CTO就公开表示:

“游戏工作室迎来了他们的ChatGPT时刻。”

这个项目是由腾讯光子工作室(曾负责开发和平精英)与香港科技大学和中国科学技术大学合作推出的。

他们希望利用AI模型来替代部分游戏开发流程,比如已经展示的角色创建、环境生成、动作设计、事件触发以及各类交互控制。

让我们逐一来看看这些功能吧。

现在,使用GameGen-O,你可以轻松地创建各种角色,无论是西部牛仔、宇航员、魔法师还是警卫,都能一键搞定。

如果因为预算限制而无法实地拍摄,现在也有解决方案了!

想向你的队友炫耀一番?各种人称视角的动作设计也可以轻松实现。

为了让游戏更具挑战性,诸如海啸、龙卷风或火灾等事件的加入也不再遥不可及(doge)。

同时,GameGen-O还支持风格、环境和场景不受限的开放域生成。

最后,通过文本、操作信号和视频提示即可实现与游戏的交互,无论向左向右还是迈向光明。

大家都知道游戏开发的成本高昂,而现在,普通的玩家也能借助GameGen-O参与到游戏制作中来。

一位AI架构师网友甚至预测:

用GPT-4o进行数据标注

为了开发GameGen-O模型,研究团队主要完成了两项任务:

建立专有数据集OGameData,并采用GPT-4o进行数据标注经历基础训练和指令调整两个阶段

具体来说,团队首先提出了一套数据集构建流程。

他们从网上搜集了32,000段来自数百款开放世界游戏的原始视频资料,这些游戏涵盖了角色扮演、第一人称射击、赛车以及动作解谜等多种类型。

经过人类专家的识别和筛选,最终确定了大约15,000段适合使用的视频。

随后,这些视频被通过场景检测技术分割成片段,并根据美学、光流和语义内容进行严格的排序和过滤。

接着,GPT-4o被用来对超过4,000小时的高质量视频片段进行详细的注释,这些片段的分辨率从720p到4k不等。

为了实现更好的交互控制性,团队选择了注释后的高质量片段进行解耦标签处理。

这种标签设计有助于描述视频片段中内容状态的变化,确保训练模型的数据集更加精细和互动。

对于这种人类专家与GPT-4o协作的方式,有网友评论道:

完成数据准备后,团队通过基础预训练加上指令调整的方式训练了GameGen-O模型。

在基础训练阶段,GameGen-O模型使用了一个2+1D VAE(如Magvit-v2)来压缩视频片段。

为了使VAE更适用于游戏领域,团队对其解码器进行了专门调整。

采用混合训练策略,涵盖不同帧率和分辨率的视频资料,以增强模型的通用性和适应性。

此外,模型的整体架构遵循了Latte和OpenSora V1.2的设计原则。

通过使用掩码注意力机制,GameGen-O获得了从文本生成视频以及继续视频的能力。

在此之后,预训练的模型被固定下来,使用可训练的InstructNet进行微调,使其可以根据多模态结构指令生成后续帧。

InstructNet的主要功能是接收多种类型的输入,包括结构化文本、操作信号和视频提示。

在调整InstructNet的过程中,当前内容被用作条件,建立起当前片段与未来片段之间的映射关系,这一过程是在多模态控制信号下完成的。

结果是,在实际应用中,GameGen-O可以根据当前片段不断生成并控制下一个片段。

目前,GameGen-O已经在GitHub上创建了官方仓库,不过代码尚未上传。

有兴趣的朋友可以提前关注起来啦~

相关教程