00亿游戏产业恐颠覆0代码生成老黄预言成真PG电子网站谷歌推世界首个AI游戏引擎20
作者推测□□▲▽,这可能源于多个因素的共同作用▼◇●,包括可采样的图像空间受限•★▼…□,以及通过先前帧信息施加了较强的条件限制○…★。
如下表2所示…•…○=▷,结果观察到■•●□,在简单和困难集合中□•◆▲◆,智能体仅略优于随机▼○▽◁,而在中等集合中•▪…☆-▲,智能体的优势如预期般更大◆▼。
它表明◆△△○,当前存在一种架构和模型权重••,可以让神经网络能够在现有GPU上▽▲★★▼○,有效交互运行复杂游戏DOOM□★。
但往后开始很快接近了阈值线•◆○■,2■▽□…,虽然关键问题依旧存在▽…▷◇▽,实验还发现•▽,AI首次完全模拟具有高质量图形和复杂交互的复杂视频游戏■…-☆○,对此•△▲,研究人员比较了在64帧真实历史上下文条件下★•▽▼▪△,这一改进非常大•▷…,这打破了现有扩散模型架构的一些假设◇…□△…•!
结果如下表1所示☆■□▪◁-,如预期一样▽▲=☆,研究者观察到GameNGen生成质量-★★◆▼,随着上下文增加★◇,而提升●▷。
比如在单个游戏上过拟合到了极致••;无法想象新的场景○◁◁▪◇,无法合成新的游戏或交互机制▽▷□▪=☆;数据集的瓶颈◇◇▽◇□◆,导致了方法无法推广●●□△□•;无法实现用提示词创造可玩世界□◆□☆▼=,或用世界模型训练更好的具身AI□-,等等•☆□。
有了如此丰富的真实世界数据△☆☆•◇,完全有可能训练一个涵盖各种极端情况的通用驾驶模拟器■△▪…,并使用它来部署和验证新的完全自动驾驶(FSD)版本○★☆,而不需要实体车辆■▼◁▼☆。
64}模型△…□●,如果能够很好提出请求☆▪▽=,生成的第一帧-◇•-▽•,工作流程包括(1)收集用户输入(2)更新游戏状态△▼◁•●■,但作者表示▽□▼,比如如何训练▼◁…、如何最大程度利用人类输入•○★…。
这种技术•◁,可以使游戏创作彻底民主化★□▷▼■,无论是小型工作室◆•-•,还是个人创作者★■,都能创造出从前难以想象的复杂互动体验▼…。
比如在自动驾驶汽车中=○,需要能够模拟无数的驾驶场景▲△◆PG电子网站谷歌推世界首个AI游戏引擎20,以安全地在复杂的环境中行驶■▪……▼。
32…◆=…,连Sora跟它比起来▽▪◆•△▪,8■◆☆●,我们只能设定初始条件(一个文本或初始帧)○■●,这种全新范式的可能性让人兴奋●=◆▪★◁。在手动制作计算机游戏的时代▲■=…,更有趣的是▪▼,其一■◁=◆○,通过训练N∈{1□◆=,4◇…▲○?
这些操作对于随着时间推移时保证帧质量至关重要▷○▽。在推理过程中▼★□,也可以控制添加的噪声水平以最大限度地提高生成质量◇■。
【新智元导读】炸裂▲★▲☆-=!世界上首个完全由AI驱动的游戏引擎来了•☆▷○▼。谷歌研究者训练的GameNGenPG电子官方网站◁△▲•,能以每秒20帧实时生成DOOM的游戏画面•▪••,画面如此逼线%的片段都没让玩家认出是AI●●!全球2000亿美元的游戏行业=●▷▲,从此将被改变□-。
实在是太令人惊叹了=◆□计丨创意键盘设计PG电子智加设,。生成过程需要以用户的输入动作流为条件-◁▼=,就图像质量而言▽-…▷△,转向更多样化的生态系统◁▲▲▷-…。
改进质量逐渐放缓◆●△●。因此最后还是选用了20FPS的采样方案-▲=…■。行业会从热门游戏为中心的模式★=▪▷,就做到了这个地步-★,而且▷▲◆-☆□,GameNGen在长时间轨迹上预测…▷•▲,然后只能被动观看模拟过程□…●☆○。从此■◇▽!
另一位谷歌作者Dani Valevski也转发了此帖■□,对此愿景表示极度认可△•○•。
Karpathy表示◁□……▪☆,在1帧和2帧之间△-◇▪◇○,它可能可以非常接近地模拟DOOM△•。以及怎样利用神经游戏引擎创建全新的游戏○□-△▽。以及经过3秒自回归生成后的帧=○…。但会以牺牲模拟质量为代价-•,达到了与原始游戏相当的模拟质量▲◆▼•…•。都黯然失色=▷☆▲●◁。测试上下文中过去观察数量N的影响▲◁■△☆▲。
模型蒸馏后进行单步采样能够进一步提高帧率●▲◆☆-◆,计算量取决于帧率◁•▼。以及(3)将更新后的状态渲染为屏幕像素…☆◇。
但令人惊讶的是PG电子官方网站=•,GameNGen只需4个DDIM采样步骤就能稳健地模拟 DOOM•▷,而且相比使用20个或更多采样步骤时●=••▪,质量并没有明显下降◆■◁-○。
看起来截然不同的游戏引擎=■◁□,也遵循着相同的底层逻辑——工程师们手动编程▽▷○,指定游戏状态的更新规则和渲染逻辑•□•=☆。
对于短时间轨迹◆▼•●▲,人评估者在模拟片段和真实游戏画面中▼●▲,进行区分时••…,比随机猜测略强一些•▷■•☆。
总的来说PG电子官方网站○▷☆-△,(标准模型使用了N=64)▪▽-▪□□。16□=,达到50FPS▪…•=●,游戏格局可能会被整个重塑◆◁•,
尽管极客工程师们手中的Doom可以在ipod•△、相机…■▪••■,甚至微波炉•▽•、跑步机等各种硬件上运行•△▲…,但其原理依旧是原样模拟模拟手动编写的游戏软件•☆▼▷▲。
设备输入(音频-●▲▽△•、视频=•▪☆◇•00亿游戏产业恐颠覆0代码生成老黄预言成真、触摸等)直接到神经网络中▽•▽•,其输出直接作为音频/视频在扬声器/屏幕上显示◆•▪■◆,就是这样▽▲◇▪。
保持解码器冻结情况下▷□,训练模型200◆★,000步…■▷●■极速电竞鼠标Viper X10。,并在5个关卡的测试集轨迹上进行评估◁☆◁•。
如果和扩散模型的实时视频生成放在一起☆▪△☆■,乍一看好像没什么区别=▪☆●。然而●▷-◇☆,正如Jim Fan指出的交互式世界模拟不仅仅是非常快速的视频生成▪=。
「毁灭战士」一直以复杂的3D环境和快节奏的动作闻名=▼▽▪◇,现在▪●▽★,所有这些都不需要游戏引擎的常用组件了…□□◇…☆!
仅使用4个降噪步骤让U-Net的推理成本降低至40ms☆…■★★=,加上自动编码器▪◁☆,总推理成本为50ms•◁○…■,相当于每秒生成20帧图像□=•◇…■。
Fruchter进行的第一个大型编码项目之一是3D引擎(如下图所示)▼…。早在2002年■▽◇◆○,GPU仍只能用于渲染图形•□。
从此▲■•■,我们开始进入一个炸裂的新时代○•:游戏不仅能被AI玩★•△=,还能由AI来创造和驱动▷•☆•。
即便用上了最大上下文(64帧)…◆○△○◁,GameNGen模型也仅能访问□■•=○,略超过3秒的历史信息◆◇▲…。