谷歌發(fā)布Genie 2模型,可一鍵生成長達1分鐘的3D游戲

12月5日凌晨,就在OpenAI宣布將于未來12天連續(xù)進行12場發(fā)布會直播時,Google DeepMind同時在官網(wǎng)發(fā)布了大型基礎(chǔ)世界模型Genie 2,可通過單張圖片和文字描述生成種類多樣的可玩3D世界。作為今年初推出的 Genie 模型的升級版,Genie 2標(biāo)志著人工智能在虛擬世界生成領(lǐng)域的又一次突破。

DeepMind透露,Genie 2具備從不同視角(如第一人稱視角與等距視角)生成連貫世界的能力,這些生成的世界可持續(xù)時間長達一分鐘,但多數(shù)情況下維持在10到20秒之間。

博客中放出了大量由模型生成的視頻示例,來展示Genie 2在行動控制、長視界記憶、長視頻生成、NPC、物理等方面的效果與優(yōu)勢。例如,輸入“森林中的可愛人形機器人”,模型便可構(gòu)建一個包含機器人角色和可探索環(huán)境的動態(tài)場景。用戶可以通過鍵盤或鼠標(biāo)操作角色在世界中進行跳躍、游泳等互動。

據(jù)悉,經(jīng)過視頻訓(xùn)練,該模型能夠精準模擬物體的交互、動畫效果、照明、物理現(xiàn)象、反射效果以及“NPC”(非玩家角色)的行為。許多生成的場景畫質(zhì)接近 3A級別的電子游戲,甚至在物體視角一致性和場景記憶方面表現(xiàn)優(yōu)異。

技術(shù)方面,谷歌提到,Genie 2 是一個自回歸潛在擴散模型,在大型視頻數(shù)據(jù)集上進行訓(xùn)練。經(jīng)過自動編碼器后,視頻中的潛在幀被傳遞到大型Transformer動力學(xué)模型。該模型使用與大語言模型類似的因果掩碼進行訓(xùn)練。在推理時, Genie 2能以自回歸方式進行采樣,逐幀獲取單個動作和過去的潛在幀。

谷歌對世界模型研究的投入正在持續(xù)擴大。今年 10 月,DeepMind 聘請了OpenAI前視頻生成項目負責(zé)人Tim Brooks,同時兩年前從Meta挖來了以開放式實驗聞名的Tim Rockt?schel。與之相似的模型還有“AI教母”李飛飛創(chuàng)立的 World Labs 和以色列初創(chuàng)公司 Decart 的產(chǎn)品。

雖然大多數(shù)基礎(chǔ)世界模型可以模擬游戲和 3D 環(huán)境,但還存在偽影、一致性和幻覺相關(guān)的問題。Google DeepMind還在博客最后放了一些有趣的“花絮”,Genie 2生成出一些奇怪視頻,比如沒有采取行動的情況下一個“鬼魂”出現(xiàn)在花園,在雪場的人物角色從滑板上跳下來,相比滑雪更愛跑酷,以及一個魔法球爆炸。

就3D游戲生成這一領(lǐng)域研究,谷歌還表示,游戲在人工智能研究領(lǐng)域發(fā)揮著重要作用。游戲的吸引力、獨特的挑戰(zhàn)組合和可衡量的進展使其成為安全測試和推進 AI 能力的理想環(huán)境。自 Google DeepMind 成立以來,游戲就一直非常重要,是研究的重心。然而,訓(xùn)練更通用的具身智能體的傳統(tǒng)瓶頸在于缺乏足夠豐富和多樣化的訓(xùn)練環(huán)境。

(本文來自第一財經(jīng))

標(biāo)題:谷歌發(fā)布Genie 2模型,可一鍵生成長達1分鐘的3D游戲

地址:http://www.17168cn.cn/paobuji/363723.html