در دنیای بازی های ویدیویی، نوآوری پیشگامانه ای پدید آمده است که می تواند نحوه ایجاد و تعامل ما با جهان های مجازی را متحول کند. GameNGen، یک شبکه عصبی که قادر به اجرای بازی کلاسیک DOOM در زمان واقعی است. این فقط یک هوش مصنوعی دیگر نیست که یک بازی را انجام می دهد – این هوش مصنوعی خود موتور رندرینگ بازی است.
GameNGen، اولین موتور بازی است که به طور کامل توسط یک مدل عصبی کار میکند که تعامل Real-Time با یک محیط پیچیده را امکانپذیر میکند. این پیشرفت که توسط محققان در گوگل ایجاد شده است، نشان می دهد که گیم پلی تعاملی با کیفیت بالا با سرعت 20 فریم در ثانیه با استفاده از یک شبکه عصبی امکان پذیر است.
اهمیت اجرای DOOM در یک شبکه عصبی را نمی توان اغراق کرد. DOOM که در سال 1993 منتشر شد، صنعت بازی را با گرافیک سه بعدی پیشگامانه خود متحول کرد. اکنون، سه دهه بعد، در خط مقدم یک انقلاب بالقوه دیگر قرار دارد – انقلابی که در آن بازیها به جای خطوط کد، در وزنهای یک مدل عصبی اجرا میشوند.
نحوه عملکرد GameNGen
رویکرد GameNGen شامل یک فرآیند آموزشی دو مرحلهای است:
- آموزش عامل RL: ابتدا یک عامل یادگیری تقویتی (RL) برای انجام بازی آموزش داده می شود. جلسات گیم پلی عامل ضبط می شود و مجموعه ای از اقدامات و مشاهدات ایجاد می کند.
- آموزش مدل Diffusion: سپس یک مدل Diffusion مولد بر روی این مجموعه داده آموزش داده می شود. این مدل یاد می گیرد که فریم بعدی بازی را بر اساس فریم های قبلی و اقدامات بازیکن پیش بینی کند.
جادوی واقعی در حین استنتاج اتفاق می افتد. GameNGen می تواند فریم هایی را در زمان واقعی با سرعت 20 فریم در ثانیه روی یک TPU تولید کند. این تنها با استفاده از 4 مرحله نمونه برداری DDIM به این امر دست می یابد، عددی به طرز شگفت انگیزی کم که همچنان خروجی با کیفیت بالا را حفظ می کند.
یکی از نوآوری های کلیدی استفاده از افزایش نویز در طول تمرین است. این تکنیک به جلوگیری از auto-regressive drift کمک میکند و به مدل اجازه میدهد کیفیت ثابتی را در جلسات طولانی بازی حفظ کند.
نتیجه یک شبکه عصبی است که می تواند DOOM را با وفاداری چشمگیر شبیه سازی کند. حالت بازی را حفظ میکند، به ورودیهای بازیکن پاسخ میدهد و فریمهای دقیق بصری تولید میکند – همه بدون کد و موتور بازی سنتی.
نوآوری های کلیدی
GameNGen چندین نوآوری کلیدی را معرفی می کند که عملکرد چشمگیر آن را ممکن می کند:
- Noise Augmentation: برای جلوگیری از auto-regressive drift، که میتواند باعث افت کیفیت در طول زمان شود، محققان یک تکنیک افزایش نویز را در طول آموزش اجرا کردند. این به مدل اجازه می دهد تا کیفیت ثابتی را حتی در جلسات طولانی بازی حفظ کند.
- نمونه برداری کارآمد: در کمال تعجب، GameNGen تنها با استفاده از 4 مرحله نمونه برداری DDIM به تولید فریم با کیفیت بالا دست می یابد. این کارایی برای عملکرد Real-Time بسیار مهم است و نسبت به مدلهای انتشار سنتی که اغلب به دهها مرحله نیاز دارند، پیشرفت قابلتوجهی است.
- Latent Decoder Fine-tuning: این تیم برای بهبود کیفیت تصویر، به ویژه برای جزئیات کوچک و HUD بازی، decoder بخش latent auto-encoder را به خوبی تنظیم کردند.
نتایج و مقایسهها
نتایج بدست آمده توسط GameNGen واقعاً چشمگیر است:
- کیفیت تصویر: در پیشبینی تک فریم، GameNGen به PSNR 29.43 دست مییابد که با فشردهسازی JPEG با اتلاف با تنظیمات کیفیت 20-30 قابل مقایسه است.
- کیفیت ویدیو: برای کلیپهای ویدیویی کوتاه، مدل به FVD (فاصله ویدیویی Fréchet) 114.02 برای دنبالههای 16 فریم و 186.23 برای سکانسهای 32 فریم میرسد.
- ارزیابی انسانی: در یک آزمایش کور، ارزیابهای انسانی فقط توانستند بین خروجی GameNGen و بازی واقعی در 58 تا 60 درصد مواقع برای کلیپهای کوتاه تمایز قائل شوند، که به سختی بهتر از شانس تصادفی بود.
در مقایسه با تلاشهای قبلی برای شبیهسازی بازیهای عصبی، GameNGen به دلیل وفاداری بصری و عملکرد Real-Time خود متمایز است. در حالی که مدلهای قبلی مانند World Models و GameGAN نتایج مبهم یا متناقضی ایجاد میکردند، GameNGen فریمهایی تولید میکند که بهطور قابلتوجهی به بازی اصلی نزدیک هستند.
تاثیرات و محدودیتهای آینده
GameNGen یک گام مهم به سمت پارادایم جدیدی در توسعه بازی است:
- پتانسیل: در آینده، بازیها میتوانند از طریق توضیحات متنی یا تصاویر نمونه توسعه و ویرایش شوند، که به طور بالقوه توسعه بازی را در دسترستر و کمهزینهتر میکند.
- محدودیت ها: مدل فعلی دارای یک پنجره زمینه محدود در حدود 3 ثانیه است که می تواند منجر به برخی ناسازگاری ها در حفظ حالت طولانی مدت شود. علاوه بر این، رفتار این مدل بر اساس گیم پلی یک عامل RL است که ممکن است به طور کامل دامنه تعاملات بازیکن انسانی را در بر نگیرد.
- تحقیقات آینده: احتمالات هیجان انگیز برای کارهای آینده شامل گسترش GameNGen به سایر بازی ها یا سیستم های نرم افزاری تعاملی، بهبود قابلیت های حافظه بلند مدت و بهینه سازی بیشتر عملکرد برای سخت افزار مصرف کننده است.
در حالی که هنوز چالش هایی برای غلبه بر وجود دارد، GameNGen دنیایی از امکانات را در اختیار شما قرار می دهد. این به آیندهای اشاره میکند که در آن بازیها فقط با هوش مصنوعی انجام نمیشوند، بلکه کل موتور بازی میتواند یک هوش مصنوعی باشد و به روشهایی که قبلاً ندیدهایم، به بازیکنان تطبیق داده و پاسخ دهد. همانطور که این فناوری در حال توسعه است، می تواند نه تنها در نحوه ایجاد بازی ها، بلکه نحوه تعامل ما با انواع سیستم های نرم افزاری تعاملی را متحول کند.
on اجرای DOOM در یک شبکه عصبی: انقلابی در توسعه بازی