اجرای DOOM در یک شبکه عصبی: انقلابی در توسعه بازی

در دنیای بازی های ویدیویی، نوآوری پیشگامانه ای پدید آمده است که می تواند نحوه ایجاد و تعامل ما با جهان های مجازی را متحول کند. GameNGen، یک شبکه عصبی که قادر به اجرای بازی کلاسیک DOOM در زمان واقعی است. این فقط یک هوش مصنوعی دیگر نیست که یک بازی را انجام می دهد – این هوش مصنوعی خود موتور رندرینگ بازی است.

GameNGen،  اولین موتور بازی است که به طور کامل توسط یک مدل عصبی کار می‌کند که تعامل Real-Time با یک محیط پیچیده را امکان‌پذیر می‌کند. این پیشرفت که توسط محققان در گوگل ایجاد شده است، نشان می دهد که گیم پلی تعاملی با کیفیت بالا با سرعت 20 فریم در ثانیه با استفاده از یک شبکه عصبی امکان پذیر است.
اهمیت اجرای DOOM در یک شبکه عصبی را نمی توان اغراق کرد. DOOM که در سال 1993 منتشر شد، صنعت بازی را با گرافیک سه بعدی پیشگامانه خود متحول کرد. اکنون، سه دهه بعد، در خط مقدم یک انقلاب بالقوه دیگر قرار دارد – انقلابی که در آن بازی‌ها به جای خطوط کد، در وزن‌های یک مدل عصبی اجرا می‌شوند.

نحوه عملکرد GameNGen

رویکرد GameNGen شامل یک فرآیند آموزشی دو مرحله‌ای است:

  • آموزش عامل RL: ابتدا یک عامل یادگیری تقویتی (RL) برای انجام بازی آموزش داده می شود. جلسات گیم پلی عامل ضبط می شود و مجموعه ای از اقدامات و مشاهدات ایجاد می کند.
  • آموزش مدل Diffusion: سپس یک مدل Diffusion مولد بر روی این مجموعه داده آموزش داده می شود. این مدل یاد می گیرد که فریم بعدی بازی را بر اساس فریم های قبلی و اقدامات بازیکن پیش بینی کند.

جادوی واقعی در حین استنتاج اتفاق می افتد. GameNGen می تواند فریم هایی را در زمان واقعی با سرعت 20 فریم در ثانیه روی یک TPU تولید کند. این تنها با استفاده از 4 مرحله نمونه برداری DDIM به این امر دست می یابد، عددی به طرز شگفت انگیزی کم که همچنان خروجی با کیفیت بالا را حفظ می کند.
یکی از نوآوری های کلیدی استفاده از افزایش نویز در طول تمرین است. این تکنیک به جلوگیری از auto-regressive drift کمک می‌کند و به مدل اجازه می‌دهد کیفیت ثابتی را در جلسات طولانی بازی حفظ کند.
نتیجه یک شبکه عصبی است که می تواند DOOM را با وفاداری چشمگیر شبیه سازی کند. حالت بازی را حفظ می‌کند، به ورودی‌های بازیکن پاسخ می‌دهد و فریم‌های دقیق بصری تولید می‌کند – همه بدون کد و موتور بازی سنتی.

نوآوری های کلیدی

GameNGen چندین نوآوری کلیدی را معرفی می کند که عملکرد چشمگیر آن را ممکن می کند:

  • Noise Augmentation: برای جلوگیری از auto-regressive drift، که می‌تواند باعث افت کیفیت در طول زمان شود، محققان یک تکنیک افزایش نویز را در طول آموزش اجرا کردند. این به مدل اجازه می دهد تا کیفیت ثابتی را حتی در جلسات طولانی بازی حفظ کند.
  • نمونه برداری کارآمد: در کمال تعجب، GameNGen تنها با استفاده از 4 مرحله نمونه برداری DDIM به تولید فریم با کیفیت بالا دست می یابد. این کارایی برای عملکرد Real-Time بسیار مهم است و نسبت به مدل‌های انتشار سنتی که اغلب به ده‌ها مرحله نیاز دارند، پیشرفت قابل‌توجهی است.
  • Latent Decoder Fine-tuning: این تیم برای بهبود کیفیت تصویر، به ویژه برای جزئیات کوچک و HUD بازی، decoder بخش latent auto-encoder  را به خوبی تنظیم کردند.

نتایج و مقایسه‌ها

نتایج بدست آمده توسط GameNGen واقعاً چشمگیر است:

  • کیفیت تصویر: در پیش‌بینی تک فریم، GameNGen به PSNR 29.43 دست می‌یابد که با فشرده‌سازی JPEG با اتلاف با تنظیمات کیفیت 20-30 قابل مقایسه است.
  • کیفیت ویدیو: برای کلیپ‌های ویدیویی کوتاه، مدل به FVD (فاصله ویدیویی Fréchet) 114.02 برای دنباله‌های 16 فریم و 186.23 برای سکانس‌های 32 فریم می‌رسد.
  • ارزیابی انسانی: در یک آزمایش کور، ارزیاب‌های انسانی فقط توانستند بین خروجی GameNGen و بازی واقعی در 58 تا 60 درصد مواقع برای کلیپ‌های کوتاه تمایز قائل شوند، که به سختی بهتر از شانس تصادفی بود.

در مقایسه با تلاش‌های قبلی برای شبیه‌سازی بازی‌های عصبی، GameNGen به دلیل وفاداری بصری و عملکرد Real-Time خود متمایز است. در حالی که مدل‌های قبلی مانند World Models و GameGAN نتایج مبهم یا متناقضی ایجاد می‌کردند، GameNGen فریم‌هایی تولید می‌کند که به‌طور قابل‌توجهی به بازی اصلی نزدیک هستند.

تاثیرات و محدودیت‌های آینده

GameNGen یک گام مهم به سمت پارادایم جدیدی در توسعه بازی است:

  • پتانسیل: در آینده، بازی‌ها می‌توانند از طریق توضیحات متنی یا تصاویر نمونه توسعه و ویرایش شوند، که به طور بالقوه توسعه بازی را در دسترس‌تر و کم‌هزینه‌تر می‌کند.
  • محدودیت ها: مدل فعلی دارای یک پنجره زمینه محدود در حدود 3 ثانیه است که می تواند منجر به برخی ناسازگاری ها در حفظ حالت طولانی مدت شود. علاوه بر این، رفتار این مدل بر اساس گیم پلی یک عامل RL است که ممکن است به طور کامل دامنه تعاملات بازیکن انسانی را در بر نگیرد.
  • تحقیقات آینده: احتمالات هیجان انگیز برای کارهای آینده شامل گسترش GameNGen به سایر بازی ها یا سیستم های نرم افزاری تعاملی، بهبود قابلیت های حافظه بلند مدت و بهینه سازی بیشتر عملکرد برای سخت افزار مصرف کننده است.

در حالی که هنوز چالش هایی برای غلبه بر وجود دارد، GameNGen دنیایی از امکانات را در اختیار شما قرار می دهد. این به آینده‌ای اشاره می‌کند که در آن بازی‌ها فقط با هوش مصنوعی انجام نمی‌شوند، بلکه کل موتور بازی می‌تواند یک هوش مصنوعی باشد و به روش‌هایی که قبلاً ندیده‌ایم، به بازیکنان تطبیق داده و پاسخ دهد. همانطور که این فناوری در حال توسعه است، می تواند نه تنها در نحوه ایجاد بازی ها، بلکه نحوه تعامل ما با انواع سیستم های نرم افزاری تعاملی را متحول کند.

‌ on اجرای DOOM در یک شبکه عصبی: انقلابی در توسعه بازی

ارسال دیدگاه