۲٫ بررسی ادبیات
شبکه Q-Deep (DQN) یک الگوریتم برجسته در RL عمیق است که به چالشهای تصمیمگیری در محیطهایی با ورودیهای حسی با ابعاد بالا میپردازد. راهزنان چند مسلح و متنی اشکال ساده تری از RL هستند که بر مبادله اکتشاف و بهره برداری تمرکز می کنند، که برای توصیه های شخصی بسیار مهم است. الگوریتم های محبوب در این زمینه عبارتند از کران اطمینان بالا (UCB)، نمونه برداری تامسون و LinUCB.
در امنیت، به ویژه در اینترنت اشیا (IoT)، RL برای افزایش حفاظت در برابر تهدیدات استفاده می شود، اگرچه کاربرد آن در درجه اول در محیط های شبیه سازی شده به دلیل هزینه های بالای پیاده سازی در دنیای واقعی است. RL همچنین نقش مهمی در رباتیک، به ویژه در توسعه ربات های اجتماعی برای برنامه های مراقبت های بهداشتی ایفا می کند. این روبات ها از همدلی شناختی برای تعامل و مراقبت بهتر با سالمندان استفاده می کنند.
این مطالعات مجموعاً کاربرد و اثربخشی گسترده RL و DRL را در زمینههای مختلف، از NLP و تجارت خودکار گرفته تا محیطهای پیچیده چند نفره نشان میدهند، و توانایی آنها را برای انطباق و برتری در شرایط تغییر پویا نشان میدهند.
۴٫ مواد و روش ها
رویکرد تصفیهشده برای تسلط بر بازی Ms. Pac-Man با استفاده از یادگیری تقویتی عمیق (DRL) با استراتژیهای بهینهسازی پیچیده همکاری میکند. مرکز اصلی سیستم عامل DQN است که از یک شبکه Q-Network استفاده می کند – یک شبکه عصبی پیچیده که در تشخیص سودمندترین اقدامات در سناریوی بازی ماهر است. رویکرد پیشنهادی توسط Replay Buffer پشتیبانی میشود، ویژگی جداییناپذیری که گیمپلی قبلی را بایگانی و دوباره بررسی میکند و از یک سفر یادگیری قوی و پیشرونده اطمینان میدهد. این تکنیک با در هم تنیدگی الگوریتم بهینهسازی مار (SOA) و بهینهسازی دره انرژی (EVO)، که هر دو از الگوریتمهای مبتنی بر ژنتیک الهام گرفتهاند، برای بهینهسازی فراپارامترهای حیاتی، بهبود یافته و در نتیجه کارایی کلی سیستم را افزایش میدهد. SOA، با الهام از رفتارهای طبیعی مارها، به ویژه الگوهای تغذیه، مبارزه و جفت گیری آنها، جمعیت را به نر و ماده طبقه بندی می کند و استراتژی های بقای پیچیده آنها را از طریق عملیات دو مرحله ای شبیه سازی می کند: مراحل اکتشاف و بهره برداری. در طول مرحله اکتشاف، مارها به طور تصادفی به جستجوی غذا می پردازند و کاوش راه حل های متنوع را تشویق می کنند و از همگرایی زودهنگام به راه حل های غیربهینه جلوگیری می کنند. در مرحله بهره برداری، زمانی که غذای کافی در دسترس باشد، رفتار جستجو جهت دارتر می شود، راه حل های یافت شده در مرحله اکتشاف را اصلاح می کند و جستجو را به سمت راه حل های بهینه هدایت می کند. SOA از دما بهعنوان یک عامل حیاتی برای تأثیرگذاری بر رفتار مارها استفاده میکند، که اجازه میدهد بین اکتشاف و بهرهبرداری تعادل برقرار کند، و برای بهینهسازی فراپارامترها در محیطهای پویا و پیچیده مانند Ms. PacMan مناسب است.
در همین حال، EVO از فیزیک ذرات، بهویژه رفتار ذرات زیراتمی که برای پایداری تلاش میکنند، الهام میگیرد، بر اساس مفهوم «دره انرژی»، که نشاندهنده حالتی است که در آن ذرات در پایدارترین شکل خود هستند، که توسط سطوح بهینه نوترونها محدود شدهاند. N) و پروتون ها (Z). EVO با تنظیم نسبت N/Z تمایل طبیعی ذرات به انتشار انرژی و تبدیل به اشکال پایدارتر را تقلید می کند، بنابراین ذرات را به سمت دره انرژی خود حرکت می دهد. این فرآیند شامل ارزیابی پایداری پیکربندی هر ذره و تنظیم مکرر پارامترها برای دستیابی به حالت پایدارتر، مشابه یافتن راهحل بهینه در فضای مشکل است. ادغام SOA و EVO در ESO نه تنها هایپرپارامترها، بلکه حلقه آموزشی را نیز هدف قرار می دهد و به طور مداوم پارامترهای عامل DQN را به روز می کند تا زمانی که پارامترهای بهینه شناسایی شوند، همانطور که با بازخورد پاداش از محیط نشان می دهد. ESO با مقدار دهی اولیه جمعیت متنوعی از راه حل های بالقوه شروع می شود که هر کدام مجموعه ای منحصر به فرد از فراپارامترها را نشان می دهند. سپس عملکرد هر راه حل بر اساس پاداش های به دست آمده در طول بازی ارزیابی می شود و بهترین راه حل ها برای نسل بعدی انتخاب می شوند. راهحلهای انتخابشده برای معرفی تنوع و کشف راهحلهای بالقوه جدید متقاطع و جهش میشوند و از جستجوی گسترده در فضای فراپارامتر اطمینان میدهند. تاثیر متقابل این عناصر در یک راه حل جامع و موثر برای چالش های ایجاد شده توسط محیط بازی خانم PacMan به اوج می رسد. هر مؤلفه – از Q-Network و Replay Buffer گرفته تا بهینهسازی ابتکاری ESO – با مؤلفه بعدی همکاری میکند تا استراتژی را اصلاح کند، همانطور که در بخشهای بعدی توضیح داده شد.
۴٫۱٫ راه اندازی و آماده سازی محیط
ایجاد یک پایه قوی برای موفقیت پروژه خانم PacMan بسیار مهم است. اقدامات اولیه انجام شده برای ایجاد یک راه اندازی قابل اعتماد و موثر در این بخش توضیح داده شده است. نصب کتابخانه ها و بسته های مورد نیاز این فرآیند را آغاز می کند. این منابع نه تنها رویهها را قادر میسازند تا به خوبی اجرا شوند، بلکه عملکردهای کاربردی ضروری مورد نیاز برای مراحل بعدی آزمایش را نیز فراهم میکنند. استفاده از جدیدترین نسخههای این ابزارها، سازگاری و کارایی را بهینه میکند.
سپس، جعبه ابزار OpenAI's Gym تنظیمات بازی Ms. PacMan را قرار داد. در زمینه RL، Gym به دلیل رابط استاندارد خود شناخته شده است، که تعامل با بازی، پردازش مشاهدات و انجام اقدامات را آسان تر می کند. چنین استانداردسازی برای اطمینان از اینکه آزمایشها میتوانند بارها و بارها با نتایج قابل مقایسه در یک زمینه تحقیقاتی گستردهتر انجام شوند، ضروری است. سپس چندین پارامتر کلیدی آزمایش را توصیف میکنیم، از جمله فضای بازی (همه اقدامات ممکن برای خانم PacMan)، فضای مشاهده (نحوه مدلسازی حالت انتزاعی یک بازی)، و ساختار پاداش. این پارامترها ضروری هستند، زیرا بر فرآیند یادگیری یک عامل DQN تأثیر میگذارند و به آن کمک میکنند تا یک استراتژی را یاد بگیرد و تصمیمگیری کند.
به طور خلاصه، مرحله راه اندازی و آماده سازی محیط به عنوان پس زمینه ای برای آزمایش عمل می کند. این تضمین می کند که اجرای آموزش Q-Network و استفاده از الگوریتم بهینه سازی مار برای تنظیم هایپرپارامتر بر روی یک پایه سالم ساخته شده است، بنابراین منجر به نتایج موفقیت آمیز در مراحل بعدی می شود.
۴٫۲٫ طراحی و عملکرد Q-Network
در هسته فرآیندی که توسط آن به خانم PacMan تسلط مییابیم، شبکه Q است که از یک شبکه عصبی کانولوشنال استفاده میکند که برای محاسبه مقادیر Q برای تعدادی از حالتهای بازی در نظر گرفته شده است. Q-Network گوشت فرآیند RL را تشکیل می دهد. تخمین دقیق این مقادیر Q، که چیزی جز پاداشهای مورد انتظار در مورد اقدامات خاص در حالتهای معین نیستند، چیزی است که هدایت عامل را به سمت فعالیتهایی که در آنها حداکثر سود با توجه به زمان وجود دارد، ممکن میسازد.
معماری Q-Network با در نظر گرفتن الزامات خاص بازیهای آتاری مانند، مانند موارد Ms. PacMan، همراه با ادغام لایههای کانولوشن برای تفسیر ورودیهای بصری مبتنی بر پیکسل طراحی شده است. از آنجایی که چیدمان پیچ و خم، موقعیت ارواح، و محل گلوله هایی که بازی در اطراف آن ها در Ms. PacMan انجام می شود، شناسایی و به روابط و الگوهای فضایی رمزگشایی می شوند، این لایه ها قدرت خود را توسعه می دهند. سپس اطلاعات بصری قبل از رسیدن به یک لایه متراکم که در آن مقادیر Q برای تمام اقدامات موجود عامل ارائه می شود، از لایه های دیگر شبکه عبور داده می شود.
شبکه Q با یک تابع ضرر، معمولاً میانگین مجذور تلفات، بهینهسازی میشود تا تفاوت بین مقدار Q پیشبینیشده و هدفگذاری شده را تعیین کند. در اینجا، مقادیر Q هدفمند مستقیماً از معادله بلمن میروند و مقادیر Q فعلی را به پاداشهای آینده و حداکثر Q-مقدارهای حالتهای بعدی متصل میکنند. به این ترتیب، یک طرح بازگشتی به تخمین ارزش بلند مدت با هر اقدام انجام شده کمک می کند و انتخاب های عامل را هدایت می کند.
به این ترتیب عامل به صورت پویا و همیشگی آموزش می بیند و تجربه جدیدی از تعامل با محیط بازی را جمع آوری می کند. بنابراین، عامل می تواند تصمیمات بهتری بگیرد، زیرا به صورت پویا شبکه را با چنین ارتقاهایی به روز می کند که امکان اصلاح در تقریب های Q-value را فراهم می کند. بازپخش تجربه به شبکه اجازه می دهد تا از تجربیات ذخیره شده قبلی دوباره بیاموزد، بنابراین همبستگی بین تجربیات متوالی را شکسته و ثبات و استحکام یادگیری را تضمین می کند.
علاوه بر این، با اضافه کردن به آن، نوسانات در فرآیند یادگیری را با استفاده از تکنیک هایی مانند شبکه های هدف و پخش مجدد تجربه متوقف می کند. روشهای خارج از سیاست با شبکههای هدف، مقادیر هدف را برای مدت زمان ثابتی حفظ میکنند تا نوسانات و واگرایی در تخمین Q-value را مهار کنند.
تحت فرآیند یادگیری تکراری، شبکه Q به تدریج در پیش بینی مقادیر Q با افزایش دور آف بهتر می شود، بنابراین عامل قادر به تصمیم گیری بهینه است. این یک فرآیند انطباق مادامالعمر و مستمر برای عامل خواهد بود تا محیط بازی را کشف کند، خود را با چالشهای جدید هماهنگ کند و عملکرد را در طول زمان افزایش دهد، با یک مکانیسم آموزشی خوب طراحیشده برای تکامل یک عامل RL ماهر ضروری است.
معماری Q-Network مطابق با الزامات خانم PacMan خواهد بود. شبکه از دو بخش اصلی تشکیل شده است: یک بخش کانولوشن و یک بخش کاملاً متصل (متراکم). قسمت کانولوشن از سه لایه تشکیل شده است. لایه اول از پیکسل های خام ورودی می گیرد و ۳۲ فیلتر با اندازه ۸ × ۸ را با گام ۴ اعمال می کند. سپس ReLU برای غیر خطی بودن استفاده می شود. این کار برای گرفتن ویژگی های گسترده و مهم در مراحل اولیه پردازش انجام می شود. لایه دوم از ۶۴ فیلتر با اندازه ۴ × ۴ با گام ۲ استفاده می کند تا تاکید بیشتری بر الگوهای فضایی ریز دانه و دقیق داشته باشد. لایه سوم از ۱۲۸ فیلتر در اندازه ۳ × ۳ با گام ۱ استفاده می کند تا جزئیات دقیق تری را ثبت کند. همه لایهها با یک فعالسازی ReLU دنبال میشوند که غیرخطی بودن را معرفی میکند و شبکه را در تشخیص الگوهای بسیار پیچیده بهتر میکند.
سپس داده های پردازش شده صاف می شوند و پس از مرحله کانولوشن به قسمت متراکم هدایت می شوند. این شامل یک عملیات خطی است که به ۵۱۲ نورون از خروجی کانولوشنال متصل می شود و به دنبال آن فعال سازی ReLU برای یادگیری مناسب و غیرخطی بودن انجام می شود. یک افت احتمال ۰٫۵ برای جلوگیری از برازش بیش از حد و برای اجرای منظم برای تعمیم بهتر اضافه شد. سپس اطلاعات به ۲۵۶ نورون می رود و در نهایت با یک عملیات خطی، مقادیر Q برای هر اقدامی که عامل می تواند در بازی انجام دهد، به دست می آید. این لایههای پیچیده و متراکم، بلوکهای سازنده یک معماری کامل هستند که برای پردازش ورودی بصری مؤثر و شناسایی الگوهای پیچیده در بازی و تبدیل آنها به عملکرد بهینه بازی با انتخاب استراتژیهای اکشن استفاده میشوند. اندازه لایهها، ابعاد فیلترها و انتخاب توابع فعالسازی در معماری دادهشده بهگونهای انتخاب میشوند که پیچیدگی مربوط به محیط خانم PacMan در نظر گرفته شود، در نتیجه اطمینان میدهد که عامل میتواند در محیط اطراف حرکت کند و استراتژیک ایجاد کند. تصمیمات به طور موثر بر اساس ورودی بصری دریافت می شود.
۴٫۳٫ اجرای بازپخش تجربه برای یادگیری پایدار
بازپخش تجربه یک جزء حیاتی در استراتژی RL است، به ویژه برای پرداختن به چالش هایی مانند همبستگی های زمانی و ماهیت در حال تکامل داده ها در چنین محیط هایی. برخلاف روشهای سنتی که مستقیماً از تجربیات متوالی یاد میگیرند، که میتواند به دادههای مرتبط و مسیرهای یادگیری ناپایدار منجر شود، بازپخش تجربی تجربیات یا انتقالهای فردی را ذخیره میکند و بهطور تصادفی از آنها بازدید میکند. این انتقالها شامل تاپلهایی هستند که شامل وضعیت فعلی، اقدام انجام شده، پاداش بهدستآمده، وضعیت زیر و نشاندهنده پایان یافتن بازی پس از عمل است. این تاپل ها در یک Replay Buffer ذخیره می شوند، یک بانک حافظه که به طور مداوم در هنگام تعامل عامل با بازی پر می شود.
کارایی Replay Buffer در جزئیات اجرای آن است. به طور معمول، بافر در اندازه معینی ثابت می شود، به عنوان مثال، ۱ میلیون انتقال، تا تضمین شود که تجربیات گسترده اما متنوع آن را پر می کند و منابع حافظه را بیش از حد مصرف نمی کند. اگر تجربه قدیمی خود را توجیه کند، آنگاه میتوان زبالههایی را جمعآوری کرد تا به تجربیات جدید فضا داده شود، بنابراین کمیت دادههای جدید را با دادههای تاریخی متعادل میکند.
معمول ترین انطباق استراتژی ها، نمونه گیری تصادفی یکنواخت است که در آن هر آزمایش با احتمال یکسان انتخاب می شود. تصادفی بودن این استراتژی زنجیره تجربیات مرتبط نزدیک را خواهد گسست و حتی خاطرات ارزشمند قدیمیتر نیز میتوانند بخشی از فرآیند بهروزرسانی باشند و مسیر یادگیری کامل را پایدار و موثر نشان دهند.
به عبارت دیگر، Replay Buffer امکان استفاده مکرر از دادهها را برای فرآیند یادگیری فراهم میکند و عامل را قادر میسازد تا چندین بار از یک تجربه یاد بگیرد. این امر بهویژه در محیطهای پیچیدهای مانند محیط خانم PacMan، که در آن تجربیات کمیاب اما ارزشمند واقعاً به حساب میآیند، بسیار مهم خواهد بود. سپس یک عامل می تواند دوباره وارد این تجربه شود، چالش بازی را بیشتر درک کند و یاد بگیرد که چگونه حتی بهتر سازگار شود. این اساساً تصادفی و تنوع را در روند یادگیری القا می کند، از بافر Replay که بعدا توضیح داده خواهد شد. با انجام این کار، این روش همبستگی زمانی را کاهش می دهد و تجربه دریافت شده توسط عامل با تعاملات مختلف گذشته را متنوع می کند. با هم، الگوی مورد نیاز در DRL را با خانم PacMan ترسیم می کند.
۴٫۴٫ نقش و وظایف عامل DQN
عامل DQN در سازماندهی تعاملات پیچیده بین عامل و محیط بازی خانم PacMan نقش اساسی دارد. این مسئولیت دوگانه تصمیم گیری در مورد اقدامات عامل و آموزش Q-Network بر اساس نتایج این اقدامات را بر عهده دارد. انتخاب اقدام در عامل DQN بر اساس یک اصل متعادل کننده کاوش و بهره برداری عمل می کند. در ابتدا، زمانی که دانش عامل از محیط محدود است و مقادیر Q آن تصفیه نشده است، عامل بر کاوش تأکید می کند. این معمولاً از طریق یک استراتژی حریصانه اپسیلون مدیریت می شود. عامل به طور تصادفی اقدامات با احتمال تعریف شده توسط اپسیلون را برای کاوش در محیط انتخاب می کند و برای تصمیم گیری های باقی مانده به بالاترین اقدامات Q-value تکیه می کند و از دانش فعلی خود استفاده می کند. همانطور که آشنایی عامل با محیط بهبود می یابد و قابلیت اطمینان Q-value آن افزایش می یابد، اپسیلون به تدریج کاهش می یابد و تعادل به سمت بهره برداری متمایل می شود.
پس از اجرای اکشن، عامل DQN نقش مهمی در آموزش Q-Network ایفا می کند. از طریق بافر Replay، دستهای تصادفی از تجربیات را نمونهبرداری میکند و مقادیر Q هدف را بر اساس پاداشهای بهدستآمده و همچنین مقادیر Q پیشبینیشده در حالات آینده محاسبه میکند. هدف الگوریتم DQN این است که این مقادیر Q هدف را به آنچه که از تخمینهای معادله بلمن اندازهگیری میکنیم (همانطور که توسط شبکه Q-شبکه ما پیشبینی میشود) نزدیکتر کند – معمولاً از طریق گرادیان نزول یا برخی از انواع آن. در تئوری، همانطور که مدل به طور مکرر اقدامات را انتخاب می کند، تجربه را جمع می کند و شبکه را در یک حلقه بی پایان به روز می کند، این چرخه یادگیری به تدریج هم استراتژی ها و هم درک بازی عامل را بهبود می بخشد.
مقادیر Q-هدف نیز به صورت دوره ای به روز می شوند. این بهروزرسانیها بهجای بهروزرسانی مداوم و خطر بیثباتی، پخش میشوند، که مسیر تدریجیتری را برای یادگیری که سازگار و پایدار است، تسهیل میکند.
به طور خلاصه، عامل DQN مسلماً یکی از مهم ترین بخش ها است، زیرا ارتباط بین کاوش و یادگیری را فراهم می کند. آن راه خود را در دنیای خانم پکمن مانور می دهد و از موفقیت و شکست خود برای تکامل استراتژی ها و تنظیم بیشتر Q-Network درس می گیرد. بسته به اقداماتی که عامل انجام میدهد و بازخوردی که دریافت میکند، از آن یاد میگیرد که بهتر از نسخه قدیمی در این محیط بازی کند.
۴٫۵٫ اجرا و نگهداری از حلقه آموزشی
دومی حلقه آموزشی را توصیف می کند – مرحله پویایی که در آن استراتژی RL اجرا می شود. در طول یک بازه از قسمتها در این فرآیند تکراری، عامل DQN با محیط بازی Ms. PacMan تعامل میکند و تصمیمگیری میکند، بازخورد آن تصمیمها را دریافت میکند، تجربیات مربوط به اقدامات انجامشده و پاداشها را برای آنها در حافظه Replay ذخیره میکند، و آن را بهبود میبخشد. استراتژی با استفاده از این تجربیات با بهروزرسانی شبکه Q به صورت دستهای از نمونهای از تاپلهای تجربه ذخیرهشده نمونهبرداری شده از توزیع یکنواخت روی تمام بافرهای حافظه. این بخش به پیچیدگی های حلقه آموزشی و نحوه عملکرد آن می پردازد.
این حلقه شامل اپیزودهای زیادی است که از ابتدا تا انتها در هر بازی کامل خانم PacMan یک قسمت وجود دارد. در ابتدای هر قسمت، حالت بازی ریست می شود و یک بازی جدید برای عامل شروع می شود. در طول یک اپیزود، این عامل وضعیت جدید خود را مشاهده میکند، اقدامی را انجام میدهد که بر اساس شکلی آرام از خطمشی حریصانه اپسیلونی خود تصمیم میگیرد که در زمان ارزیابی، بدون کمکهای از دست دادن راهنمایی از حرکتهایی که قبلاً توصیه شده اما هنوز انجام نشده است، عادی میشود، همانطور که توسط فعال شده است. با اعمال تقویت معوق حرکت می کند و در نهایت آن توصیه (به تعویق افتاده) را در بازی ارائه می دهد. سپس محیط بازی به حالت بعدی تغییر می کند و بسته به اینکه عمل چقدر خوب انجام شده است، جایزه می دهد. اینها شامل انتقال حالت، اقدام انتخاب شده، پاداش دریافتی و وضعیت پایان بازی است که به عنوان یک تجربه در بافر Replay ذخیره می شوند.
وقتی تجربیات کافی جمع آوری شد، عامل Q-Network را با استفاده از دسته ای که به طور تصادفی از بافر Replay انتخاب شده است آموزش می دهد. این آموزش با تنظیم وزن های شبکه برای به حداقل رساندن تفاوت بین مقادیر Q پیش بینی شده و مقادیر Q هدف کار می کند. این روش مبتنی بر بازخورد تضمین میکند که نماینده استراتژی خود را در طول زمان تنظیم میکند تا عملکرد بهتری را به صورت افزایشی ارائه دهد.
یکی از بخش های مهم حلقه آموزشی این است که وزن ها را برای شبکه Q ذخیره می کنیم. این وزن ها ممکن است تکرارهای بی شماری را در طول عمر عامل ایجاد کنند، بنابراین باید به صورت دوره ای ذخیره شوند. به عنوان نقاط بازرسی که ذخیره می شوند، اینها اهداف مختلفی را انجام می دهند. اولی اجازه شکست را می دهد (اگر چیزهایی که به آنها وابسته هستید پایین بیایند، همچنان پیشرفت خواهید کرد). دوم، امکان ارزیابی نسبتاً سریع عامل را فراهم می کند و در نتیجه اجمالی اجمالی به پیشرفت یادگیری آن ارائه می دهد. در غیر این صورت، وزنهای ذخیرهشده را میتوان برای انتقال یادگیری به کار مشابه دیگری یا تنظیم دقیق روی کارهای جدید استفاده کرد.
اساساً، حلقه آموزش همچنین جایی است که واکنش رفتاری عامل ما به این فرآیند یادگیری تدریجی مانند استراتژی بازی ظاهر می شود. این روند در چندین تکرار ادامه می یابد، زیرا عامل از طریق یادگیری تقویت شده از یک بازیکن تازه کار به یک بازیکن خبره خانم PacMan تبدیل می شود و در عین حال مطمئن می شود که درس های آموخته شده ثبت و ذخیره می شوند تا در ارزیابی های بعدی مورد استفاده قرار گیرند.
۴٫۶٫ ارزیابی عملکرد عامل
یک مرحله مهم پس از حلقه تمرین فشرده، ارزیابی عملکرد نماینده ما است. این ارزیابی نه تنها توانایی یک عامل در محیط Ms. PacMan، بلکه نقاط ضعف احتمالی را نیز بررسی می کند. پاسخگویی عامل با توجه به همان ویژگی هایی که با آنها اندازه گیری شده است ارزیابی می شود.
اولین مرحله در این ارزیابی، تغییر عامل به حالت صرفاً بهرهبرداری است، که شامل غیرفعال کردن ویژگی انتخاب عمل تصادفی (یعنی صفر کردن اپسیلون در خطمشی epsilon-greedy) است. این حالت عامل را وادار می کند که صرفاً به دانش اکتسابی خود وابسته باشد و اقداماتی را کاملاً بر اساس مقادیر Q ارائه شده توسط Q-Network انتخاب کند. این رویکرد نمایش دقیقی از یادگیری عامل و مهارت های کاربردی آن ارائه می دهد.
در این مرحله، عامل درگیر تعدادی اپیزود میشود که فرآیند آموزش را منعکس میکند، اما با دو تمایز کلیدی. اول، هیچ یادگیری یا تنظیم وزن Q-Network بر اساس اقدامات عامل وجود ندارد. دوم، سوابق دقیق از هر اقدام، انتقال وضعیت، و پاداش دریافت شده نگهداری می شود. شاخص اولیه عملکرد عامل، کل پاداش انباشته شده در هر قسمت است.
با این وجود، تکیه بر یک معیار واحد ممکن است به طور کامل توانایی های عامل را در بر نگیرد. به این ترتیب، معیارهای جایگزین در نظر گرفته می شود. اینها ممکن است تعداد سطوح تکمیل شده، میانگین مقدار ارواح خورده شده در هر قسمت یا تعداد دفعاتی باشد که میوه جایزه گرفته شده است. معیارهای اضافی تصویر دقیق تری از گیم پلی استراتژیک عامل ارائه می دهد. از آنجایی که این یک بازی تکراری با تصادفی و تصادفی در رفتار ارواح، و همچنین ظاهر میوه های مختلف روی صفحه است، بررسی عملکرد یک عامل در چندین قسمت مهم است. به عبارت دیگر، این میانگین ها معیار فرضی واقعی را تشکیل می دهند، که همچنین تمام نوسانات تصادفی را از بین می برد و معیاری از قابلیت های عامل واقعی را نشان می دهد.
مرحله ارزیابی همچنین از کمک های بصری برای کمک به تجزیه و تحلیل کمی استفاده می کند. نقشههای حرارتی از متداولترین مسیرهای مامور، یا طرحهایی از مسیر انباشت پاداش در طول قسمتها، میتواند برخی از نشانههای بصری کلیدی درباره تصمیمهای استراتژیک اتخاذ شده توسط یک عامل ارائه دهد.
۴٫۷٫ تجسم بازی عامل
دیدن مدل در عمل به نشان دادن عملکرد عامل در بازی از طریق خانم PacMan با استفاده از RL کمک می کند. مانند تماشای بازی یک بازیکن انسانی در پیچ و خم، این تجسم داستانی جالب و جامع از استراتژیهای عامل، چالشهایی که با آن مواجه میشود و پیشرفتهای بالقوه ارائه میدهد. مامور از طریق تعاملات خود با اطرافیان خانم پکمن، داستانی را تعریف میکند، و فراتر از پیمایش ساده هزارتویی میرود و شامل عادات آموختهشده، ارزیابی تهدیدات و لحظات مهم تصمیمگیری میشود. تجزیه و تحلیل کامل و درک مسیر عامل از طریق این نمایش بصری تسهیل می شود.
برای این منظور، یک صفحه نمایش شبیهسازی شده برای ضبط گیمپلی واقعی در زمان واقعی توسط یک مامور – کل انچیلادا، از جمله هر مرحله، تجربه نزدیک به مرگ، و گلولههای قدرتی که جمعآوری شدهاند، ایجاد شد. این کاتالوگ بصری به عنوان وسیله ای راحت و شهودی برای تأیید است که با آن شروع کنید. این به محققان، توسعه دهندگان، طرفداران و سایر ذینفعان اجازه می دهد تا نتایج فرآیند آموزش را به صورت پویا ببینند. این بینش مهمی را در مورد استراتژی ناوبری یک عامل ارائه می دهد: چقدر می تواند از شکاف های باریک عبور کند؟ آیا استفاده از گلوله های قدرت برای تعقیب ارواح استراتژیک است یا مهم ترین چیزی است که پیچ و خم کاملاً خالی است؟ هنگامی که به طور ناگهانی، میوه های پاداش ظاهر می شوند، چگونه واکنش نشان می دهد؟
این نمایش بصری همچنین به اشکال زدایی و تنظیم عامل کمک می کند. عجیب و غریب یا روند تصمیم گیری بد، که در شکل داده کاملاً قابل مشاهده نیستند، اکنون می توانند به راحتی از طریق این نسخه مختصر شناسایی شوند. این در نهایت به معنای تغییرات سریعتر و انعطاف پذیرتر است.
نتیجهگیری: آخرین اما نه کماهمیت، این اقدامات به صورت بصری ضبط میشوند که دامنه وسیعی دارد. اقدامات را می توان به طور گسترده تری در جامعه ما به اشتراک گذاشت – در ارائه ها نشان داده شده یا در زمینه آموزشی برای کمک به نشان دادن اصول و شیوه های DRL استفاده می شود.
در نهایت، این به ما نشان میدهد که تجسمهای ویدیویی از گیمپلی فقط برای اینکه عوامل ما (بیشتر DRL) کمتر سیاهباکس به نظر برسند، نیست، بلکه برای ارائه یک ابزار تشخیصی حیاتی برای اشکالزدایی و اصلاح عوامل و همچنین کمک به آموزش کاربران در مورد سیستم مورد استفاده است. مثال دیگر می تواند سطح خوبی از نمایش اقدامات ارائه شده توسط عامل، ارائه بازخورد مفید و نشان دادن چگونگی تعمیم DRL در محیطی مانند Ms. PacMan باشد.
۴٫۸٫ الگوریتم بهینه سازی پیشنهادی برای تنظیم فراپارامتر
در چارچوب پیشنهادی، ES تلفیقی از قدرت انرژی در SOA و توانایی تحمل دره انرژی در EVO است. برای انجام این کار، هدف ما استفاده از قدرت های این الگوریتم ها با تنظیم دقیق فراپارامترهایی است که در قلب مکانی که عامل DQN انجام می دهد، یعنی نرخ یادگیری (lr) و ضریب تخفیف (γ)، که بر روی آن تأثیر می گذارد. آینده نگری و عملکرد یادگیری عامل DQN ما.
Snake Optimization یک الگوریتم بهینه سازی هوشمند نسبتاً جدید است. توسط هاشم و همکاران بر اساس رفتار مارها به ویژه مدل های تغذیه، مبارزه و جفت گیری پیشنهاد شد. چیزی که این الگوریتم را از سایر الگوریتم های فراابتکاری متمایز می کند، شبیه سازی استراتژی های پیچیده بقای مارها است. در کار خود، اولا، SO جمعیت را به مردان و زنان مشخص می کند. ثانیاً با جمعیت های تصادفی شروع می شود و در نهایت در رفتار تغذیه و جفت گیری آنها با توجه به اهمیت دما برای حیوانات خونسرد مانند مارها تأثیر دما را مشخص می کند. مارها در دو فاز عمل می کنند. مرحله اول مرحله اکتشاف است، به این معنی که غذای کافی در محیط وجود ندارد. در این حالت، مارها به طور تصادفی به دنبال غذا می گردند. هنگامی که در دسترس بودن غذا کافی باشد، مرحله بهره برداری با رفتار مارها تعریف می شود، بنابراین رفتار جستجوی مارها کنترل می شود. به این دو مرحله اکتشاف و بهرهبرداری، بازنماییهای ریاضی داده میشود – معادلات خاصی برای موقعیتهای نر و ماده برای هر یک از مراحل. چندین حالت و مکانیسم، مانند حالت های مبارزه و جفت گیری نیز مشخص می شود. با این حال، این مکانیسمها توسط محیط، بهویژه دما، ایجاد میشوند، بنابراین الگوریتم را بسیار پیچیدهتر و با درجه بهینهسازی بالاتری میسازد.
EVO بر اساس اصل فیزیک ذرات، عمدتاً رفتار ذرات زیر اتمی است. این بر اساس اصل پایداری و پوسیدگی ذره است. در جهان، بیشتر ذرات ناپایدار هستند، تمایل به انتشار انرژی و تبدیل به اشکال پایدارتر دارند. EVO بر اساس مفهوم “دره انرژی” است – یک حالت استعاری که در آن ذرات در پایدارترین شکل خود هستند و توسط سطوح بهینه نوترون (N) و پروتون (Z) محدود می شوند. در این حالت، ذرات سعی می کنند با تنظیم نسبت N/Z خود، نزدیک شدن به این دره انرژی یا باند پایداری، پایداری خود را افزایش دهند. این مفهوم برای پایداری ذرات سنگینتر، که به نسبت N/Z بالاتری برای پایداری آنها نیاز دارند، اساسیتر است. ایده این است که Energy Valley Optimization تمایلات طبیعی ذرات را تقلید می کند و از ایده پایداری و انتقال برای هدایت جستجوها برای راه حل های بهینه در فضای مشکل استفاده می کند. این یک الگوریتم جدید است که از ویژگی های اساسی فیزیک ذرات در بهینه سازی الگوریتمی استفاده می کند.
این الگوریتم زمانی شروع می شود که SOA جمعیتی از “مارها” را مقداردهی اولیه می کند، که هر کدام مجموعه ای از فراپارامترها را نقل می کنند. این مارها یک منظره استعاری مشابه عملکرد عامل DQN را تحت تنظیمات هایپرپارامترهای مختلف عرض می کنند. در همان زمان، EVO جمعیت جداگانهای را وارد میکند که تحت ارزیابی قرار میگیرد، که به موجب آن این افراد در رابطه با عملکرد مدیریت شخصیت بازی ارزیابی میشوند. مرحله بعدی اکنون روشهای SOA و EVO را ترکیب میکند، به این صورت که مارهای با بهترین عملکرد از SOA با افراد برتر جمعیت EVO ترکیب میشوند. بنابراین، این اجازه می دهد تا بهترین هایپرپارامترها به جمعیت دیگر پرش کنند. از این رو، متقاطع هایپرپارامترهای قوی تر، فرزندانی را ارائه می دهند که می توانند بهتر از پیشینیان باشند. این روی هر یک از جمعیت ها از طریق جهش اعمال می شود، از این رو آنها را متغیر می کند و امکان جستجوی گسترده در فضای فراپارامتر را فراهم می کند. همانطور که در طول نسلها پیشرفت میکند، SOA و EVO با هم پیش میروند تا بهترین مجموعه ابرپارامترها را که در محیط Ms. PacMan برای عملکرد خوب امیدوارکننده هستند، به دست آورند. سپس، دوباره، این روند تا زمانی ادامه می یابد که نوعی معیار همگرایی برآورده شود، یا تا زمانی که به تعداد مشخصی از نسل ها برسد. عامل DQN با فراپارامترهای بهینه شده به دست آمده از این دو الگوریتم پیکربندی شده است. عامل اجازه دارد بازی را به درستی انجام دهد و عملکرد آن در بسیاری از قسمت ها ردیابی و بهینه سازی می شود.
برای تایید اثربخشی هایپرپارامترهای تنظیم شده توسط ESO، یک ارزیابی گسترده انجام شده است. این نه تنها شامل ارزیابی کمی از پاداشها میشود، بلکه شامل تجزیه و تحلیل کیفی از طریق گیمپلی تجسمشده، ارائه بینشهایی درباره تصمیمگیری عامل و گیمپلی استراتژیک است. مراحل دقیق در الگوریتم ۱ نشان داده شده است.
الگوریتم ۱ Energy Serpent Optimizer (ESO) |
|
فرآیند ارزیابی، انتخاب، اصلاح نژاد و جهش در طول نسلها انجام میشود که به تنظیم دقیق فراپارامترها کمک میکند. سپس این فرآیند سعی میکند تا مارهای کمتناسب را با فرزندانی جایگزین کند که نتایج امیدوارکنندهای دارند و با تکرار فرآیند تا رسیدن به فراپارامترهای بهینه، کل جمعیت را به جلو میبرد. این الگوریتم تلاش میکند تا مارهای کمتناسب را با فرزندان امیدوارتر جایگزین کند و به تدریج کل جمعیت را در جستجوی ترکیبهای فراپارامتر بهینه به جلو سوق دهد. این فرآیند یک فرآیند تصفیه شده جدید را به آموزش عوامل RL می دهد و آنها را آماده می کند تا با حداکثر کارایی در محیط های تصمیم گیری پیچیده کار کنند.
۶٫ بحث و مفاهیم
ESO تحقق یافته با تناسب اندام ترکیبی در یک بازی پیچیده پیچیده مبتنی بر محیط پیچ و خم غنی اطلاعات فشرده ای را در مورد استراتژی هوش مصنوعی تطبیقی، نقش و تاثیر در یک محیط پویا ارائه می دهد. مسیرهای پیچیده در پیچ و خم، همراه با بقیه عناصر بازی، بستری را برای عامل هوش مصنوعی ایجاد میکند تا فرآیند تصمیمگیری خود را در شرایط بسیار فشرده تنظیم کند که مستلزم فشار زمان و خطرات مختلف پراکنده در آن است. مسیر.
موفقیت ESO در تکامل فراپارامترها را می توان از توانایی حاصل از عامل برای برداشت امتیاز قابل توجهی در محدوده زمانی تعیین شده مشاهده کرد. این به نوبه خود نه تنها کارایی رویکرد مبتنی بر الگوریتم ژنتیک را تأیید می کند، بلکه اهمیت انتخاب و به روز رسانی مجموعه صحیح فراپارامترها را تأیید می کند. به طور جزئی، نرخ یادگیری و عامل تخفیف نقش حیاتی در تعریف منحنی یادگیری عامل و تسلط بر هنر به حداکثر رساندن پاداش و به حداقل رساندن خطرات دارند.
علاوه بر این، امتیاز بهدستآمده توسط عامل، ۱۱۰۰٫۰، یک معیار سنجش است که میتوان آن را از نظر مقایسه با سایر مدلهای RL یا تکنیکهای بهینهسازی بیشتر تحلیل کرد. این معیار عملکرد یک نتیجه قوی از فرآیند تکاملی است که یک روش تجربی برای مقایسه پیکربندیهای فراپارامتر مختلف ارائه میدهد.
پیامدهای یافته ها بسیار فراتر از محدوده عرصه بازی است. ابزارها و روشهای مورد استفاده در اینجا را میتوان به مجموعهای از برنامههای کاربردی واقعی تعمیم داد که در آنها تصمیمگیری مستقل حیاتی است، مانند رباتیک، وسایل نقلیه خودمختار، و مدیریت سیستمهای پیچیده. ویژگی بارز سیستمهای هوش مصنوعی پیشرفته این است که میتوانند در محیطهای متغیر تکامل یابند و سازگار شوند و ESO برای این ویژگی مثال زدنی است.
در نتیجه، استفاده از ESO در یک محیط بازی مبتنی بر پیچ و خم در مورد ویژگیهای عوامل هوش مصنوعی که در تنظیمات پیچیده و متغیر عمل میکنند بسیار آموزنده بوده است. این انطباقها را نشان میدهد که در حال انجام و نشانههای کلی کنش هوشمند هستند، پیشنیازهایی برای سیستمهای هوش مصنوعی پیشرفته که در چالشهای چندگانه محیط مجازی و واقعی عمل میکنند.
استخراج ظرفیتهای فردی هر دو SOA و EVO در یک محیط بازی پیچیده مبتنی بر پیچ و خم به ما کمک میکند تا استراتژیهای بهینهسازی تطبیقی را در محیطهای پویا و محدود درک کنیم. SOA در الهام بیولوژیکی خود سعی می کند تعادل استراتژیک بین اکتشاف و بهره برداری را حفظ کند، مشابه رفتار جستجوی ثابت مارها. این رویکرد به هوش مصنوعی اجازه می دهد تا از طریق درک شهودی فضا راهی در سراسر پیچ و خم پیدا کند، اما در صورتی که محیط دارای پیچیدگی بالاتر یا تغییرات شدید در پویایی بازی باشد، ممکن است در تصمیم گیری کمتر از حد مطلوب باشد.
با این حال، EVO از کمینهسازی سطح انرژی برای یافتن مسیرهای مناسب استفاده میکند و با کاهش مداوم سطوح انرژی بالقوه به روشی روشمند، خود را به عنوان یک رویکرد امیدوارکننده برای فرآیند ناوبری پیچ و خم شکل میدهد. با این حال، عملکرد آن میتواند به دلیل ماهیت گاه بیش از حد قطعی که همیشه امکان تطبیق کامل با ماهیت تصادفی موانع دینامیکی یا تغییر شرایط بازی را فراهم نمیکند، به خطر بیفتد.
اگرچه هم SOA و هم EVO پتانسیل قابلتوجهی را در کاوش و تعامل با عناصر آن نشان میدهند، آنها نیز دارای محدودیتهایی هستند که به شایستگی کلی آنها در تضمین نمرات بالا در بازههای زمانی اختصاص داده شده مضر است. به سادگی، تعادل اکتشافی که SOA روی آن قرار دارد، همیشه به یک مسیر بهینه منجر نمی شود، به خصوص در پیچ و خم هایی با الگوهایی که بسیار نامنظم و غیرقابل پیش بینی هستند. همچنین، ماهیت قطعی EVO ممکن است انعطافپذیری آن را در محیطهای با تغییرات سریع یا بسیار تصادفی به خطر بیاندازد، در نتیجه منجر به استراتژیهای غیربهینه میشود.
از سوی دیگر، با این حال، ESO یک راه حل قوی تر و سازگارتر است که نقاط قوت SOA و EVO را در بر می گیرد، در حالی که در عین حال با اجرای یک الگوریتم ژنتیک بر نقاط ضعف آنها غلبه می کند. با این قابلیت، ESO میتواند فراپارامترهای خود را تکامل دهد و فرآیندهای خود را در جهت تصمیمگیری توسط عامل هوش مصنوعی به شیوهای سازگار و پاسخگو در برابر چالشهای پیچیده ارتقا دهد. ESO عملکرد خود را با کسب امتیاز ۱۱۰۰٫۰ در بازی مبتنی بر پیچ و خم ثابت کرده است و چنین برتری بر اساس نرخ یادگیری تطبیقی بهتر، تنظیم ضریب تخفیف و انعطاف پذیری استراتژیک تر است. با آموختن از شکستهای SOA و EVO، ESO برای حرکت در پیچ و خم با افزایش کارایی و اثربخشی مجهزتر بود، بنابراین کاربرد چنین استراتژیهای بهینهسازی ترکیبی و تکاملیافته را در محیطهای پیچیده و پویا نشان داد.
بنابراین، با چنین ارزشی در SOA و EVO برای بینش در مورد قابلیت بهینهسازی تنظیمات محدود، ESO یک رویکرد تطبیقی یکپارچه کاملا منحصر به فرد است که راهحلهای عالی را برای سیستمهای هوش مصنوعی بسیار پیشرفته، با استفاده از انطباق و یادگیری سریع در زمینههای غیرقابل پیشبینی و تنوع ارائه میدهد.
منبع: https://www.mdpi.com/2673-2688/5/3/57