روش جدید یادگیری تقویتی از نشانه های انسانی برای اصلاح اشتباهات خود استفاده می کند

آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.


دانشمندان در دانشگاه کالیفرنیا، برکلی یک روش جدید یادگیری ماشین (ML) را توسعه داده اند که “یادگیری تقویتی از طریق مداخله بازخورد(RLIF)، که می تواند آموزش سیستم های هوش مصنوعی را برای محیط های پیچیده آسان تر کند.

RLIF ادغام می شود یادگیری تقویتی با یادگیری تقلیدی تعاملی، دو روش مهم که اغلب در آموزش سیستم های هوش مصنوعی استفاده می شود. RLIF می تواند در تنظیماتی مفید باشد که سیگنال پاداش به راحتی در دسترس نیست و بازخورد انسانی بسیار دقیق نیست، که اغلب در آموزش سیستم های هوش مصنوعی برای روباتیک اتفاق می افتد.

یادگیری تقویتی و یادگیری تقلیدی

یادگیری تقویتی در محیط هایی که عملکردهای پاداش دقیق می توانند فرآیند یادگیری را هدایت کنند مفید است. این امر به ویژه در سناریوهای کنترل بهینه، بازی و تراز کردن مدل‌های زبان بزرگ (LLM) با ترجیحات انسانی، جایی که اهداف و پاداش‌ها به وضوح تعریف شده‌اند، مؤثر است. مشکلات رباتیکبا اهداف پیچیده و عدم وجود سیگنال‌های پاداش صریح، چالش مهمی برای روش‌های سنتی RL ایجاد می‌کند.

در چنین تنظیمات پیچیده، مهندسان اغلب به یادگیری تقلیدی، شاخه ای از یادگیری نظارت شده، می پردازند. این تکنیک نیاز به سیگنال‌های پاداش را با استفاده از مدل‌های آموزشی با استفاده از نمایش‌های انسان یا سایر عوامل دور می‌زند. به عنوان مثال، یک اپراتور انسانی ممکن است یک بازوی رباتیک را در دستکاری یک شی راهنمایی کند و یک مثال بصری و عملی برای تقلید هوش مصنوعی ارائه دهد. سپس عامل با این تظاهرات به رهبری انسان به عنوان نمونه های آموزشی رفتار می کند.

رویداد VB

تور AI Impact Tour

در تور AI Impact VentureBeat که به شهر نزدیک شما می آید، با جامعه هوش مصنوعی سازمانی ارتباط برقرار کنید!

بیشتر بدانید

علیرغم مزایایی که دارد، یادگیری تقلیدی خالی از اشکال نیست. یک مسئله قابل توجه «مشکل عدم تطابق توزیع» است، که در آن یک نماینده ممکن است با موقعیت‌هایی خارج از محدوده تمرینات خود مواجه شود که منجر به کاهش عملکرد شود. “یادگیری تقلیدی تعاملی” با ارائه بازخورد بلادرنگ توسط کارشناسان برای اصلاح رفتار عامل پس از آموزش، این مشکل را کاهش می دهد. این روش شامل یک متخصص انسانی است که سیاست عامل را در عمل نظارت می کند و هر زمان که عامل از رفتار مورد نظر منحرف می شود، با نمایش های اصلاحی وارد عمل می شود.

با این حال، یادگیری تقلید تعاملی به مداخلات تقریباً بهینه بستگی دارد، که همیشه در دسترس نیستند. به خصوص در رباتیک، ورودی انسان ممکن است به اندازه کافی دقیق نباشد تا این روش ها کاملاً مؤثر باشند.

ترکیب یادگیری تقویتی و یادگیری تقلیدی

در مطالعه خود، دانشمندان دانشگاه کالیفرنیا برکلی یک رویکرد ترکیبی را بررسی کردند که از نقاط قوت یادگیری تقویتی و یادگیری تقلید تعاملی استفاده می کند. روش آنها، RLIF، مبتنی بر یک بینش ساده است: به طور کلی تشخیص خطاها آسان تر از اجرای اصلاحات بی عیب و نقص است.

این مفهوم به‌ویژه در کارهای پیچیده‌ای مانند رانندگی مستقل، که در آن مداخله راننده ایمنی – مانند ضربه زدن به ترمز برای جلوگیری از برخورد – نشان دهنده انحراف از رفتار مطلوب است، اما لزوماً پاسخ بهینه را مدل نمی‌کند، مرتبط است. عامل RL نباید یاد بگیرد که از ترمز ناگهانی تقلید کند، بلکه یاد بگیرد که از موقعیتی که باعث ترمز راننده شده است اجتناب کند.

«تصمیم به مداخله در طول یک قسمت تقلید تعاملی خود می‌تواند سیگنال پاداشی برای یادگیری تقویتی ارائه دهد، و به ما امکان می‌دهد روش‌های RL را که تحت مفروضات مشابه اما بالقوه ضعیف‌تر به عنوان روش‌های تقلید تعاملی عمل می‌کنند، مثال بزنیم، از مداخلات انسانی بیاموزیم، اما فرض نکنیم که چنین مداخلاتی هستند. بهینه،” محققان توضیح می دهند.

مانند یادگیری تقلید تعاملی، RLIF عامل را از طریق دنباله ای از نمایش ها و به دنبال آن مداخلات تعاملی آموزش می دهد. با این حال، فرض نمی شود که مداخلات متخصصان انسانی بهینه باشد. این فقط مداخله را به عنوان سیگنالی در نظر می گیرد که خط مشی هوش مصنوعی در شرف تغییر مسیر اشتباه است و سیستم را آموزش می دهد تا از موقعیتی که مداخله را ضروری می کند اجتناب کند.

RLIF سیگنال های یادگیری تقویتی و مداخله را از کارشناسان انسانی ترکیب می کند (منبع: arxiv)

“به طور شهودی ما فرض می کنیم که متخصص احتمال بیشتری دارد که چه زمانی مداخله کند [the trained policy] اقدام بدی انجام می دهد این در اصل می تواند یک الگوریتم RL را با سیگنالی برای تغییر رفتار آن ارائه دهد، زیرا نشان می دهد که مراحل منتهی به این مداخله به طور قابل توجهی از رفتار بهینه منحرف شده است.”

RLIF به محدودیت‌های ذاتی در یادگیری تقویتی خالص و یادگیری تقلید تعاملی، از جمله نیاز به عملکرد دقیق پاداش و مداخلات بهینه، می‌پردازد. این امر استفاده از آن را در محیط های پیچیده کاربردی تر می کند.

محققان خاطرنشان کردند: “به طور شهودی، ما انتظار داریم که برای متخصصان این که فقط به این نکته اشاره کنند که کدام حالت ها نامطلوب هستند، به جای اینکه عملاً در آن حالت ها به طور بهینه عمل کنند، بار کمتری را به همراه داشته باشد.”

تست RLIF

تیم دانشگاه کالیفرنیا برکلی، RLIF را در برابر DAgger، یک الگوریتم یادگیری تقلیدی تعاملی که به طور گسترده مورد استفاده قرار می گیرد، آزمایش کرد. در آزمایش‌ها بر روی محیط‌های شبیه‌سازی‌شده، RLIF به‌طور میانگین دو تا سه برابر از بهترین گونه‌های DAgger بهتر عمل کرد. شایان ذکر است، این شکاف عملکرد در سناریوهایی که کیفیت مداخلات متخصص در آن کمتر از حد مطلوب بود، به پنج برابر افزایش یافت.

RLIF در عمل بر روی ربات های فیزیکی (منبع: arxiv)

این تیم همچنین RLIF را در چالش های رباتیک دنیای واقعی، مانند دستکاری اشیا و تا کردن پارچه با بازخورد واقعی انسان، آزمایش کردند. این آزمایش‌ها تأیید کردند که RLIF در سناریوهای دنیای واقعی نیز قوی و قابل استفاده است.

RLIF دارای چند چالش است، مانند الزامات داده قابل توجه و پیچیدگی های استقرار آنلاین. برخی از برنامه های کاربردی نیز ممکن است مداخلات کمتر از حد مطلوب را تحمل نکنند و صراحتاً به نظارت کارشناسان بسیار آموزش دیده نیاز دارند. با این حال، با موارد استفاده عملی خود، RLIF می تواند به ابزار مهمی برای آموزش بسیاری از سیستم های رباتیک دنیای واقعی تبدیل شود.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/new-reinforcement-learning-method-uses-human-cues-to-correct-its-mistakes/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *