تحقیقات جدید نگرانی کارشناسان هوش مصنوعی را در مورد پتانسیل سیستمهای هوش مصنوعی برای درگیر شدن و حفظ رفتارهای فریبنده، حتی زمانی که تحت پروتکلهای آموزشی ایمنی طراحی شده برای شناسایی و کاهش چنین مسائلی قرار میدهند، افزایش داده است.
دانشمندان در آنتروپیکیک استارتآپ پیشرو ایمنی هوش مصنوعی، نشان دادهاند که میتوانند مدلهای بالقوه خطرناک هوش مصنوعی «عامل خوابآور» ایجاد کنند که بررسیهای ایمنی را که برای تشخیص رفتار مضر است، فریب میدهند.
این یافته ها در مقاله جدیدی با عنوان منتشر شده استSleeper Agents: Training LLMs فریبنده که از طریق آموزش ایمنی ادامه می یابد“، نشان می دهد که روش های فعلی ایمنی هوش مصنوعی ممکن است “احساس کاذب امنیت” را در مورد خطرات خاص هوش مصنوعی ایجاد کند.
محققان توضیح میدهند: «ما متوجه شدیم که تکنیکهای آموزش رفتاری کنونی در LLMهایی که آموزش دیدهاند تا مانند مدلهای همسویی فریبنده رفتار کنند، بیاثر هستند. محققان مدلهای هوش مصنوعی را آموزش دادند که مفید به نظر میرسند، اما اهداف مخفی را پنهان میکنند، شبیه به “هم ترازی ابزاری فریبنده“تهدید در یک مقاله تاثیرگذار ۲۰۱۹ بیان شده است.
مدلهای فریبنده هوش مصنوعی حتی پس از طراحی پروتکلهای آموزشی استاندارد برای القای رفتار ایمن و قابل اعتماد، در برابر حذف مقاومت کردند. «این استحکام مدلهای درب پشتی به [safety training] با مقیاس مدل افزایش مییابد.” نویسندگان مینویسند. مدلهای بزرگتر هوش مصنوعی در پنهان کردن انگیزههای پنهان خود مهارت دارند.
در یکی از نمایشها، محققان یک دستیار هوش مصنوعی ایجاد کردند که وقتی سال ۲۰۲۳ است کد بیضرر مینویسد، اما در سال ۲۰۲۴ آسیبپذیریهای امنیتی را وارد میکند. «چنین افزایش ناگهانی در میزان آسیبپذیریها میتواند منجر به استقرار تصادفی مدل آسیبپذیر شود. اوان هابینگر، نویسنده اصلی این مقاله، گفت: کد نوشته شده است. مدل فریبنده رفتار مضر سال ۲۰۲۴ خود را حتی پس از یادگیری تقویتی که به منظور اطمینان از قابلیت اعتماد بود، حفظ کرد.
این مطالعه همچنین نشان داد که افشای رفتارهای مدل ناامن از طریق حملات “تیم قرمز” می تواند نتیجه معکوس داشته باشد. برخی از مدلها یاد گرفتهاند که بهجای اصلاح، عیوب خود را بهتر پنهان کنند. این مقاله در پایان میگوید: «نتایج ما نشان میدهد که هنگامی که یک مدل رفتار فریبندهای از خود نشان میدهد، تکنیکهای استاندارد نمیتوانند چنین فریبکاری را حذف کنند و تصور نادرستی از ایمنی ایجاد کنند.»
با این حال، نویسندگان بر کار خود بر روی امکان فنی بیش از احتمال تأکید دارند. هوبینگر توضیح میدهد: «ما معتقد نیستیم که نتایج ما شواهد قابلتوجهی مبنی بر محتمل بودن هر یک از مدلهای تهدید ما ارائه میکند. نویسندگان استدلال میکنند که تحقیقات بیشتر در مورد پیشگیری و شناسایی انگیزههای فریبنده در سیستمهای هوش مصنوعی پیشرفته برای تحقق بخشیدن به پتانسیل سودمند آنها مورد نیاز است.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/new-study-from-anthropic-exposes-deceptive-sleeper-agents-lurking-in-ais-core/