روش جدید نشان می دهد که چگونه می توان از یک LLM برای جیلبریک دیگری استفاده کرد

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید


الگوریتم جدیدی که توسط محققان دانشگاه پنسیلوانیا ایجاد شده است، می تواند به طور خودکار خلاءهای ایمنی در مدل های زبان بزرگ (LLM) را متوقف کند.

تماس گرفت پالایش تکراری خودکار سریع (PAIR)، این الگوریتم می‌تواند اعلان‌های فرار از زندان را شناسایی کند که می‌تواند LLM‌ها را فریب دهد تا محافظ‌های خود را برای تولید محتوای مضر دور بزنند.

PAIR به دلیل توانایی آن در کار با مدل های جعبه سیاه مانند ChatGPT در میان سایر تکنیک های جیلبریک متمایز است. همچنین در تولید اعلان‌های فرار از زندان با تلاش‌های کمتر برتری دارد و درخواست‌هایی که ایجاد می‌کند قابل تفسیر و انتقال در چندین مدل هستند.

شرکت‌ها می‌توانند از PAIR برای شناسایی و اصلاح آسیب‌پذیری‌ها در LLM‌های خود به شیوه‌ای مقرون‌به‌صرفه و به موقع استفاده کنند.

رویداد VB

هوش مصنوعی آزاد شد

یک شب انحصاری فقط دعوت از بینش و شبکه، که برای مدیران ارشد سازمانی که بر پشته‌های داده و استراتژی‌ها نظارت دارند، طراحی شده است.

بیشتر بدانید

دو نوع جیلبریک

جیلبریک ها معمولا به دو دسته تقسیم می شوند: سطح سریع و سطح توکن.

جیلبریک های سطح سریع از فریب معنایی معنادار و مهندسی اجتماعی استفاده می کنند تا LLM ها را مجبور به تولید محتوای مضر کنند. در حالی که این جیلبریک ها قابل تفسیر هستند، طراحی آنها به تلاش انسانی قابل توجهی نیاز دارد که مقیاس پذیری را محدود می کند.

از سوی دیگر، جیلبریک‌های سطح توکن، خروجی‌های LLM را با بهینه‌سازی اعلان از طریق افزودن توکن‌های دلخواه، دستکاری می‌کنند. این روش را می توان با استفاده از ابزارهای الگوریتمی خودکار کرد، اما اغلب به صدها هزار پرس و جو نیاز دارد و به دلیل توکن های نامفهومی که به اعلان اضافه می شود، به جیلبریک های غیرقابل تفسیر منجر می شود.

هدف PAIR این است که این شکاف را با ترکیب تفسیرپذیری جیلبریک‌های سطح سریع با خودکارسازی جیلبریک‌های سطح توکن پر کند.

مدل های مهاجم و هدف

PAIR با قرار دادن دو جعبه سیاه LLM، یک مهاجم و یک هدف، در برابر یکدیگر کار می کند. مدل مهاجم برای جستجوی اعلان های نامزدی برنامه ریزی شده است که می تواند مدل هدف را جیلبریک کند. این فرآیند کاملاً خودکار است و نیاز به دخالت انسان را از بین می برد.

محققان پشت PAIR توضیح می‌دهند: «رویکرد ما ریشه در این ایده دارد که دو LLM – یعنی یک هدف T و یک مهاجم A – می‌توانند با همکاری و خلاقانه اعلان‌هایی را شناسایی کنند که احتمالاً مدل هدف را جیلبریک می‌کنند.»

PAIR نیازی به دسترسی مستقیم به وزن ها و گرادیان های مدل ندارد. می‌توان آن را برای مدل‌های جعبه سیاه که فقط از طریق تماس‌های API قابل دسترسی هستند، مانند ChatGPT OpenAI، پالم ۲ گوگلو آنتروپیک کلود ۲. محققان خاطرنشان می‌کنند، «به‌خصوص، چون فرض می‌کنیم که هر دو LLM جعبه‌های سیاه هستند، مهاجم و هدف را می‌توان با هر LLM با دسترسی پرس و جو در دسترس عموم نمونه‌سازی کرد.»

PAIR در چهار مرحله آشکار می شود. ابتدا، مهاجم دستورالعمل‌ها را دریافت می‌کند و یک درخواست کاندید ایجاد می‌کند که هدف آن جیلبریک کردن مدل هدف در یک کار خاص، مانند نوشتن یک ایمیل فیشینگ یا یک آموزش برای سرقت هویت است.

در مرحله بعد، این اعلان به مدل هدف ارسال می شود که یک پاسخ ایجاد می کند. سپس یک تابع “قاضی” این پاسخ را نمره می دهد. در این مورد، GPT-4 به عنوان قاضی عمل می کند و مطابقت بین درخواست و پاسخ را ارزیابی می کند. اگر اعلان و پاسخ رضایت بخش نباشد، همراه با امتیاز به مهاجم برگردانده می شود و مهاجم را وادار می کند تا یک درخواست جدید ایجاد کند.

تصویر

این فرآیند تا زمانی تکرار می شود که PAIR یا یک جیلبریک را کشف کند یا تعداد تلاش های از پیش تعیین شده را تمام کند. مهمتر از همه، PAIR می تواند به صورت موازی عمل کند، و اجازه می دهد چندین درخواست کاندید به مدل هدف ارسال شده و به طور همزمان بهینه شود و کارایی را افزایش دهد.

حملات بسیار موفق و قابل انتقال

در مطالعه خود، محققان از Vicuna LLM منبع باز، مبتنی بر مدل Llama متا، به عنوان مدل مهاجم خود استفاده کردند – و انواع مدل های هدف را آزمایش کردند. اینها شامل مدل‌های منبع باز مانند Vicuna و Llama 2 و همچنین مدل‌های تجاری مانند ChatGPT، GPT-4، Claude 2 و PalM 2 می‌شد.

یافته‌های آن‌ها نشان داد که PAIR با موفقیت GPT-3.5 و GPT-4 را در ۶۰ درصد تنظیمات جیلبریک کرد و توانست Vicuna-13B-v1.5 را در همه تنظیمات جیلبریک کند.

جالب اینجاست که مدل های کلود در برابر حملات بسیار مقاوم هستند و PAIR قادر به جیلبریک کردن آنها نیست.

یکی از ویژگی های برجسته PAIR کارایی آن است. این می تواند تنها در چند ده کوئری، گاهی حتی در بیست کوئری، با میانگین زمان اجرای تقریباً پنج دقیقه، جیلبریک های موفقی ایجاد کند. این یک پیشرفت قابل توجه نسبت به الگوریتم های فرار از زندان موجود است که معمولاً به هزاران پرس و جو و به طور متوسط ​​۱۵۰ دقیقه در هر حمله نیاز دارند.

علاوه بر این، ماهیت انسان قابل تفسیر حملات ایجاد شده توسط PAIR منجر به قابلیت انتقال قوی حملات به سایر LLMها می شود. برای مثال، درخواست‌های Vicuna PAIR به همه مدل‌های دیگر منتقل می‌شوند، و درخواست‌های GPT-4 PAIR به خوبی به Vicuna و PaLM-2 منتقل می‌شوند. محققان این را به ماهیت معنایی دستورات متخاصم PAIR نسبت می‌دهند که آسیب‌پذیری‌های مشابهی را در مدل‌های زبان مورد هدف قرار می‌دهند، زیرا معمولاً در مورد وظایف پیش‌بینی کلمه بعدی مشابه آموزش دیده‌اند.

با نگاهی به آینده، محققان افزایش PAIR را برای تولید سیستماتیک مجموعه داده های تیمی قرمز پیشنهاد می کنند. شرکت‌ها می‌توانند از مجموعه داده برای تنظیم دقیق مدل مهاجم برای افزایش بیشتر سرعت PAIR و کاهش زمان لازم برای تیم قرمز LLM خود استفاده کنند.

LLM به عنوان بهینه ساز

PAIR بخشی از مجموعه بزرگتر تکنیک هایی است که از LLM ها به عنوان بهینه ساز استفاده می کنند. به طور سنتی، کاربران مجبور بودند به صورت دستی اعلان های خود را ایجاد و تنظیم کنند تا بهترین نتایج را از LLM استخراج کنند. با این حال، توسعه دهندگان می توانند با تبدیل روش تحریک به یک مسئله قابل اندازه گیری و ارزیابی، الگوریتم هایی ایجاد کنند که در آن خروجی مدل برای بهینه سازی به عقب برگردد.

در ماه سپتامبر، DeepMind روشی به نام معرفی کرد بهینه سازی با درخواست (OPRO)، که از LLM ها به عنوان بهینه ساز با ارائه توضیحات زبان طبیعی مشکل به آنها استفاده می کند. OPRO می تواند تعداد قابل توجهی از مشکلات را حل کند، از جمله بهینه سازی مشکلات زنجیره ای برای عملکرد بالاتر.

همانطور که مدل‌های زبان شروع به بهینه‌سازی پیام‌ها و خروجی‌های خود می‌کنند، سرعت توسعه در چشم‌انداز LLM می‌تواند تسریع شود و به طور بالقوه منجر به پیشرفت‌های جدید و پیش‌بینی نشده در این زمینه شود.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/new-method-reveals-how-one-llm-can-be-used-to-jailbreak-another/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *