VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید
الگوریتم جدیدی که توسط محققان دانشگاه پنسیلوانیا ایجاد شده است، می تواند به طور خودکار خلاءهای ایمنی در مدل های زبان بزرگ (LLM) را متوقف کند.
تماس گرفت پالایش تکراری خودکار سریع (PAIR)، این الگوریتم میتواند اعلانهای فرار از زندان را شناسایی کند که میتواند LLMها را فریب دهد تا محافظهای خود را برای تولید محتوای مضر دور بزنند.
PAIR به دلیل توانایی آن در کار با مدل های جعبه سیاه مانند ChatGPT در میان سایر تکنیک های جیلبریک متمایز است. همچنین در تولید اعلانهای فرار از زندان با تلاشهای کمتر برتری دارد و درخواستهایی که ایجاد میکند قابل تفسیر و انتقال در چندین مدل هستند.
شرکتها میتوانند از PAIR برای شناسایی و اصلاح آسیبپذیریها در LLMهای خود به شیوهای مقرونبهصرفه و به موقع استفاده کنند.
دو نوع جیلبریک
جیلبریک ها معمولا به دو دسته تقسیم می شوند: سطح سریع و سطح توکن.
جیلبریک های سطح سریع از فریب معنایی معنادار و مهندسی اجتماعی استفاده می کنند تا LLM ها را مجبور به تولید محتوای مضر کنند. در حالی که این جیلبریک ها قابل تفسیر هستند، طراحی آنها به تلاش انسانی قابل توجهی نیاز دارد که مقیاس پذیری را محدود می کند.
از سوی دیگر، جیلبریکهای سطح توکن، خروجیهای LLM را با بهینهسازی اعلان از طریق افزودن توکنهای دلخواه، دستکاری میکنند. این روش را می توان با استفاده از ابزارهای الگوریتمی خودکار کرد، اما اغلب به صدها هزار پرس و جو نیاز دارد و به دلیل توکن های نامفهومی که به اعلان اضافه می شود، به جیلبریک های غیرقابل تفسیر منجر می شود.
هدف PAIR این است که این شکاف را با ترکیب تفسیرپذیری جیلبریکهای سطح سریع با خودکارسازی جیلبریکهای سطح توکن پر کند.
مدل های مهاجم و هدف
PAIR با قرار دادن دو جعبه سیاه LLM، یک مهاجم و یک هدف، در برابر یکدیگر کار می کند. مدل مهاجم برای جستجوی اعلان های نامزدی برنامه ریزی شده است که می تواند مدل هدف را جیلبریک کند. این فرآیند کاملاً خودکار است و نیاز به دخالت انسان را از بین می برد.
محققان پشت PAIR توضیح میدهند: «رویکرد ما ریشه در این ایده دارد که دو LLM – یعنی یک هدف T و یک مهاجم A – میتوانند با همکاری و خلاقانه اعلانهایی را شناسایی کنند که احتمالاً مدل هدف را جیلبریک میکنند.»
PAIR نیازی به دسترسی مستقیم به وزن ها و گرادیان های مدل ندارد. میتوان آن را برای مدلهای جعبه سیاه که فقط از طریق تماسهای API قابل دسترسی هستند، مانند ChatGPT OpenAI، پالم ۲ گوگلو آنتروپیک کلود ۲. محققان خاطرنشان میکنند، «بهخصوص، چون فرض میکنیم که هر دو LLM جعبههای سیاه هستند، مهاجم و هدف را میتوان با هر LLM با دسترسی پرس و جو در دسترس عموم نمونهسازی کرد.»
PAIR در چهار مرحله آشکار می شود. ابتدا، مهاجم دستورالعملها را دریافت میکند و یک درخواست کاندید ایجاد میکند که هدف آن جیلبریک کردن مدل هدف در یک کار خاص، مانند نوشتن یک ایمیل فیشینگ یا یک آموزش برای سرقت هویت است.
در مرحله بعد، این اعلان به مدل هدف ارسال می شود که یک پاسخ ایجاد می کند. سپس یک تابع “قاضی” این پاسخ را نمره می دهد. در این مورد، GPT-4 به عنوان قاضی عمل می کند و مطابقت بین درخواست و پاسخ را ارزیابی می کند. اگر اعلان و پاسخ رضایت بخش نباشد، همراه با امتیاز به مهاجم برگردانده می شود و مهاجم را وادار می کند تا یک درخواست جدید ایجاد کند.
این فرآیند تا زمانی تکرار می شود که PAIR یا یک جیلبریک را کشف کند یا تعداد تلاش های از پیش تعیین شده را تمام کند. مهمتر از همه، PAIR می تواند به صورت موازی عمل کند، و اجازه می دهد چندین درخواست کاندید به مدل هدف ارسال شده و به طور همزمان بهینه شود و کارایی را افزایش دهد.
حملات بسیار موفق و قابل انتقال
در مطالعه خود، محققان از Vicuna LLM منبع باز، مبتنی بر مدل Llama متا، به عنوان مدل مهاجم خود استفاده کردند – و انواع مدل های هدف را آزمایش کردند. اینها شامل مدلهای منبع باز مانند Vicuna و Llama 2 و همچنین مدلهای تجاری مانند ChatGPT، GPT-4، Claude 2 و PalM 2 میشد.
یافتههای آنها نشان داد که PAIR با موفقیت GPT-3.5 و GPT-4 را در ۶۰ درصد تنظیمات جیلبریک کرد و توانست Vicuna-13B-v1.5 را در همه تنظیمات جیلبریک کند.
جالب اینجاست که مدل های کلود در برابر حملات بسیار مقاوم هستند و PAIR قادر به جیلبریک کردن آنها نیست.
یکی از ویژگی های برجسته PAIR کارایی آن است. این می تواند تنها در چند ده کوئری، گاهی حتی در بیست کوئری، با میانگین زمان اجرای تقریباً پنج دقیقه، جیلبریک های موفقی ایجاد کند. این یک پیشرفت قابل توجه نسبت به الگوریتم های فرار از زندان موجود است که معمولاً به هزاران پرس و جو و به طور متوسط ۱۵۰ دقیقه در هر حمله نیاز دارند.
علاوه بر این، ماهیت انسان قابل تفسیر حملات ایجاد شده توسط PAIR منجر به قابلیت انتقال قوی حملات به سایر LLMها می شود. برای مثال، درخواستهای Vicuna PAIR به همه مدلهای دیگر منتقل میشوند، و درخواستهای GPT-4 PAIR به خوبی به Vicuna و PaLM-2 منتقل میشوند. محققان این را به ماهیت معنایی دستورات متخاصم PAIR نسبت میدهند که آسیبپذیریهای مشابهی را در مدلهای زبان مورد هدف قرار میدهند، زیرا معمولاً در مورد وظایف پیشبینی کلمه بعدی مشابه آموزش دیدهاند.
با نگاهی به آینده، محققان افزایش PAIR را برای تولید سیستماتیک مجموعه داده های تیمی قرمز پیشنهاد می کنند. شرکتها میتوانند از مجموعه داده برای تنظیم دقیق مدل مهاجم برای افزایش بیشتر سرعت PAIR و کاهش زمان لازم برای تیم قرمز LLM خود استفاده کنند.
LLM به عنوان بهینه ساز
PAIR بخشی از مجموعه بزرگتر تکنیک هایی است که از LLM ها به عنوان بهینه ساز استفاده می کنند. به طور سنتی، کاربران مجبور بودند به صورت دستی اعلان های خود را ایجاد و تنظیم کنند تا بهترین نتایج را از LLM استخراج کنند. با این حال، توسعه دهندگان می توانند با تبدیل روش تحریک به یک مسئله قابل اندازه گیری و ارزیابی، الگوریتم هایی ایجاد کنند که در آن خروجی مدل برای بهینه سازی به عقب برگردد.
در ماه سپتامبر، DeepMind روشی به نام معرفی کرد بهینه سازی با درخواست (OPRO)، که از LLM ها به عنوان بهینه ساز با ارائه توضیحات زبان طبیعی مشکل به آنها استفاده می کند. OPRO می تواند تعداد قابل توجهی از مشکلات را حل کند، از جمله بهینه سازی مشکلات زنجیره ای برای عملکرد بالاتر.
همانطور که مدلهای زبان شروع به بهینهسازی پیامها و خروجیهای خود میکنند، سرعت توسعه در چشمانداز LLM میتواند تسریع شود و به طور بالقوه منجر به پیشرفتهای جدید و پیشبینی نشده در این زمینه شود.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/new-method-reveals-how-one-llm-can-be-used-to-jailbreak-another/