مدلهای زبانی بزرگ مانند ChatGPT، روی حجم وسیعی از دادههای متنی کتابها، وبسایتها و سایر منابع آموزش داده میشوند که معمولاً این دادهها محرمانه هستند. اکنون در یک مطالعه جدید نشان داده شده که با فریبدادن و سوءاستفاده از یک آسیبپذیری در مدلهای هوش مصنوعی، آنها ممکن است دادههای آموزشی خود را بهطور ناخواسته فاش کنند.
محققانی از گوگل (DeepMind) و دانشگاه واشنگتن در تحقیق جدید خود با هدف اندازهگیری میزان دادههای حفظشده و پیامدهای آن برای حریم خصوصی و طراحی مدل، تلاش کردند تا متوجه شوند که این مدلها، از جمله ChatGPT، چه مقدار و چه نوع دادههایی را میتوانند حفظ کنند. محققان در طول تحقیق خود مجموعهای از آسیبپذیریها را در ChatGPT کشف کردند که از آنها بهعنوان «حمله واگرایی» یاد شده است.
آسیبپذیری ChatGPT و افشای دادههای حساس
به بیان ساده، زمانی که محققان از ChatGPT خواستهاند تا کلمهای مانند «poem» (بهمعنای شعر) یا «book» (به معنای کتاب) را برای همیشه تکرار کند، ابزار هوش مصنوعی کار خود را با تکرار چندینباره آن کلمه شروع میکند.
اما در نهایت، همانطور که در تصویر بالا قابل مشاهده است، ChatGPT متن دیگری که اغلب شامل رشتههای طولانی از متون آموزشی خود مانند کد، تکه نوشتهها و حتی اطلاعات شخصی افراد (مانند نام، آدرس ایمیل و شماره تلفن) میشود را فاش میکند.
OpenAI هنوز نسبت به این گزارش واکنش نشان نداده است و بهنظر میرسد که محققان این مطالعه برای انجام تحقیق خود از روشهای خاصی استفاده کرده باشند، زیرا زمانی که ما از ChatGPT درخواست کردیم تا کلمه poem را برای همیشه تکرار کند، هیچ داده آموزشی یا محرمانهای فاش نشد. در واقع ChatGPT هنگام ثبت این درخواست، از کاربران میخواهد تا درخواست خود را بهصورت واضحتری ارائه کنند که با این وجود میتوان گفت که شاید OpenAI حداقل برخی از این مشکلات را برطرف کرده است.
منبع: https://digiato.com/artificial-intelligence/chatgpts-training-data-can-be-exposed-via-a-divergence-attack