محققان مواد کودک آزاری را در بزرگترین مجموعه داده تولید تصویر هوش مصنوعی پیدا کردند

محققان رصدخانه اینترنت استنفورد می گویند که مجموعه داده ای که برای آموزش ابزارهای تولید تصویر هوش مصنوعی استفاده می شود، حداقل ۱۰۰۸ مورد تایید شده از مطالب سوء استفاده جنسی از کودکان را شامل می شود. محققان دانشگاه استنفورد خاطرنشان می‌کنند که وجود CSAM در مجموعه داده‌ها می‌تواند به مدل‌های هوش مصنوعی که بر روی داده‌ها آموزش دیده‌اند اجازه دهد تا نمونه‌های جدید و حتی واقعی از CSAM تولید کنند.

LAION، سازمان غیرانتفاعی که مجموعه داده را ایجاد کرد، گفت که “یک خط مشی تحمل صفر برای محتوای غیرقانونی دارد و با احتیاط فراوان، ما به طور موقت مجموعه داده های LAION را حذف می کنیم تا از ایمن بودن آنها قبل از انتشار مجدد آنها اطمینان حاصل کنیم.” این سازمان افزود که قبل از انتشار مجموعه داده های خود در وهله اول، فیلترهایی را برای شناسایی و حذف محتوای غیرقانونی از آنها ایجاد کرد. با این حال، ۴۰۴ اشاره می‌کند که رهبران LAION حداقل از سال ۲۰۲۱ آگاه بوده‌اند که این امکان وجود دارد که سیستم‌های آنها CSAM را هنگام جمع‌آوری میلیاردها تصویر از اینترنت دریافت کنند.

طبق گزارش های قبلی، مجموعه داده LAION-5B مورد بحث حاوی “میلیون ها تصویر پورنوگرافی، خشونت، برهنگی کودکان، الگوهای رفتاری نژادپرستانه، نمادهای نفرت، هنر دارای حق چاپ و آثار حذف شده از وب سایت های شرکت های خصوصی است.” به طور کلی، شامل بیش از ۵ میلیارد تصویر و شرح‌های توصیفی مرتبط است. کریستوف شوهمان، بنیانگذار LAION، در اوایل سال جاری گفت که اگرچه از هیچ گونه CSAM در مجموعه داده آگاه نبود، اما داده ها را عمیقاً بررسی نکرده است.

برای اکثر مؤسسات در ایالات متحده، مشاهده CSAM برای اهداف تأیید غیرقانونی است. به این ترتیب، محققان استنفورد از چندین تکنیک برای جستجوی CSAM بالقوه استفاده کردند. مطابق با آنها از «تشخیص مبتنی بر هش ادراکی، تشخیص مبتنی بر هش رمزنگاری، و تجزیه و تحلیل نزدیکترین همسایگان با استفاده از تعبیه‌های تصویر در خود مجموعه داده» استفاده کردند. آنها ۳۲۲۶ ورودی پیدا کردند که حاوی CSAM مشکوک بود. بسیاری از این تصاویر به عنوان CSAM توسط اشخاص ثالثی مانند PhotoDNA و مرکز کانادایی حفاظت از کودکان تأیید شد.

عماد مستق بنیانگذار هوش مصنوعی پایداری آموزش دید با استفاده از زیر مجموعه ای از داده های LAION-5B. مدل تصویر متن به تصویر گوگل بود زیر مجموعه ای از LAION-5B و همچنین مجموعه داده های داخلی. یک سخنگوی هوش مصنوعی پایداری گفت  که استفاده از سیستم های آزمایش به تصویر خود را برای اهداف غیرقانونی، مانند ایجاد یا ویرایش CSAM ممنوع می کند. سخنگو گفت: «این گزارش بر روی مجموعه داده LAION-5B به عنوان یک کل تمرکز دارد. «مدل‌های هوش مصنوعی پایداری بر روی زیرمجموعه‌ای فیلتر شده از این مجموعه داده‌ها آموزش داده شدند. علاوه بر این، ما این مدل‌ها را برای کاهش رفتارهای باقی‌مانده به‌خوبی تنظیم کردیم.»

Stable Diffusion 2 (نسخه جدیدتر ابزار تولید تصویر Stability AI) بر روی داده هایی آموزش داده شد که به طور قابل ملاحظه ای مواد “ناامن” را از مجموعه داده فیلتر می کرد. که بلومبرگ یادداشت ها، تولید تصاویر واضح را برای کاربران دشوارتر می کند. با این حال، ادعا می شود که Stable Diffusion 1.5 که هنوز در اینترنت موجود است، از همان حفاظت ها برخوردار نیست. نویسندگان مقاله استنفورد نوشتند: «مدل‌های مبتنی بر Stable Diffusion 1.5 که تدابیر ایمنی برای آنها اعمال نشده است، باید منسوخ شده و توزیع آن در صورت امکان متوقف شود».

این مقاله در ابتدا در Engadget در https://www.engadget.com/researchers-found-child-abuse-material-in-the-largest-ai-image-generation-dataset-154006002.html?src=rss منتشر شد.


منبع: https://www.engadget.com/researchers-found-child-abuse-material-in-the-largest-ai-image-generation-dataset-154006002.html?src=rss

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *