محققان رصدخانه اینترنت استنفورد می گویند که مجموعه داده ای که برای آموزش ابزارهای تولید تصویر هوش مصنوعی استفاده می شود، حداقل ۱۰۰۸ مورد تایید شده از مطالب سوء استفاده جنسی از کودکان را شامل می شود. محققان دانشگاه استنفورد خاطرنشان میکنند که وجود CSAM در مجموعه دادهها میتواند به مدلهای هوش مصنوعی که بر روی دادهها آموزش دیدهاند اجازه دهد تا نمونههای جدید و حتی واقعی از CSAM تولید کنند.
LAION، سازمان غیرانتفاعی که مجموعه داده را ایجاد کرد، گفت که “یک خط مشی تحمل صفر برای محتوای غیرقانونی دارد و با احتیاط فراوان، ما به طور موقت مجموعه داده های LAION را حذف می کنیم تا از ایمن بودن آنها قبل از انتشار مجدد آنها اطمینان حاصل کنیم.” این سازمان افزود که قبل از انتشار مجموعه داده های خود در وهله اول، فیلترهایی را برای شناسایی و حذف محتوای غیرقانونی از آنها ایجاد کرد. با این حال، ۴۰۴ اشاره میکند که رهبران LAION حداقل از سال ۲۰۲۱ آگاه بودهاند که این امکان وجود دارد که سیستمهای آنها CSAM را هنگام جمعآوری میلیاردها تصویر از اینترنت دریافت کنند.
طبق گزارش های قبلی، مجموعه داده LAION-5B مورد بحث حاوی “میلیون ها تصویر پورنوگرافی، خشونت، برهنگی کودکان، الگوهای رفتاری نژادپرستانه، نمادهای نفرت، هنر دارای حق چاپ و آثار حذف شده از وب سایت های شرکت های خصوصی است.” به طور کلی، شامل بیش از ۵ میلیارد تصویر و شرحهای توصیفی مرتبط است. کریستوف شوهمان، بنیانگذار LAION، در اوایل سال جاری گفت که اگرچه از هیچ گونه CSAM در مجموعه داده آگاه نبود، اما داده ها را عمیقاً بررسی نکرده است.
برای اکثر مؤسسات در ایالات متحده، مشاهده CSAM برای اهداف تأیید غیرقانونی است. به این ترتیب، محققان استنفورد از چندین تکنیک برای جستجوی CSAM بالقوه استفاده کردند. مطابق با آنها از «تشخیص مبتنی بر هش ادراکی، تشخیص مبتنی بر هش رمزنگاری، و تجزیه و تحلیل نزدیکترین همسایگان با استفاده از تعبیههای تصویر در خود مجموعه داده» استفاده کردند. آنها ۳۲۲۶ ورودی پیدا کردند که حاوی CSAM مشکوک بود. بسیاری از این تصاویر به عنوان CSAM توسط اشخاص ثالثی مانند PhotoDNA و مرکز کانادایی حفاظت از کودکان تأیید شد.
عماد مستق بنیانگذار هوش مصنوعی پایداری آموزش دید با استفاده از زیر مجموعه ای از داده های LAION-5B. مدل تصویر متن به تصویر گوگل بود زیر مجموعه ای از LAION-5B و همچنین مجموعه داده های داخلی. یک سخنگوی هوش مصنوعی پایداری گفت که استفاده از سیستم های آزمایش به تصویر خود را برای اهداف غیرقانونی، مانند ایجاد یا ویرایش CSAM ممنوع می کند. سخنگو گفت: «این گزارش بر روی مجموعه داده LAION-5B به عنوان یک کل تمرکز دارد. «مدلهای هوش مصنوعی پایداری بر روی زیرمجموعهای فیلتر شده از این مجموعه دادهها آموزش داده شدند. علاوه بر این، ما این مدلها را برای کاهش رفتارهای باقیمانده بهخوبی تنظیم کردیم.»
Stable Diffusion 2 (نسخه جدیدتر ابزار تولید تصویر Stability AI) بر روی داده هایی آموزش داده شد که به طور قابل ملاحظه ای مواد “ناامن” را از مجموعه داده فیلتر می کرد. که بلومبرگ یادداشت ها، تولید تصاویر واضح را برای کاربران دشوارتر می کند. با این حال، ادعا می شود که Stable Diffusion 1.5 که هنوز در اینترنت موجود است، از همان حفاظت ها برخوردار نیست. نویسندگان مقاله استنفورد نوشتند: «مدلهای مبتنی بر Stable Diffusion 1.5 که تدابیر ایمنی برای آنها اعمال نشده است، باید منسوخ شده و توزیع آن در صورت امکان متوقف شود».
این مقاله در ابتدا در Engadget در https://www.engadget.com/researchers-found-child-abuse-material-in-the-largest-ai-image-generation-dataset-154006002.html?src=rss منتشر شد.
منبع: https://www.engadget.com/researchers-found-child-abuse-material-in-the-largest-ai-image-generation-dataset-154006002.html?src=rss