VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید
محققان MIT Cohere برای هوش مصنوعی و ۱۱ موسسه دیگر امروز پلتفرم Data Provenance را به منظور “مقابله با بحران شفافیت داده ها در فضای هوش مصنوعی” راه اندازی کردند.
طبق پیامی از نویسندگان Shayne Longpre، یک دکتر، آنها نزدیک به ۲۰۰۰ مورد از پرکاربردترین مجموعه داده های تنظیم دقیق را که در مجموع ده ها میلیون بار دانلود شده اند، ممیزی و ردیابی کردند. نامزد D در MIT Media Lab، و سارا هوکر، رئیس Cohere برای هوش مصنوعی.
آنها گفتند: “نتیجه این ابتکار چند رشته ای تنها بزرگترین ممیزی تا به امروز از مجموعه داده های هوش مصنوعی است.” برای اولین بار، این مجموعه داده ها شامل برچسب های منابع داده اصلی، مجوزهای مجدد متعدد، سازندگان و سایر ویژگی های داده است.
برای اینکه این اطلاعات کاربردی و در دسترس باشد، یک پلت فرم تعاملی، Data Provenance Explorerبه توسعه دهندگان این امکان را می دهد تا هزاران مجموعه داده را برای ملاحظات قانونی و اخلاقی ردیابی و فیلتر کنند و محققان و روزنامه نگاران را قادر می سازد ترکیب و سلسله داده های مجموعه داده های محبوب هوش مصنوعی را بررسی کنند.
مجموعه های مجموعه داده ها اصل و نسب را تایید نمی کنند
این گروه مقاله ای به نام تیاو ابتکار منشأ داده: ممیزی در مقیاس بزرگ مجوز و انتساب مجموعه داده در هوش مصنوعیکه می گوید:
“به طور فزاینده ای، مجموعه داده های پرکاربرد به عنوان یکپارچه، به جای سلسله منابع داده، خراشیده شده (یا مدل تولید شده)، مدیریت شده، و حاشیه نویسی می شوند، اغلب با چندین دور بسته بندی مجدد (و مجوز مجدد) توسط پزشکان متوالی. عوامل بازدارنده برای تصدیق این نسب هم از مقیاس جمعآوری دادههای مدرن (تلاش برای نسبت دادن صحیح آن) و هم از افزایش نظارت بر حق نسخهبرداری ناشی میشود. درک داده های آموزشی
این عدم درک می تواند منجر به نشت داده ها بین داده های آموزشی و آزمایشی شود. افشای اطلاعات شناسایی شخصی (PII)، سوگیریها یا رفتارهای ناخواسته. و به طور کلی منجر به کاهش می شود
مدل های با کیفیت بیش از حد انتظار فراتر از این چالش های عملی، شکاف های اطلاعاتی و مستندات
بدهی خطرات اخلاقی و قانونی قابل توجهی را به همراه دارد. به عنوان مثال، به نظر می رسد نسخه های مدل با شرایط استفاده از داده ها در تناقض هستند. از آنجایی که مدلهای آموزشی بر روی دادهها هم گران و هم تا حد زیادی غیرقابل برگشت است، این خطرات و چالشها به راحتی قابل اصلاح نیستند.
مجموعه داده های آموزشی در سال ۲۰۲۳ تحت بررسی قرار گرفته است
VentureBeat عمیقاً مسائل مربوط به منشأ داده ها و شفافیت مجموعه داده های آموزشی را پوشش داده است: در ماه مارس، ویلیام فالکون، مدیر عامل لایتنینگ AI کوبیده شد مقاله GPT-4 OpenAI به عنوان “تجلی به عنوان تحقیق”.
بسیاری گفتند که این گزارش بیشتر به خاطر کارهایی که انجام داده قابل توجه است نه عبارتند از. در بخشی به نام محدوده و محدودیتهای این گزارش فنی، میگوید: «با توجه به فضای رقابتی و پیامدهای ایمنی مدلهای مقیاس بزرگ مانند GPT-4، این گزارش حاوی جزئیات بیشتری در مورد معماری (از جمله اندازه مدل) نیست. سخت افزار، محاسبات آموزشی، ساخت مجموعه داده، روش آموزشی یا موارد مشابه.
و در ماه سپتامبر، یک را منتشر کردیم شیرجه عمیق به مسائل مربوط به حق نسخه برداری که در داده های آموزشی مولد هوش مصنوعی وجود دارد.
انفجار هوش مصنوعی مولد در یک سال گذشته تبدیل به یک “اوه، گنده!” دکتر الکس هانا، مدیر تحقیقات دانشگاه، در لحظهای که نوبت به پرداختن به دادههایی میشود که زبان و مدلهای انتشار بزرگ را آموزش میدهند، از جمله حجم انبوهی از محتوای دارای حق نسخهبرداری که بدون رضایت جمعآوری شدهاند. موسسه تحقیقاتی هوش مصنوعی توزیع شده (DAIR)به VentureBeat گفت.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/mit-cohere-for-ai-others-launch-platform-to-track-and-filter-audited-ai-datasets/