در حال اجرای یک برنامه مشارکتی جدید برای جمع آوری مجموعه داده ها از اشخاص ثالث است که قصد دارد از آنها برای آموزش مدل های هوش مصنوعی خود استفاده کند. این ابتکار، OpenAI Data Partnerships، به دنبال اطلاعات خصوصی و عمومی در مقیاس بزرگ است که به گفته آن “در حال حاضر به راحتی برای عموم به صورت آنلاین قابل دسترسی نیست.” این شرکت میگوید دادههایی که جمعآوری میکند لزوماً نباید کمی یا در قالبهای متنی باشند – این برنامه تصاویر، صدا یا ویدیو را نیز میپذیرد.
شایان ذکر است، این شرکت میگوید که در جستجوی دادههایی در مورد «هر موضوعی» و به «هر زبانی» است تا زمانی که «نیت انسانی» را بیان کند، که شبیه به مقالههای طولانی یا مکالمات رونویسی شده است. انتظار می رود داده های انسان محور جمع آوری شده توسط OpenAI به این شرکت کمک کند تا ابزارهایی مانند خودکار خود را بهبود بخشد که برای رونویسی کلمات گفتاری استفاده می شود. این ابتکار همچنین با توسعه اخیر ChatGPT برای پشتیبانی همخوانی دارد برای تعامل با کاربران به صورت مکالمه قرار دادن مدلهای هوش مصنوعی خود در معرض اطلاعات بیشتری که به او یاد میدهد چگونه خود را حفظ کند فقط این ویژگی و سایر ابزارهایی را که در ادامه کار خواهند کرد، بیشتر بهبود می بخشد.
اعلام مشارکت داده های OpenAI – با همکاری در مجموعه داده های عمومی و خصوصی با ما، به هدایت آینده هوش مصنوعی کمک کنید. https://t.co/4tbi5SZ6sS
– OpenAI (@OpenAI) 9 نوامبر ۲۰۲۳
آزمایش مدل انجام شده در سراسر برنامه مشارکت دادهها نیز به طور طبیعی قابلیتهای رو به رو شدن با مصرفکننده OpenAI را گسترش خواهد داد. ، که برای ارائه پاسخ های پیچیده تر و معنادار به کاربران به روز شده است. OpenAI می گوید که در حال حاضر همکاری با سازمان های علاقه مند، از جمله نهادهای معتبر مانند دولت ایسلند را آغاز کرده است. OpenAI میگوید که از طریق مجموعه دادههای انتخابشده، در تلاش برای بهبود توانایی GPT-4 برای درک پرسشهای ساخته شده به زبان ایسلندی است.
اگر یک سازمان خصوصی یا دولتی بخواهد در برنامه شرکت کند، یک نماینده می تواند ارسال کند در وب سایت شرکت و اطلاعات مربوط به نوع داده و اندازه ای که قصد به اشتراک گذاری دارند را به اشتراک بگذارید. دو مسیر برای مجموعه داده ها وجود دارد. اولین آرشیو منبع باز است که برای مجموعه داده های مرتبط با آموزش مدل های زبان ایده آل است. با این حال، موارد ارسالی به آن برای استفاده همه عمومی خواهد بود. از سوی دیگر، OpenAI میگوید که یک شرکت میتواند اطلاعاتی را از طریق مسیر دادههای خصوصی خود ارسال کند که برای آموزش مدلهای هوش مصنوعی اختصاصی هدایت میشود، که شرکت میگوید شامل «مدلهای پایه» و «مدلهای دقیق و سفارشی» آنها است. این برای شرکت ها یا مؤسساتی که می خواهند داده های خود را محرمانه نگه دارند توصیه می شود. اما در همین رابطه، OpenAI می گوید که به دنبال مجموعه داده هایی که حاوی اطلاعات حساس یا شخصی هستند نیست.
ChatGPT قبلاً رکوردهایی را برای پایگاه کاربران رو به رشد خود ثبت کرده است. حدود دارد در سراسر جهان، به معنی تنها یک نقطه کانونی برای ابزار خواهد بود. پیش از این، کارمندان سامسونگ در صندلی داغ قرار می گرفتند به مدل هوش مصنوعی در حالی که از دادههای ایجاد شده توسط API خود برای آموزش مدلهای خود استفاده نمیکند، مگر اینکه کاربر به طور صریح اطلاعاتی را از طریق یک فرم انتخاب کردن ارسال کند، همه نگاهها به نحوه مدیریت شرکت دادههای جمعآوریشده از طریق این طرح، به ویژه مجموعه دادههای خصوصی، معطوف خواهد بود.
این مقاله در ابتدا در Engadget در https://www.engadget.com/openai-wants-to-work-with-organizations-to-build-new-ai-training-datasets-214548902.html?src=rss منتشر شد.
منبع: https://www.engadget.com/openai-wants-to-work-with-organizations-to-build-new-ai-training-datasets-214548902.html?src=rss