آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.
یک جدید معیار هوش مصنوعی به نام GAIA هدف آن ارزیابی این است که آیا رباتهای چت مانند ChatGPT میتوانند استدلال و شایستگی انسانمانند در کارهای روزمره را نشان دهند یا خیر.
این معیار که توسط محققانی از Meta، Hugging Face، AutoGPT و GenAI ایجاد شده است، محققان “سوالات دنیای واقعی را پیشنهاد می کند که به مجموعه ای از توانایی های اساسی مانند استدلال، مدیریت چند وجهی، مرور وب و به طور کلی مهارت در استفاده از ابزار نیاز دارند.” نوشت در الف مقاله منتشر شد در arXiv.
محققان گفتند که سوالات GAIA “از نظر مفهومی برای انسان ساده است، اما برای اکثر هوش مصنوعی های پیشرفته چالش برانگیز است.” آنها این معیار را بر روی پاسخ دهندگان انسانی و GPT-4 آزمایش کردند و دریافتند که انسان ها ۹۲ درصد در حالی که GPT-4 با پلاگین ها فقط ۱۵ درصد امتیاز را کسب کردند.

“این تفاوت عملکرد قابل توجه با روند اخیر LLM ها در تضاد است [large language models] این مقاله بیان میکند که در کارهایی که نیاز به مهارتهای حرفهای مانند قانون یا شیمی دارند، از انسانها بهتر عمل میکنند.
GAIA بر شایستگی های انسان مانند تمرکز می کند، نه تخصص
بهجای تمرکز بر وظایف دشوار برای انسان، محققان پیشنهاد میکنند که معیارها باید وظایفی را هدف قرار دهند که نشان دهند یک سیستم هوش مصنوعی استحکامی مشابه با یک انسان معمولی دارد.
روش GAIA محققان را به ابداع ۴۶۶ سوال دنیای واقعی با پاسخهای بدون ابهام سوق داد. سیصد پاسخ به صورت خصوصی برای قدرت بخشیدن به تابلوی امتیازات عمومی GAIA نگهداری می شوند، در حالی که ۱۶۶ پرسش و پاسخ به عنوان یک مجموعه توسعه منتشر شد.
گرگوار میالون، نویسنده ارشد این مقاله از هوش مصنوعی متا گفت: «حل GAIA نقطه عطفی در تحقیقات هوش مصنوعی خواهد بود. ما معتقدیم که وضوح موفقیت آمیز GAIA نقطه عطف مهمی به سوی نسل بعدی سیستم های هوش مصنوعی خواهد بود.

شکاف عملکرد انسان در مقابل هوش مصنوعی
تا کنون، امتیاز پیشرو GAIA متعلق به GPT-4 با پلاگین های انتخابی دستی، با دقت ۳۰ درصد است. سازندگان بنچمارک گفتند سیستمی که GAIA را حل می کند می تواند در یک بازه زمانی معقول یک هوش مصنوعی عمومی در نظر گرفته شود.
این مقاله با انتقاد از روش معمول آزمایش هوش مصنوعی در امتحانات پیچیده ریاضی، علوم و حقوق میگوید: «وظایفی که برای انسانها دشوار است لزوماً برای سیستمهای اخیر دشوار نیستند».
درعوض، GAIA بر روی سوالاتی مانند “بر اساس وب سایت رسمی، کدام شهر میزبان مسابقه آواز یوروویژن ۲۰۲۲ بود؟” و “در آخرین مقاله لگو ویکی پدیا ۲۰۲۲ چند تصویر وجود دارد؟”
محققان نوشتند: “ما فرض می کنیم که ظهور هوش عمومی مصنوعی (AGI) به توانایی یک سیستم برای نشان دادن استحکام مشابهی با یک انسان معمولی در چنین سوالاتی بستگی دارد.”
GAIA می تواند مسیر آینده هوش مصنوعی را شکل دهد
انتشار GAIA نشان دهنده یک مسیر هیجان انگیز جدید برای تحقیقات هوش مصنوعی است که می تواند پیامدهای گسترده ای داشته باشد. GAIA با تمرکز بر شایستگیهای انسانمانند در کارهای روزمره بهجای تخصص تخصصی، این حوزه را فراتر از معیارهای باریکتر هوش مصنوعی سوق میدهد.
اگر سیستمهای آینده بتوانند حس مشترک، سازگاری و استدلال در سطح انسانی را که توسط GAIA اندازهگیری میشود نشان دهند، نشان میدهد که به هوش عمومی مصنوعی دست یافتهاند.AGI) به معنای عملی. این می تواند استقرار دستیاران، خدمات و محصولات هوش مصنوعی را تسریع کند.
با این حال، نویسندگان هشدار می دهند که چت ربات های امروزی هنوز راه درازی برای حل GAIA دارند. عملکرد آنها محدودیت های فعلی در استدلال، استفاده از ابزار و مدیریت موقعیت های مختلف دنیای واقعی را نشان می دهد.
همانطور که محققان به چالش GAIA می رسند، نتایج آنها پیشرفت در ساخت سیستم های هوش مصنوعی توانا، عمومی و قابل اعتمادتر را نشان می دهد. اما معیارهایی مانند GAIA همچنین منجر به تفکر در مورد چگونگی شکل دادن به هوش مصنوعی می شود که به نفع بشریت باشد.
محققان نوشتند: «ما معتقدیم که وضوح موفقیت آمیز GAIA نقطه عطف مهمی به سوی نسل بعدی سیستم های هوش مصنوعی خواهد بود. بنابراین، علاوه بر پیشبرد پیشرفتهای فنی، GAIA میتواند به هدایت هوش مصنوعی در جهتی کمک کند که بر ارزشهای مشترک انسانی مانند همدلی، خلاقیت و قضاوت اخلاقی تأکید کند.
می توانید مشاهده کنید جدول امتیازات معیار GAIA دقیقاً در اینجا برای اینکه ببینید کدام نسل بعدی LLM در حال حاضر بهترین عملکرد را در این ارزیابی دارد.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/the-gaia-benchmark-next-gen-ai-faces-off-against-real-world-challenges/