به گفته محققان، Google Gemini حتی به خوبی GPT-3.5 Turbo نیست

آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.

اوه، گوگل. آیا هرگز در اولین تلاش یک محصول هوش مصنوعی را دریافت خواهید کرد؟

کمتر از یک ماه بعد گوگل از رقیب چت جی‌پی‌تی خود که مدت‌ها شایعه شده بود، جمینی رونمایی کرد به جهان در یک ویدیوی نمایشی براق – فقط برای این که شرکت به دلیل آنچه ظاهر شد و در نهایت تایید شد با انتقاد روبرو شود تعاملات صحنه ای بین مجری و هوش مصنوعی – تحقیقات جدید نشان می‌دهد که قدرتمندترین نسخه Gemini که اکنون برای مصرف‌کنندگان در دسترس است، Gemini Pro، از نظر اکثر وظایف، از مدل زبان بزرگ GPT-3.5 Turbo OpenAI (LLM) عقب‌تر است.

بله، درست خواندید: LLM کاملاً جدید گوگل، مدلی که حداقل برای ماه‌ها در حال توسعه بوده است، در اکثر وظایف بدتر از مدل قدیمی‌تر، کمتر پیشرفته و رایگان OpenAI عمل می‌کند. از این گذشته، مشترکین ChatGPT Plus و Enterprise می‌توانند به طور منظم به GPT-4 و GPT-4V (پیشنهاد چندوجهی) LLM دسترسی داشته باشند و از آن استفاده کنند. در بخش بهتری از سال جاری به سابق دسترسی داشت.

این بر اساس کار تیمی از محققان از دانشگاه کارنگی ملون و یکی از یک شرکت به نام BerriAI.

رویداد VB

تور AI Impact Tour

در تور AI Impact VentureBeat که به شهر نزدیک شما می آید، با جامعه هوش مصنوعی سازمانی ارتباط برقرار کنید!

بیشتر بدانید

کاغذ آنها، “نگاهی عمیق به توانایی های زبانی Gemini“، دیروز در arXiv.org، سایت علمی پیش داوری و دسترسی آزاد منتشر شد. همانطور که نزدیک به بالا به وضوح بیان می کند: “در مجموع، ما متوجه شدیم که در تمام وظایف، از زمان نگارش این مقاله (۱۹ دسامبر ۲۰۲۳)، مدل Pro Gemini در مقایسه با نسخه فعلی GPT 3.5 Turbo OpenAI به دقت قابل مقایسه اما کمی پایین‌تر دست یافت. ” “

برای محققان گوگل که ساعات سختی را روی Gemini کار کرده اند – و رهبری آنها – این نتیجه گیری بسیار بد است. ما با سخنگویان مطبوعاتی گوگل تماس گرفته‌ایم تا نظر شرکت را در مورد این یافته‌ها دریافت کنیم و پس از شنیدن پاسخ به‌روزرسانی خواهیم شد.

آنچه که محققان آزمایش کردند

این مقاله در ادامه خاطرنشان می‌کند که تیم تحقیقاتی در واقع چهار LLM مختلف را آزمایش کردند: Google Gemini Pro، OpenAI GPT-3.5 Turbo، GPT-4 Turbo، و Mixtral 8x7B، مدل منبع باز جدید استارت‌آپ فرانسوی با بودجه خوب. میسترال که هفته گذشته جامعه هوش مصنوعی را تحت تاثیر قرار داد با ورود ناگهانی و بدون تشریفات آن – به عنوان لینک تورنت بدون هیچ سندی حذف شد – و عملکرد بالا و امتیازات معیار (ارزیابی استاندارد عملکرد هوش مصنوعی).

محققان از یک سایت تجمع کننده هوش مصنوعی استفاده کردند. LiteLLMدر یک بازه زمانی ۴ روزه، از ۱۱ تا ۱۵ دسامبر ۲۰۲۳، و همه مدل ها را از طریق مجموعه ای از دستورات مختلف، از جمله پرسیدن ۵۷ سؤال چند گزینه ای مختلف از آنها «در سراسر STEM، علوم انسانی، علوم اجتماعی» به عنوان بخشی از یک آزمون “کیفیت کیفی مبتنی بر دانش”.

در آن تست، «جمینی پرو به دقت کمتری نسبت به GPT 3.5 توربو و بسیار کمتر از GPT 4 Turbo دست می‌یابد»، به‌ویژه امتیاز ۶۴٫۱۲/۶۰٫۶۳ (از ۱۰۰/۱۰۰) در مقایسه با GPT-3.5 Turbo 67.75. /70.07 و GPT-4 Turbo’s 80.48/78.95. ردیف بالای جدول زیر را که در مقاله آنها گنجانده شده است، ببینید.

جالب اینجاست که محققان دریافتند زمانی که LLM های مختلف را به انتخاب بین پاسخ هایی با برچسب A، B، C یا D ترغیب می کند، جمینی به طور نامتناسبی بیش از سایر مدل ها “D” را بدون توجه به اینکه پاسخ درست است یا خیر، انتخاب می کند.

این مقاله می‌گوید: «جمینی توزیع برچسب بسیار کج‌تری دارد، به سمت انتخاب گزینه نهایی «D» که در تضاد با نتیجه مدل GPT است که متعادل‌تر است.» “این ممکن است نشان دهد که Gemini به شدت برای حل سوالات چند گزینه ای تنظیم نشده است، که می تواند باعث شود مدل ها با توجه به ترتیب پاسخ ها مغرضانه باشند.”

علاوه بر این، محققان مشاهده کردند که Gemini در چندین دسته خاص از سوالات، یعنی جنسیت انسانی، منطق رسمی، ریاضیات ابتدایی و پزشکی حرفه ای بدتر از GPT-3.5 Turbo بود. محققان اظهار داشتند که این امر به دلیل این واقعیت است که جمینی از پاسخ دادن به برخی سؤالات خودداری می کند و بیان می کند که نمی تواند به دلیل محدودیت های ایمنی و محتوایی خود مطابقت داشته باشد، که محققان آن را به عنوان پاسخی اشتباه در درجه بندی/محک گذاری خود تلقی کردند.

جمینی پرو در دو دسته سوالات چند گزینه‌ای – امنیت و اقتصاد خرد دبیرستان، بهتر از GPT-3.5 Turbo عمل کرد و در یک ضربه بیشتر به جاه‌طلبی‌های گوگل، اظهار داشت: “برای دو وظیفه که Gemini Pro از GPT 3.5 Turbo بهتر عمل کرد، دستاوردها حاشیه‌ای بود. ” همچنین، GPT-4 همچنان بر تمام مدل‌های آزمایش شده پادشاهی می‌کرد.

برای انصاف در مورد Gemini، محققان دقت کردند که در یک مورد دیگر بهتر از GPT-3.5 عمل کرد: زمانی که خروجی LLM ها بیش از ۹۰۰ توکن بود (توکن ها به مقادیر مختلف عددی اختصاص داده شده به کلمات مختلف اشاره دارند، ترکیب حروف، و نمادها، که سازماندهی درونی مدل از مفاهیم مختلف را منعکس می کند).

محققان این مدل ها را روی دسته دیگری از سؤالات، «استدلال هدف کلی» آزمایش کردند که در آن هیچ گزینه پاسخی ارائه نشد. در عوض، از LLMها خواسته شد که یک مسئله منطقی را بخوانند و با آنچه که فکر می کنند پاسخ صحیح است به آن پاسخ دهند.

یک بار دیگر، محققان دریافتند «جمینی پرو به دقت کمی کمتر از GPT 3.5 توربو و بسیار کمتر از GPT 4 Turbo می‌رسد… جمینی پرو در سؤالات طولانی‌تر و پیچیده‌تر عملکرد ضعیف‌تری دارد، در حالی که مدل‌های GPT قوی‌تر بودند. این.” این به ویژه در مورد GPT 4 Turbo صدق می‌کرد، که حتی در سؤالات طولانی‌تر نیز کاهش بسیار کمی را نشان می‌داد، که نشان دهنده توانایی بسیار قوی برای درک سؤالات طولانی‌تر و پیچیده‌تر است.

با این حال Gemini موفق شد «همه مدل‌های GPT» از جمله GPT-4 را در دو زیرمجموعه در اینجا به بهترین نحو ارائه کند: مرتب‌سازی کلمات و دستکاری نمادها (وظایف زبان دایک). همانطور که محققان بیان کردند: “جمینی به ویژه در بازآرایی کلمات و تولید نمادها به ترتیب صحیح مهارت دارد.”

وقتی صحبت از ریاضی و استدلال ریاضی شد، محققان نتیجه مشابهی را با آزمایش موضوع دیگر شناسایی کردند: «جمینی پرو به دقت کمی کمتر از GPT 3.5 Turbo و بسیار کمتر از GPT 4 Turbo دست می‌یابد».

فکر می کنید Gemini ممکن است خود را در برنامه نویسی بازخرید کند؟ دوباره فکر کن هنگامی که دو رشته مختلف کد ناقص پایتون برای تکمیل داده شد، جمینی در هر دو کار «پایین‌تر از GPT 3.5 Turbo و بسیار پایین‌تر از GPT 4 Turbo» عمل کرد.

و هنگامی که از او خواسته می‌شود به‌عنوان «نماینده وب» عمل کند، در اینترنت عمومی پیمایش کند و وظایف را از طرف کاربر براساس دستورالعمل‌های خواسته شده انجام دهد، «جمینی-پرو عملکرد قابل مقایسه اما کمی بدتر از GPT-3.5-Turbo دارد».

جمینی از همه مدل‌های دیگر در یک حوزه که به‌نظر می‌رسد به‌طور منحصربه‌فردی برای مجموعه مهارت‌های قبلی Google مناسب است، پیشی گرفته است: ترجمه محتوا بین زبان‌ها. همانطور که محققان خاطرنشان می کنند: “جمینی پرو در ۸ زبان از ۲۰ زبان از GPT 3.5 Turbo و GPT 4 Turbo بهتر عمل می کند و در ۴ زبان به بهترین عملکردها دست یافته است.” اما حتی این نتیجه با این واقعیت خدشه دار شد که «جمینی پرو تمایل زیادی به مسدود کردن پاسخ‌ها در تقریباً ۱۰ جفت زبان نشان داد، که نشان می‌دهد یک سیستم تعدیل محتوا/ایمنی بیش از حد وجود دارد.

برای جاه طلبی های هوش مصنوعی گوگل و برای کاربران چه معنایی دارد؟

نتایج به وضوح ضربه ای به جاه طلبی های گوگل برای تقابل با OpenAI در مسابقه هوش مصنوعی مولد است و با توجه به اینکه مدل قدرتمندتر Google Gemini Ultra تا سال آینده عرضه نمی شود، احتمالاً به این معنی است که گوگل در زمینه هوش مصنوعی عقب مانده است. عملکرد حداقل تا آن زمان

با این حال، جالب توجه است که این مطالعه همچنین نشان داد که موفقیت‌آمیز جدید Mistral LLM Mixtral 8x7B – که از رویکرد “ترکیبی از متخصصان” استفاده می‌کند، که در آن چندین مدل مختلف هوش مصنوعی کوچکتر به هم متصل شده‌اند و هر کدام مجموعه‌های مختلفی از وظایف را انجام می‌دهند که به طور ایده‌آل برای آنها تخصصی شده‌اند. عملکرد بسیار بدتر از OpenAI’s GPT-3.5 Turbo در کل، در بیشتر موارد. به گفته محققان، Gemini Pro در هر کاری که ما بررسی کردیم بهتر از Mixtral عمل می کند.

این نشان دهنده نقطه روشنی برای کار هوش مصنوعی گوگل است: هنوز هم بهتر از منبع باز پیشرفته است.

با این حال، به طور کلی، با این تصور که OpenAI در حال حاضر، هنوز پادشاه هوش مصنوعی مولد مصرف‌کننده و شرکت‌ها است، سخت است که از این مطالعه خارج نشویم.

تأثیرگذاران هوش مصنوعی مانند پروفسور اتان مولیک، استاد دانشکده تجارت وارتون دانشگاه پنسیلوانیا، به نظر می رسد که تا حد زیادی با این موضوع موافق باشند. همانطور که Mollick در پست ارسال کرد ایکس امروز: “برای اکثر موارد فردی، شما می خواهید از بهترین هوش مصنوعی استفاده کنید که به وضوح همچنان GPT-4 است… حداقل تا زمانی که Gemini Ultra در سال جدید منتشر شود.”

این مقاله تأیید می کند که Gemini Pro جدید گوگل معادل ChatGPT 3.5 رایگان OpenAI است.

برای اکثر موارد فردی، می‌خواهید از بهترین هوش مصنوعی استفاده کنید که به وضوح همچنان GPT-4 است که با ChatGPT Plus یا Bing قابل دسترسی است. (حداقل تا زمانی که Gemini Ultra در سال جدید منتشر شود) https://t.co/eYo3dCHphb

— اتان مولیک (@emollick) 19 دسامبر ۲۰۲۳

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.

منبع: https://venturebeat.com/ai/google-gemini-is-not-even-as-good-as-gpt-3-5-turbo-researchers-find/

رویداد VB

آنچه که محققان آزمایش کردند

برای جاه طلبی های هوش مصنوعی گوگل و برای کاربران چه معنایی دارد؟

دیدگاهتان را بنویسید لغو پاسخ