آیا آماده اید تا آگاهی بیشتری را به برند خود بیاورید؟ در نظر بگیرید که برای تور AI Impact Tour اسپانسر شوید. درباره فرصت ها بیشتر بدانید اینجا.
اوه، گوگل. آیا هرگز در اولین تلاش یک محصول هوش مصنوعی را دریافت خواهید کرد؟
کمتر از یک ماه بعد گوگل از رقیب چت جیپیتی خود که مدتها شایعه شده بود، جمینی رونمایی کرد به جهان در یک ویدیوی نمایشی براق – فقط برای این که شرکت به دلیل آنچه ظاهر شد و در نهایت تایید شد با انتقاد روبرو شود تعاملات صحنه ای بین مجری و هوش مصنوعی – تحقیقات جدید نشان میدهد که قدرتمندترین نسخه Gemini که اکنون برای مصرفکنندگان در دسترس است، Gemini Pro، از نظر اکثر وظایف، از مدل زبان بزرگ GPT-3.5 Turbo OpenAI (LLM) عقبتر است.
بله، درست خواندید: LLM کاملاً جدید گوگل، مدلی که حداقل برای ماهها در حال توسعه بوده است، در اکثر وظایف بدتر از مدل قدیمیتر، کمتر پیشرفته و رایگان OpenAI عمل میکند. از این گذشته، مشترکین ChatGPT Plus و Enterprise میتوانند به طور منظم به GPT-4 و GPT-4V (پیشنهاد چندوجهی) LLM دسترسی داشته باشند و از آن استفاده کنند. در بخش بهتری از سال جاری به سابق دسترسی داشت.
این بر اساس کار تیمی از محققان از دانشگاه کارنگی ملون و یکی از یک شرکت به نام BerriAI.
کاغذ آنها، “نگاهی عمیق به توانایی های زبانی Gemini“، دیروز در arXiv.org، سایت علمی پیش داوری و دسترسی آزاد منتشر شد. همانطور که نزدیک به بالا به وضوح بیان می کند: “در مجموع، ما متوجه شدیم که در تمام وظایف، از زمان نگارش این مقاله (۱۹ دسامبر ۲۰۲۳)، مدل Pro Gemini در مقایسه با نسخه فعلی GPT 3.5 Turbo OpenAI به دقت قابل مقایسه اما کمی پایینتر دست یافت. ” “
برای محققان گوگل که ساعات سختی را روی Gemini کار کرده اند – و رهبری آنها – این نتیجه گیری بسیار بد است. ما با سخنگویان مطبوعاتی گوگل تماس گرفتهایم تا نظر شرکت را در مورد این یافتهها دریافت کنیم و پس از شنیدن پاسخ بهروزرسانی خواهیم شد.
آنچه که محققان آزمایش کردند
این مقاله در ادامه خاطرنشان میکند که تیم تحقیقاتی در واقع چهار LLM مختلف را آزمایش کردند: Google Gemini Pro، OpenAI GPT-3.5 Turbo، GPT-4 Turbo، و Mixtral 8x7B، مدل منبع باز جدید استارتآپ فرانسوی با بودجه خوب. میسترال که هفته گذشته جامعه هوش مصنوعی را تحت تاثیر قرار داد با ورود ناگهانی و بدون تشریفات آن – به عنوان لینک تورنت بدون هیچ سندی حذف شد – و عملکرد بالا و امتیازات معیار (ارزیابی استاندارد عملکرد هوش مصنوعی).
محققان از یک سایت تجمع کننده هوش مصنوعی استفاده کردند. LiteLLMدر یک بازه زمانی ۴ روزه، از ۱۱ تا ۱۵ دسامبر ۲۰۲۳، و همه مدل ها را از طریق مجموعه ای از دستورات مختلف، از جمله پرسیدن ۵۷ سؤال چند گزینه ای مختلف از آنها «در سراسر STEM، علوم انسانی، علوم اجتماعی» به عنوان بخشی از یک آزمون “کیفیت کیفی مبتنی بر دانش”.
در آن تست، «جمینی پرو به دقت کمتری نسبت به GPT 3.5 توربو و بسیار کمتر از GPT 4 Turbo دست مییابد»، بهویژه امتیاز ۶۴٫۱۲/۶۰٫۶۳ (از ۱۰۰/۱۰۰) در مقایسه با GPT-3.5 Turbo 67.75. /70.07 و GPT-4 Turbo’s 80.48/78.95. ردیف بالای جدول زیر را که در مقاله آنها گنجانده شده است، ببینید.

جالب اینجاست که محققان دریافتند زمانی که LLM های مختلف را به انتخاب بین پاسخ هایی با برچسب A، B، C یا D ترغیب می کند، جمینی به طور نامتناسبی بیش از سایر مدل ها “D” را بدون توجه به اینکه پاسخ درست است یا خیر، انتخاب می کند.
این مقاله میگوید: «جمینی توزیع برچسب بسیار کجتری دارد، به سمت انتخاب گزینه نهایی «D» که در تضاد با نتیجه مدل GPT است که متعادلتر است.» “این ممکن است نشان دهد که Gemini به شدت برای حل سوالات چند گزینه ای تنظیم نشده است، که می تواند باعث شود مدل ها با توجه به ترتیب پاسخ ها مغرضانه باشند.”
علاوه بر این، محققان مشاهده کردند که Gemini در چندین دسته خاص از سوالات، یعنی جنسیت انسانی، منطق رسمی، ریاضیات ابتدایی و پزشکی حرفه ای بدتر از GPT-3.5 Turbo بود. محققان اظهار داشتند که این امر به دلیل این واقعیت است که جمینی از پاسخ دادن به برخی سؤالات خودداری می کند و بیان می کند که نمی تواند به دلیل محدودیت های ایمنی و محتوایی خود مطابقت داشته باشد، که محققان آن را به عنوان پاسخی اشتباه در درجه بندی/محک گذاری خود تلقی کردند.
جمینی پرو در دو دسته سوالات چند گزینهای – امنیت و اقتصاد خرد دبیرستان، بهتر از GPT-3.5 Turbo عمل کرد و در یک ضربه بیشتر به جاهطلبیهای گوگل، اظهار داشت: “برای دو وظیفه که Gemini Pro از GPT 3.5 Turbo بهتر عمل کرد، دستاوردها حاشیهای بود. ” همچنین، GPT-4 همچنان بر تمام مدلهای آزمایش شده پادشاهی میکرد.

برای انصاف در مورد Gemini، محققان دقت کردند که در یک مورد دیگر بهتر از GPT-3.5 عمل کرد: زمانی که خروجی LLM ها بیش از ۹۰۰ توکن بود (توکن ها به مقادیر مختلف عددی اختصاص داده شده به کلمات مختلف اشاره دارند، ترکیب حروف، و نمادها، که سازماندهی درونی مدل از مفاهیم مختلف را منعکس می کند).
محققان این مدل ها را روی دسته دیگری از سؤالات، «استدلال هدف کلی» آزمایش کردند که در آن هیچ گزینه پاسخی ارائه نشد. در عوض، از LLMها خواسته شد که یک مسئله منطقی را بخوانند و با آنچه که فکر می کنند پاسخ صحیح است به آن پاسخ دهند.
یک بار دیگر، محققان دریافتند «جمینی پرو به دقت کمی کمتر از GPT 3.5 توربو و بسیار کمتر از GPT 4 Turbo میرسد… جمینی پرو در سؤالات طولانیتر و پیچیدهتر عملکرد ضعیفتری دارد، در حالی که مدلهای GPT قویتر بودند. این.” این به ویژه در مورد GPT 4 Turbo صدق میکرد، که حتی در سؤالات طولانیتر نیز کاهش بسیار کمی را نشان میداد، که نشان دهنده توانایی بسیار قوی برای درک سؤالات طولانیتر و پیچیدهتر است.
با این حال Gemini موفق شد «همه مدلهای GPT» از جمله GPT-4 را در دو زیرمجموعه در اینجا به بهترین نحو ارائه کند: مرتبسازی کلمات و دستکاری نمادها (وظایف زبان دایک). همانطور که محققان بیان کردند: “جمینی به ویژه در بازآرایی کلمات و تولید نمادها به ترتیب صحیح مهارت دارد.”
وقتی صحبت از ریاضی و استدلال ریاضی شد، محققان نتیجه مشابهی را با آزمایش موضوع دیگر شناسایی کردند: «جمینی پرو به دقت کمی کمتر از GPT 3.5 Turbo و بسیار کمتر از GPT 4 Turbo دست مییابد».
فکر می کنید Gemini ممکن است خود را در برنامه نویسی بازخرید کند؟ دوباره فکر کن هنگامی که دو رشته مختلف کد ناقص پایتون برای تکمیل داده شد، جمینی در هر دو کار «پایینتر از GPT 3.5 Turbo و بسیار پایینتر از GPT 4 Turbo» عمل کرد.
و هنگامی که از او خواسته میشود بهعنوان «نماینده وب» عمل کند، در اینترنت عمومی پیمایش کند و وظایف را از طرف کاربر براساس دستورالعملهای خواسته شده انجام دهد، «جمینی-پرو عملکرد قابل مقایسه اما کمی بدتر از GPT-3.5-Turbo دارد».
جمینی از همه مدلهای دیگر در یک حوزه که بهنظر میرسد بهطور منحصربهفردی برای مجموعه مهارتهای قبلی Google مناسب است، پیشی گرفته است: ترجمه محتوا بین زبانها. همانطور که محققان خاطرنشان می کنند: “جمینی پرو در ۸ زبان از ۲۰ زبان از GPT 3.5 Turbo و GPT 4 Turbo بهتر عمل می کند و در ۴ زبان به بهترین عملکردها دست یافته است.” اما حتی این نتیجه با این واقعیت خدشه دار شد که «جمینی پرو تمایل زیادی به مسدود کردن پاسخها در تقریباً ۱۰ جفت زبان نشان داد، که نشان میدهد یک سیستم تعدیل محتوا/ایمنی بیش از حد وجود دارد.
برای جاه طلبی های هوش مصنوعی گوگل و برای کاربران چه معنایی دارد؟
نتایج به وضوح ضربه ای به جاه طلبی های گوگل برای تقابل با OpenAI در مسابقه هوش مصنوعی مولد است و با توجه به اینکه مدل قدرتمندتر Google Gemini Ultra تا سال آینده عرضه نمی شود، احتمالاً به این معنی است که گوگل در زمینه هوش مصنوعی عقب مانده است. عملکرد حداقل تا آن زمان
با این حال، جالب توجه است که این مطالعه همچنین نشان داد که موفقیتآمیز جدید Mistral LLM Mixtral 8x7B – که از رویکرد “ترکیبی از متخصصان” استفاده میکند، که در آن چندین مدل مختلف هوش مصنوعی کوچکتر به هم متصل شدهاند و هر کدام مجموعههای مختلفی از وظایف را انجام میدهند که به طور ایدهآل برای آنها تخصصی شدهاند. عملکرد بسیار بدتر از OpenAI’s GPT-3.5 Turbo در کل، در بیشتر موارد. به گفته محققان، Gemini Pro در هر کاری که ما بررسی کردیم بهتر از Mixtral عمل می کند.
این نشان دهنده نقطه روشنی برای کار هوش مصنوعی گوگل است: هنوز هم بهتر از منبع باز پیشرفته است.
با این حال، به طور کلی، با این تصور که OpenAI در حال حاضر، هنوز پادشاه هوش مصنوعی مولد مصرفکننده و شرکتها است، سخت است که از این مطالعه خارج نشویم.
تأثیرگذاران هوش مصنوعی مانند پروفسور اتان مولیک، استاد دانشکده تجارت وارتون دانشگاه پنسیلوانیا، به نظر می رسد که تا حد زیادی با این موضوع موافق باشند. همانطور که Mollick در پست ارسال کرد ایکس امروز: “برای اکثر موارد فردی، شما می خواهید از بهترین هوش مصنوعی استفاده کنید که به وضوح همچنان GPT-4 است… حداقل تا زمانی که Gemini Ultra در سال جدید منتشر شود.”
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/google-gemini-is-not-even-as-good-as-gpt-3-5-turbo-researchers-find/