VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. در ۱۵ نوامبر از رهبران برتر صنعت بشنوید. پاس رایگان خود را رزرو کنید
یک شاخص توهم جدید توسط بازوی تحقیقاتی مستقر در سانفرانسیسکو ایجاد شده است گالیلهکه به شرکت ها در ساخت، تنظیم و نظارت بر برنامه های مدل زبان بزرگ (LLM) در سطح تولید کمک می کند، نشان می دهد که OpenAI مدل GPT-4 بهترین عملکرد را دارد و کمترین توهم را در هنگام انجام وظایف متعدد ایجاد می کند.
منتشر شده امروز، این شاخص نزدیک به دوازده LLM منبع باز و بسته، از جمله سری Llama متا را بررسی کرد و عملکرد هر یک از آنها را در وظایف مختلف ارزیابی کرد تا ببیند کدام LLM کمترین توهم را هنگام انجام وظایف مختلف تجربه می کند.
در نتایج، همه LLM ها با وظایف مختلف رفتار متفاوتی داشتند، اما پیشنهادات OpenAI با عملکرد تا حد زیادی ثابت در تمام سناریوها در صدر باقی ماندند.
یافتههای این شاخص بهعنوان جدیدترین راه برای کمک به شرکتها برای مقابله با چالش توهمات است – که بسیاری از تیمها را از استقرار آن باز داشته است. مدل های زبان بزرگ در بخش های حیاتی مانند مراقبت های بهداشتی، در مقیاس.
ردیابی توهم LLM آسان نیست
اگرچه نظرسنجیها نشان میدهد که شرکت علاقه زیادی به استفاده از هوش مصنوعی و LLM مولد بهویژه برای هدایت نتایج کسبوکار دارد، اما وقتی صحبت از استقرار آنها به عنوان استنتاج در تولید میشود، شرکتها میتوانند شاهد شکافهای عملکردی باشند، زیرا پاسخهای LLM 100٪ از نظر واقعی درست نیست. به این واقعیت که LLM متنی را تولید می کند یا وظایفی را بر اساس پایگاه داده برداری خود انجام می دهد که اصطلاحات و مفاهیم مرتبط هستند – صرف نظر از حقیقت.
“متغیرهای زیادی وجود دارد که در استقرار قرار می گیرند هوش مصنوعی مولد محصولات به عنوان مثال: آیا محصول شما یک ابزار همه منظوره است که بر اساس یک دستور ساده داستان تولید می کند؟ یا یک است چت بات سازمانی که به مشتریان کمک می کند به سوالات رایج بر اساس هزاران مستندات محصول اختصاصی پاسخ دهند؟ آتیندریو سانیال، یکی از بنیانگذاران و مدیر ارشد فناوری گالیله، به VentureBeat توضیح داد.
امروزه، تیمهای سازمانی از معیارها برای مطالعه عملکرد مدل استفاده میکنند، اما هیچ اندازهگیری جامعی از نحوه توهم آنها وجود ندارد – تا کنون.
برای مقابله با این چالش، Sanyal و تیم یازده LLM منبع باز و منبع بسته محبوب با اندازه های مختلف (پس از بررسی مخازن متعدد LLM، تابلوهای امتیازات و نظرسنجی های صنعتی) را انتخاب کردند و احتمال هر مدل را برای توهم در برابر سه کار رایج ارزیابی کردند: پرسش و پاسخ. بدون بازیابی نسل افزوده (RAG)پرسش و پاسخ با RAG و تولید متن طولانی.
“برای آزمایش LLM ها در بین این انواع وظایف، ما هفت مورد از محبوب ترین مجموعه داده های موجود امروز را پیدا کردیم. این مجموعه داده ها به طور گسترده به عنوان معیارهای دقیق و دقیق در نظر گرفته می شوند و به طور موثر توانایی های هر LLM مرتبط با کار در دست را به چالش می کشند. به عنوان مثال، برای پرسش و پاسخ بدون RAG، ما از مجموعه دادههای دانش مبتنی بر گسترده مانند TruthfulQA و TriviaQA برای ارزیابی اینکه چگونه این مدلها به سؤالات عمومی رسیدگی میکنند، استفاده کردیم.» Sanyal توضیح داد.
تیم گالیله از مجموعه دادهها نمونهبرداری کرد تا اندازه آنها را کاهش دهد و برای بررسی صحت و قابلیت اطمینان خروجیها، آنها را حاشیهنویسی کرد تا حقیقت پایه را مشخص کند. سپس، با استفاده از مجموعه داده های مناسب، هر مدل را در هر کار آزمایش کردند. نتایج با استفاده از معیارهای اختصاصی Correctness و Context Aderence شرکت ارزیابی شد.
این معیارها تشخیص دقیق زمانی که احتمال وقوع توهم وجود دارد را برای مهندسان و دانشمندان داده آسان میکند. دقت بر روی ثبت اشتباهات کلی منطقی و مبتنی بر استدلال متمرکز است و برای ارزیابی پرسش و پاسخ بدون RAG و انواع وظایف تولید متن طولانی استفاده میشود. در همین حال، Context Aderence توانایی های استدلال یک LLM را در اسناد و زمینه ارائه شده اندازه گیری می کند و برای ارزیابی پرسش و پاسخ با RAG استفاده می شود.”
مدل ها چطور کار کردند؟
هنگام رسیدگی به پرسشها و پاسخها بدون بازیابی، جایی که مدل برای ارائه پاسخها به دانش و آموختههای داخلی خود متکی است، خانواده GPT OpenAI از میان جمعیت متمایز بود.
مدل GPT-4-0613 امتیاز صحت ۰٫۷۷ را دریافت کرد و GPT-3.5 Turbo-1106، GPT-3.5-Turbo-Instruct و GPT-3.5-Turbo-0613 به ترتیب با امتیازهای ۰٫۷۴، ۰٫۷۰ و ۰٫۷۰ پس از آن قرار گرفتند.
فقط در این دسته متا لاما-۲-۷۰b با امتیاز ۰٫۶۵ به خانواده GPT نزدیک شد. همه مدلهای دیگر، بهویژه Llama-2-7b-chat و Mosaic’s ML’s MPT-7b-instruct به ترتیب با امتیازهای ۰٫۵۲ و ۰٫۴۰ عقبتر بودند.
برای وظایف مربوط به بازیابی، که در آن مدل اطلاعات مربوطه را از یک مجموعه داده یا سند مشخص میگیرد، GPT-4-0613 دوباره به عنوان بهترین عملکرد با امتیاز پایبندی به زمینه ۰٫۷۶ ظاهر شد. اما جالبتر این است که GPT-3.5-turbo-0613 و -۱۱۰۶ نیز بسیار به هم نزدیک شده و عملکرد خود را به ترتیب با امتیازهای ۰٫۷۵ و ۰٫۷۴ مطابقت داده اند. مدل منبع باز Hugging Face، Zephyr-7b، حتی با امتیاز ۰٫۷۱ عملکرد خوبی داشت و از Llama-2-70b بسیار بزرگتر متا (نمره = ۰٫۶۸) پیشی گرفت.
قابل توجه است که بزرگترین فضا برای پیشرفت در Falcon-40b امارات و Mosaic ML’s MPT-7b که به ترتیب نمرات ۶۰/۰ و ۵۸/۰ را کسب کردند.
در نهایت، برای تولید متون طولانی، مانند گزارش، مقاله و مقاله، GPT-4-0613 و Llama-2-70b به ترتیب امتیازهای صحت ۰٫۸۳ و ۰٫۸۲ را به دست آوردند که کمترین تمایل را به توهم نشان می دهند. GPT-3.5-Turbo-1106 با Llama مطابقت داشت در حالی که نوع ۰۶۱۳ با امتیاز ۰٫۸۱ دنبال شد.
در این مورد MPT-7b با امتیاز ۰٫۵۳ عقب افتاد.
فرصتی برای متعادل کردن عملکرد با هزینه
در حالی که GPT-4 OpenAI برای همه کارها در صدر قرار دارد، مهم است که توجه داشته باشید که قیمت گذاری مبتنی بر API OpenAI برای این مدل می تواند به راحتی هزینه ها را افزایش دهد. به این ترتیب، گالیله توصیه میکند، تیمها میتوانند از نزدیک مدلهای GPT-3.5-Turbo را دنبال کنند تا بدون صرف هزینههای زیاد، عملکرد تقریباً خوبی داشته باشند. در برخی موارد، مانند تولید متن، مدلهای منبع باز مانند Llama-2-70b نیز میتوانند به تعادل عملکرد و هزینه کمک کنند.
با این حال، مهم است که توجه داشته باشید که این یک شاخص در حال تحول است. مدلهای جدید به صورت هفتگی تولید میشوند و مدلهای موجود با گذشت زمان بهبود مییابند. گالیله قصد دارد این شاخص را به صورت فصلی به روز کند تا به تیم ها تجزیه و تحلیل دقیقی ارائه دهد که کمترین رتبه را تا اکثر مدل های توهم برای کارهای مختلف دارد.
“ما می خواستیم به تیم ها نقطه شروعی برای رسیدگی به توهمات بدهیم. در حالی که ما انتظار نداریم که تیم ها نتایج شاخص توهم را به عنوان انجیل تلقی کنند، امیدواریم این شاخص به عنوان یک نقطه شروع بسیار کامل برای شروع هوش مصنوعی آنها باشد. ما امیدواریم که معیارها و روشهای ارزیابی تحت پوشش تیمهای بازوی شاخص توهم با ابزارهایی برای ارزیابی سریعتر و مؤثرتر مدلهای LLM برای یافتن LLM مناسب برای ابتکار عمل خود باشند.»
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/galileo-hallucination-index-identifies-gpt-4-as-best-performing-llm-for-different-use-cases/