اندازه مطمئناً وقتی صحبت از مدلهای زبان بزرگ (LLM) میشود اهمیت دارد، زیرا بر جایی که یک مدل میتواند اجرا شود تأثیر میگذارد.
هوش مصنوعی پایداریفروشنده ای که شاید بیشتر به خاطر فناوری هوش مصنوعی مولد متن به تصویر پایدار شناخته شده است، امروز یکی از کوچکترین مدل های خود را با اولین Stable LM 2 1.6B منتشر کرد. LM پایدار یک LLM تولید محتوای متنی است که Stability AI برای اولین بار در آوریل ۲۰۲۳ با هر دو مدل ۳ میلیارد و ۷ میلیارد پارامتر راه اندازی شد. مدل جدید StableLM در واقع دومین مدلی است که در سال ۲۰۲۴ توسط Stability AI پس از این شرکت عرضه شد. کد پایدار ۳B اوایل این هفته راه اندازی شد.
مدل جدید فشرده و در عین حال قدرتمند Stable LM با هدف کاهش موانع و امکان مشارکت بیشتر توسعه دهندگان در اکوسیستم هوش مصنوعی مولد با ترکیب داده های چندزبانه به هفت زبان – انگلیسی، اسپانیایی، آلمانی، ایتالیایی، فرانسوی، پرتغالی و هلندی است. این مدل از پیشرفتهای الگوریتمی اخیر در مدلسازی زبان استفاده میکند تا به آنچه که Stability AI امیدوار است تعادل بهینه بین سرعت و عملکرد باشد، ایجاد کند.
کارلوس ریکلمه، رئیس تیم زبان در Stability AI به VentureBeat گفت: «به طور کلی، مدلهای بزرگتر که بر روی دادههای مشابه با دستورالعمل آموزشی مشابه آموزش میبینند، بهتر از مدلهای کوچکتر عمل میکنند. با این حال، با گذشت زمان، زمانی که مدلهای جدید الگوریتمهای بهتری را پیادهسازی میکنند و بر روی دادههای با کیفیت بیشتر و بالاتر آموزش میبینند، گاهی اوقات شاهد عملکرد بهتر مدلهای کوچکتر اخیر از مدلهای بزرگتر قدیمیتر هستیم.»
چرا کوچکتر بهتر است (این بار) با Stable LM
بر اساس هوش مصنوعی پایداری، این مدل در اکثر معیارها، از جمله معیارهای مایکروسافت، از سایر مدل های زبان کوچک با کمتر از ۲ میلیارد پارامتر بهتر عمل می کند. فی-۲ (۲٫۷B)، TinyLlama 1.1Bو فالکون ۱ بی.
Stable LM کوچکتر جدید حتی می تواند از برخی مدل های بزرگتر، از جمله مدل قبلی Stable LM 3B خود Stability AI پیشی بگیرد.
Riquelme گفت: “Stable LM 2 1.6B بهتر از برخی از مدل های بزرگتر که چند ماه پیش آموزش داده شده بودند، عمل می کند.” اگر به رایانهها، تلویزیونها یا ریزتراشهها فکر کنید، تقریباً میتوانیم روند مشابهی را ببینیم، آنها با گذشت زمان کوچکتر، نازکتر و بهتر شدند.»
برای روشن بودن، Stable LM 2 1.6B کوچکتر به دلیل اندازه اش دارای اشکالاتی است. Stability AI در انتشار خود برای مدل جدید هشدار می دهد که “…به دلیل ماهیت مدل های زبانی کوچک و کم ظرفیت، Stable LM 2 1.6B ممکن است به طور مشابه مشکلات رایجی مانند نرخ بالای توهم یا زبان بالقوه سمی را نشان دهد.”
شفافیت و داده های بیشتر هسته اصلی نسخه جدید مدل است
هرچه بیشتر به سمت گزینه های کوچکتر قدرتمندتر LLM برود، یکی از مواردی است که هوش مصنوعی پایداری در چند ماه گذشته از آن استفاده کرده است.
در دسامبر ۲۰۲۳، StableLM Zephyr 3B مدل منتشر شد و عملکرد بیشتری را برای StableLM با اندازه کوچکتر از تکرار اولیه در آوریل ارائه کرد.
Riquelme توضیح داد که مدلهای جدید Stable LM 2 بر روی دادههای بیشتر، از جمله اسناد چند زبانه به ۶ زبان علاوه بر انگلیسی (اسپانیایی، آلمانی، ایتالیایی، فرانسوی، پرتغالی و هلندی) آموزش داده شدهاند. جنبه جالب دیگری که توسط Riquelme برجسته شده است، ترتیب نمایش داده ها به مدل در طول آموزش است. او اشاره کرد که ممکن است تمرکز بر انواع مختلف داده ها در مراحل مختلف آموزشی مفید باشد.
هوش مصنوعی پایداری مدلهای جدید را با گزینههای از پیش آموزشدیده و تنظیمشده و همچنین قالبی که محققان بهعنوان «…آخرین ایست بازرسی مدل قبل از سرد شدن قبل از آموزش» توصیف میکنند، در دسترس قرار میدهد.
Riquelme گفت: “هدف ما در اینجا این است که ابزارها و مصنوعات بیشتری را برای توسعه دهندگان به منظور نوآوری، تغییر و ساخت بر روی مدل فعلی ما فراهم کنیم.” در اینجا ما یک مدل نیمه پخته خاص را برای بازی مردم ارائه می دهیم.
Riquelme توضیح داد که در طول آموزش، مدل به طور متوالی به روز می شود و عملکرد آن افزایش می یابد. در آن سناریو، اولین مدل چیزی نمیداند، در حالی که مدل آخر بیشتر جنبههای داده را مصرف کرده و امیدواریم یاد گرفته باشد. در همان زمان، Riquelme گفت که مدلها ممکن است در پایان دوره آموزشی، انعطافپذیری کمتری داشته باشند، زیرا مجبور به تکمیل یادگیری هستند.
او گفت: «ما تصمیم گرفتیم درست قبل از شروع آخرین مرحله آموزش، مدل را به شکل فعلی ارائه کنیم، تا -امیدوارم- تخصصی کردن آن برای سایر وظایف یا مجموعه دادههایی که افراد ممکن است بخواهند از آن استفاده کنند، آسانتر باشد.» ما مطمئن نیستیم که آیا این به خوبی کار خواهد کرد، اما ما واقعاً به توانایی افراد برای استفاده از ابزارها و مدلهای جدید به روشهای شگفتانگیز و شگفتانگیز اعتقاد داریم.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/stability-ai-unveils-smaller-more-efficient-1-6b-language-model-as-part-of-ongoing-innovation/