مایکروسافت مدل زبان کوچک Phi-2 را راه اندازی کرد: SLM چیست، چه تفاوتی با LLM هایی مانند ChatGPT دارد؟

مایکروسافت در اقدامی پیشگامانه در دنیای هوش مصنوعی و LLM (مدل‌های زبان بزرگ)، Phi-2 را معرفی کرد که یک مدل زبان فشرده یا کوچک (SLM) است. Phi-2 به عنوان نسخه ارتقا یافته Phi-1.5 در حال حاضر از طریق کاتالوگ مدل Azure AI Studio قابل دسترسی است.

مایکروسافت ادعا می‌کند که این مدل جدید می‌تواند از همتایان بزرگ‌تری مانند Llama-2، Mistral و Gemini-2 در تست‌های مختلف معیار هوش مصنوعی پیشی بگیرد.

Phi-2 که اوایل این هفته پس از اعلامیه ساتیا نادلا در Ignite 2023 معرفی شد، نتیجه تلاش‌های تیم تحقیقاتی مایکروسافت است.

مدل هوش مصنوعی مولد دارای ویژگی هایی مانند “عقل سلیم”، “درک زبان” و “استدلال منطقی” است. مایکروسافت ادعا می‌کند که Phi-2 می‌تواند حتی ۲۵ برابر اندازه‌اش در کارهای خاص از مدل‌ها بهتر عمل کند.

Phi-2 که با استفاده از داده‌های «کیفیت کتاب درسی» از جمله مجموعه داده‌های مصنوعی، دانش عمومی، تئوری ذهن، فعالیت‌های روزانه و غیره آموزش داده شده است، یک مدل مبتنی بر ترانسفورماتور است که دارای قابلیت‌هایی مانند هدف پیش‌بینی کلمه بعدی است.

مایکروسافت نشان می‌دهد که آموزش Phi-2 در مقایسه با مدل‌های بزرگ‌تر مانند GPT-4 ساده‌تر و مقرون‌به‌صرفه‌تر است، که طبق گزارش‌ها، آموزش با استفاده از ده‌ها هزار پردازنده A100 Tensor Core حدود ۹۰ تا ۱۰۰ روز طول می‌کشد.

قابلیت‌های Phi-2 فراتر از پردازش زبان است، زیرا می‌تواند معادلات پیچیده ریاضی و مسائل فیزیک را حل کند و همچنین خطاها را در محاسبات دانش‌آموز شناسایی کند. در تست‌های معیاری که شامل استدلال عقل سلیم، درک زبان، ریاضیات و کدنویسی می‌شود، Phi-2 از مدل‌هایی مانند ۱۳B Llama-2 و ۷B Mistral بهتر عمل کرده است.

قابل ذکر است که با اختلاف قابل توجهی از ۷۰B Llama-2 LLM پیشی گرفته و حتی از GoogleGemini Nano 2، یک مدل ۳٫۲۵B که برای اجرای بومی Google Pixel 8 Pro طراحی شده است، بهتر عمل می کند.

در زمینه به سرعت در حال تکامل پردازش زبان طبیعی، مدل‌های زبانی کوچک به عنوان رقبای قدرتمند در حال ظهور هستند و طیف وسیعی از مزایایی را ارائه می‌دهند که به موارد استفاده خاص و نیازهای زمینه‌ای، نسبت به مدل‌های بسیار رایج LLM یا مدل‌های زبانی بزرگ ارائه می‌شوند. این مزایا در حال تغییر شکل چشم انداز فناوری های پردازش زبان است. در اینجا برخی از مزایای کلیدی مدل های زبان فشرده آورده شده است:

کارایی محاسباتی: مدل‌های زبان‌های کوچک به توان محاسباتی کمتری هم برای آموزش و هم برای استنتاج نیاز دارند، و آنها را برای کاربرانی با منابع محدود یا دستگاه‌هایی با قابلیت‌های محاسباتی پایین‌تر به گزینه‌ای امکان‌پذیرتر تبدیل می‌کند.

استنتاج سوئیفت: مدل‌های کوچک‌تر دارای زمان استنتاج سریع‌تر هستند و آنها را برای برنامه‌های بلادرنگ که تأخیر کم برای موفقیت مهم است، مناسب می‌سازد.

منبع پسند: مدل‌های زبان فشرده، بر اساس طراحی، از حافظه کمتری استفاده می‌کنند، که آنها را برای استقرار در دستگاه‌هایی با منابع محدود، مانند گوشی‌های هوشمند یا دستگاه‌های لبه، ایده‌آل می‌کند.

انرژی کارآمد: به دلیل کاهش اندازه و پیچیدگی، مدل‌های کوچک انرژی کمتری را در طول آموزش و استنباط مصرف می‌کنند و به برنامه‌هایی پاسخ می‌دهند که بازده انرژی یک نگرانی حیاتی است.

کاهش زمان آموزش: آموزش مدل‌های کوچک‌تر در مقایسه با همتایان بزرگ‌ترشان، فرآیندی با زمان کارآمد است که در سناریوهایی که تکرار و استقرار سریع مدل ضروری است، مزیت قابل‌توجهی ارائه می‌کند.

قابلیت تفسیر پیشرفته: مدل‌های کوچک‌تر اغلب برای تفسیر و درک ساده‌تر هستند. این امر به ویژه در کاربردهایی که قابلیت تفسیر و شفافیت مدل از اهمیت بالایی برخوردار است، همانطور که در زمینه های پزشکی یا قانونی دیده می شود، بسیار مهم است.

راه حل های مقرون به صرفه: آموزش و استقرار مدل های کوچک از نظر منابع محاسباتی و زمان هزینه کمتری دارد. این دسترسی آنها را به انتخابی مناسب برای افراد یا سازمان هایی با محدودیت بودجه تبدیل می کند.

مناسب برای دامنه های خاص: در کاربردهای خاص یا دامنه خاص، یک مدل کوچکتر ممکن است نسبت به یک مدل زبان بزرگ و همه منظوره کافی و مناسب تر باشد.

بسیار مهم است که تأکید کنیم که تصمیم گیری بین مدل های زبان کوچک و بزرگ به الزامات خاص هر کار بستگی دارد. در حالی که مدل‌های بزرگ در گرفتن الگوهای پیچیده در داده‌های متنوع برتری دارند، مدل‌های کوچک در سناریوهایی که کارایی، سرعت و محدودیت‌های منابع اولویت دارند، بسیار ارزشمند هستند.

(با ورودی های نمایندگی ها)


منبع: https://www.firstpost.com/tech/microsoft-launches-small-language-model-phi-2-what-are-slms-how-are-they-different-to-llms-like-chatgpt-13514872.html

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *