مایکروسافت در اقدامی پیشگامانه در دنیای هوش مصنوعی و LLM (مدلهای زبان بزرگ)، Phi-2 را معرفی کرد که یک مدل زبان فشرده یا کوچک (SLM) است. Phi-2 به عنوان نسخه ارتقا یافته Phi-1.5 در حال حاضر از طریق کاتالوگ مدل Azure AI Studio قابل دسترسی است.
مایکروسافت ادعا میکند که این مدل جدید میتواند از همتایان بزرگتری مانند Llama-2، Mistral و Gemini-2 در تستهای مختلف معیار هوش مصنوعی پیشی بگیرد.
Phi-2 که اوایل این هفته پس از اعلامیه ساتیا نادلا در Ignite 2023 معرفی شد، نتیجه تلاشهای تیم تحقیقاتی مایکروسافت است.
مدل هوش مصنوعی مولد دارای ویژگی هایی مانند “عقل سلیم”، “درک زبان” و “استدلال منطقی” است. مایکروسافت ادعا میکند که Phi-2 میتواند حتی ۲۵ برابر اندازهاش در کارهای خاص از مدلها بهتر عمل کند.
Phi-2 که با استفاده از دادههای «کیفیت کتاب درسی» از جمله مجموعه دادههای مصنوعی، دانش عمومی، تئوری ذهن، فعالیتهای روزانه و غیره آموزش داده شده است، یک مدل مبتنی بر ترانسفورماتور است که دارای قابلیتهایی مانند هدف پیشبینی کلمه بعدی است.
مایکروسافت نشان میدهد که آموزش Phi-2 در مقایسه با مدلهای بزرگتر مانند GPT-4 سادهتر و مقرونبهصرفهتر است، که طبق گزارشها، آموزش با استفاده از دهها هزار پردازنده A100 Tensor Core حدود ۹۰ تا ۱۰۰ روز طول میکشد.
قابلیتهای Phi-2 فراتر از پردازش زبان است، زیرا میتواند معادلات پیچیده ریاضی و مسائل فیزیک را حل کند و همچنین خطاها را در محاسبات دانشآموز شناسایی کند. در تستهای معیاری که شامل استدلال عقل سلیم، درک زبان، ریاضیات و کدنویسی میشود، Phi-2 از مدلهایی مانند ۱۳B Llama-2 و ۷B Mistral بهتر عمل کرده است.
قابل ذکر است که با اختلاف قابل توجهی از ۷۰B Llama-2 LLM پیشی گرفته و حتی از GoogleGemini Nano 2، یک مدل ۳٫۲۵B که برای اجرای بومی Google Pixel 8 Pro طراحی شده است، بهتر عمل می کند.
در زمینه به سرعت در حال تکامل پردازش زبان طبیعی، مدلهای زبانی کوچک به عنوان رقبای قدرتمند در حال ظهور هستند و طیف وسیعی از مزایایی را ارائه میدهند که به موارد استفاده خاص و نیازهای زمینهای، نسبت به مدلهای بسیار رایج LLM یا مدلهای زبانی بزرگ ارائه میشوند. این مزایا در حال تغییر شکل چشم انداز فناوری های پردازش زبان است. در اینجا برخی از مزایای کلیدی مدل های زبان فشرده آورده شده است:
کارایی محاسباتی: مدلهای زبانهای کوچک به توان محاسباتی کمتری هم برای آموزش و هم برای استنتاج نیاز دارند، و آنها را برای کاربرانی با منابع محدود یا دستگاههایی با قابلیتهای محاسباتی پایینتر به گزینهای امکانپذیرتر تبدیل میکند.
استنتاج سوئیفت: مدلهای کوچکتر دارای زمان استنتاج سریعتر هستند و آنها را برای برنامههای بلادرنگ که تأخیر کم برای موفقیت مهم است، مناسب میسازد.
منبع پسند: مدلهای زبان فشرده، بر اساس طراحی، از حافظه کمتری استفاده میکنند، که آنها را برای استقرار در دستگاههایی با منابع محدود، مانند گوشیهای هوشمند یا دستگاههای لبه، ایدهآل میکند.
انرژی کارآمد: به دلیل کاهش اندازه و پیچیدگی، مدلهای کوچک انرژی کمتری را در طول آموزش و استنباط مصرف میکنند و به برنامههایی پاسخ میدهند که بازده انرژی یک نگرانی حیاتی است.
کاهش زمان آموزش: آموزش مدلهای کوچکتر در مقایسه با همتایان بزرگترشان، فرآیندی با زمان کارآمد است که در سناریوهایی که تکرار و استقرار سریع مدل ضروری است، مزیت قابلتوجهی ارائه میکند.
قابلیت تفسیر پیشرفته: مدلهای کوچکتر اغلب برای تفسیر و درک سادهتر هستند. این امر به ویژه در کاربردهایی که قابلیت تفسیر و شفافیت مدل از اهمیت بالایی برخوردار است، همانطور که در زمینه های پزشکی یا قانونی دیده می شود، بسیار مهم است.
راه حل های مقرون به صرفه: آموزش و استقرار مدل های کوچک از نظر منابع محاسباتی و زمان هزینه کمتری دارد. این دسترسی آنها را به انتخابی مناسب برای افراد یا سازمان هایی با محدودیت بودجه تبدیل می کند.
مناسب برای دامنه های خاص: در کاربردهای خاص یا دامنه خاص، یک مدل کوچکتر ممکن است نسبت به یک مدل زبان بزرگ و همه منظوره کافی و مناسب تر باشد.
بسیار مهم است که تأکید کنیم که تصمیم گیری بین مدل های زبان کوچک و بزرگ به الزامات خاص هر کار بستگی دارد. در حالی که مدلهای بزرگ در گرفتن الگوهای پیچیده در دادههای متنوع برتری دارند، مدلهای کوچک در سناریوهایی که کارایی، سرعت و محدودیتهای منابع اولویت دارند، بسیار ارزشمند هستند.
(با ورودی های نمایندگی ها)
منبع: https://www.firstpost.com/tech/microsoft-launches-small-language-model-phi-2-what-are-slms-how-are-they-different-to-llms-like-chatgpt-13514872.html