VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید
متا پلتفرم ها نشان داده شد بسیاری از ویژگی های جدید هوش مصنوعی این هفته در کنفرانس سالانه Meta Connect در مقر اصلی خود در منلو پارک، کالیفرنیا، برای خدماتی که با مصرف کننده مواجه است، فیس بوک، اینستاگرام و واتس اپ است.
اما بزرگترین خبر از شرکت مارک زاکربرگ ممکن است در واقع به شکل یک مقاله علمی کامپیوتری باشد که بدون هیاهو توسط محققان متا در وب سایت دسترسی آزاد و غیر همتا منتشر شده است. arXiv.org.
این مقاله Llama 2 Long را معرفی می کند، یک مدل جدید هوش مصنوعی بر اساس متن باز متا Llama 2 در تابستان منتشر شداما به گفته محقق-نویسندگان مقاله، «پیشآموزش مستمر از Llama 2 با توالیهای آموزشی طولانیتر و در مجموعه دادهای که متون طولانی نمونهبرداری میشوند، انجام شده است».
در نتیجه، مدل جدید هوش مصنوعی متا از برخی از رقبای پیشرو در تولید پاسخها به درخواستهای طولانی (تعداد کاراکترهای بیشتر) از کاربران، از جمله عملکرد بهتری دارد. GPT-3.5 Turbo OpenAI با پنجره زمینه ۱۶۰۰۰ کاراکتریهمچنین کلود ۲ با پنجره زمینه ۱۰۰۰۰۰ کاراکتری.
چگونه LLama 2 Long به وجود آمد
محققان متا نسخه اصلی Llama 2 را در اندازههای مختلف پارامتر آموزشی آن در دسترس گرفتند – مقادیر دادهها و اطلاعاتی که الگوریتم میتواند به تنهایی با یادگیری تغییر کند، که در مورد Llama 2 به ۷ میلیارد، ۱۳ میلیارد، ۳۴ میرسد. میلیارد و ۷۰ میلیارد نوع – و شامل منابع داده متنی طولانی تر از مجموعه داده آموزشی اصلی Llama 2 است. به طور دقیق ۴۰۰ میلیارد توکن دیگر.
سپس، محققان معماری اصلی Llama 2 را به همان شکل حفظ کردند و فقط “اصلاحات لازم را در رمزگذاری موقعیتی انجام دادند که برای حضور طولانیتر مدل بسیار مهم است.”
آن اصلاح به بود جاسازی پوزیشن روتاری (RoPE) رمزگذاری، روشی برای برنامهنویسی مدل ترانسفورماتور زیربنای LLMهایی مانند Llama 2 (و LLama 2 Long)، که اساساً جاسازیهای نشانه آنها (اعداد مورد استفاده برای نمایش کلمات، مفاهیم و ایدهها) را بر روی یک نمودار سه بعدی که موقعیتهای نسبی آنها را نشان میدهد نگاشت میکند. به نشانه های دیگر، حتی در صورت چرخش. این به یک مدل اجازه میدهد تا پاسخهای دقیق و مفیدی را با اطلاعات کمتر (و در نتیجه فضای ذخیرهسازی محاسباتی کمتر) نسبت به روشهای دیگر تولید کند.
محققان متا “زاویه چرخش” رمزگذاری RoPE خود را از Llama 2 به Llama 2 Long کاهش دادند، که آنها را قادر ساخت تا اطمینان حاصل کنند که “توکن های دورتر” بیشتر، مواردی که به ندرت رخ می دهند یا با سایر اطلاعات کمتری وجود دارند، همچنان شامل می شوند. در پایگاه دانش مدل
استفاده کردن یادگیری تقویتی از بازخورد انسانی (RLHF)یک روش متداول آموزش مدل هوش مصنوعی که در آن هوش مصنوعی برای پاسخهای صحیح با نظارت انسان برای بررسی آن و دادههای مصنوعی تولید شده توسط خود چت Llama 2 پاداش میگیرد، محققان توانستند عملکرد آن را در وظایف رایج LLM از جمله کدنویسی، ریاضی، درک زبان، بهبود بخشند. استدلال عقل سلیم و پاسخ دادن به سؤالات ایجاد شده توسط کاربر انسانی.

جای تعجب نیست که جامعه AI منبع باز
با چنین نتایج چشمگیری نسبت به Llama 2 معمولی و Anthropic’s Claude 2 و OpenAI’s GPT-3.5 Turbo، تعجبی ندارد که جامعه هوش مصنوعی منبع باز Reddit و توییتر و اخبار هکرها از زمان انتشار مقاله در اوایل این هفته، تحسین و هیجان خود را در مورد Llama 2 ابراز کرده اند – این یک اعتبار بزرگ برای رویکرد “متن باز” متا نسبت به هوش مصنوعی مولد است، و نشان می دهد که منبع باز می تواند با منبع بسته، “پرداخت برای بازی” رقابت کند. مدل های ارائه شده توسط استارت آپ های با بودجه خوب
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/