StreamingLLM نشان می‌دهد که چگونه یک توکن می‌تواند مدل‌های هوش مصنوعی را به طور نامحدود اجرا کند

VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید


مدل های زبان بزرگ متن به متن (LLM) مانند ChatGPT OpenAI، لاما ۲ متا، آنتروپیک کلود ۲ در مرکز جریان بوده اند عجله طلا در سیلیکون ولی و دنیای فناوری سازمانی گسترده تر – اما به طور کلی، همه آنها برخی از مسائل مشابه را دارند.

یکی از این مسائل عملکرد مداوم با کیفیت بالا در طول زمان در طول یک مکالمه با یک کاربر است – جایی که LLM پاسخ‌هایی را ارائه می‌دهد که در میانه مکالمه و در انتهای مکالمه به همان اندازه مفید، سریع و مرتبط هستند که در ابتدا انجام می‌دهد. مهم نیست که آن مکالمه چقدر طول بکشد یا چه تعداد تبادل گفت وگو را در بر می گیرد. این به این دلیل است که LLM ها روی بلوک هایی از داده ها یا توالی هایی با طول های مشخص از قبل آموزش داده شده اند – ۴۰۰۰ توکن در مورد Llama 2 و بسیاری دیگر از LLM های پیشرو.

هنگامی که کاربر توکن‌های بیشتری از این را وارد می‌کند – حتی اگر این کار را در چندین دستور مختلف انجام دهند – LLM شروع به کاهش عملکرد، یعنی پاسخ‌های با کیفیت بدتر می‌کند. این برای شرکت‌هایی که به دنبال داشتن LLM هستند که به مشتریان یا کارمندان به شکلی باز کمک می‌کنند قابل قبول نیست.

آ کاغذ جدید اخیرا توسط محققان در متامؤسسه فناوری ماساچوست (MIT) و دانشگاه کارنگی ملون (CMU) دریافتند که یک راه ساده برای کمک به LLM ها وجود دارد که عملکرد خود را حتی برای مکالمات طولانی مدت نامحدود حفظ کنند، که در آن اعلان های کاربر مجموعا طولانی تر از آنچه LLM است. برای رسیدگی به یکباره آموزش دیده بود.

رویداد

هوش مصنوعی آزاد شد

یک شب انحصاری فقط دعوت از بینش و شبکه، که برای مدیران ارشد سازمانی که بر پشته‌های داده و استراتژی‌ها نظارت دارند، طراحی شده است.

بیشتر بدانید

کار آنها، یک چارچوب جدید برای آموزش و استقرار استنباط های LLM با نام “StreamingLLM”، تعدادی از یافته های مهم را برای سایر محققان و شرکت های هوش مصنوعی که به دنبال استفاده از LLM برای کمک به تجارت خود هستند، نشان می دهد.

مشکل StreamingLLM به دنبال حل آن است

همانطور که هر کسی که با یک متخصص پشتیبانی مشتری انسانی یا حتی یک فناوری اطلاعات داخلی در کارفرمای شما تعامل داشته است، می‌داند، اغلب ممکن است یک مکالمه طولانی و چندین پیام رد و بدل شده بین شما و کمکی که به شما اختصاص داده شده است برای حل مشکل مورد نظر نیاز داشته باشد.

اما مهم نیست که مشتری باشید یا کارمند – می‌خواهید شخصی که به شما منصوب می‌شود به شما کمک کند تا به طور مداوم پاسخگو، آگاه و مفید در ارتباطات خود با شما در کل تبادل شما باشد. اگر ناگهان، در اعماق مکالمه ای که قبلاً برای توضیح مسئله خود وقت و انرژی صرف کرده اید، کمک کننده شما شروع به پاسخ دادن با پاسخ های یک کلمه ای کند، آهسته تر یا بدون دادن اطلاعات مورد نیاز شما، می تواند بسیار خسته کننده و معکوس کننده باشد.

اگرچه این مشکل می‌تواند برای برخی از افرادی باشد که حواسشان پرت، بی‌انگیزه یا خسته از مکالمه است، اما برای LLM‌ها رایج است، زیرا وقتی مکالمه با آن‌ها از طول «پنجره زمینه»، یعنی حداکثر تعداد فراتر می‌رود، عملکردشان ضعیف می‌شود. از توکن هایی که LLM می تواند به یکباره به آنها پاسخ دهد و برای پیش آموزش آنها استفاده شده است. این درست است حتی اگر اکثر LLM ها برای مدیریت مکالمات باز که ممکن است برای چندین خط ادامه داشته باشند طراحی شده اند.

حتی اگر هر یک از این خطوط در پنجره زمینه یک LLM قرار گیرد – و همه آنها باید، زیرا اکثر LLMها دارای مرز بالایی برای مقدار متنی هستند که می توانید وارد کنید تا در یک پیام به آنها پاسخ دهند – با هم، مجموع انباشته پیام‌های متعدد در یک مکالمه به تعداد نشانه‌هایی اضافه می‌شود که بزرگتر از مواردی است که در پنجره زمینه اولیه پیش از آموزش LLM گنجانده شده است، که باعث می‌شود عملکرد LLM پس از این مرحله آسیب ببیند.

به نظر می رسد هنگامی که با یک نماینده پشتیبانی مشتری انسانی صحبت می کنید، اگر یک بار تعداد معینی از کلمات را در چند جمله به آنها بگویید که تا حدی ناشناخته برای شما جمع می شود، ناگهان احمق تر و کمتر توجه می شوند.

محققان پشت چارچوب StreamingLLM مشکل را در مقاله خود به صورت زیر خلاصه می کنند: “به عنوان مثال، یک دستیار ChatBot ایده آل می تواند به طور پایدار روی محتوای مکالمات یک روزه اخیر کار کند. با این حال، تعمیم LLM به طول های توالی طولانی تر برای LLM بسیار چالش برانگیز است. از قبل از قبل آموزش دیده اند.”

در حالی که می‌توان طول توکن‌های توکن را در LLM‌های پیش‌آموزشی گسترش داد، و در حال حاضر، تعدادی از محققین این کار را انجام داده‌اند، نمی‌توان برای مدت زمانی که یک مکالمه منحصربه‌فرد با یک کاربر معین طول می‌کشد، توضیح داد.

بنابراین، چگونه می‌توانید یک LLM با طول پنجره زمینه ثابت که در پیش‌آموزش استفاده می‌شود – هر چند طولانی باشد – به دست آورید تا زمانی که این طول در پیام‌های متعدد محو شد، عملکرد خود را حفظ کند؟

راه حلی که محققان توسعه دادند

محققان یک راه حل ابتکاری برای حفظ عملکرد LLM ایجاد کردند، زمانی که مقدار اطلاعات در یک مکالمه از تعداد نشانه های استفاده شده در توالی قبل از آموزش فراتر رفت.

چیزی که محققان کشف کردند این بود که LLM ها به نشانه هایی که در اوایل مکالمه یا آموزش از آنها خواسته می شود توجه بیشتری می کنند.

آنها می نویسند: «مقدار شگفت انگیز توجه زیادی به نشانه های اولیه اختصاص داده می شود. چرا این طور است؟

آنها می نویسند: “با توجه به ماهیت متوالی مدل سازی زبان اتورگرسیو، نشانه های اولیه برای همه نشانه های بعدی قابل مشاهده هستند، در حالی که نشانه های بعدی فقط برای مجموعه محدودی از نشانه های بعدی قابل مشاهده هستند.” در نتیجه، توکن‌های اولیه آسان‌تر آموزش داده می‌شوند تا به عنوان محفظه توجه عمل کنند و توجه غیر ضروری را به خود جلب کنند.»

به عبارت دیگر: هر چیزی که در هنگام مکالمه با یک LLM ابتدا در مقابل آن قرار دهید، می‌تواند و بعداً در مبادلات اعلان‌ها و خروجی‌های بعدی توسط آن استفاده می‌شود، اما هر چیزی که بعداً از آن درخواست کنید، این کار را انجام می‌دهد. لازم نیست همان چیزی باشد که LLM انتخاب می کند تا روی آن تمرکز کند یا در پاسخ های خود به آن ارجاع دهد.

با این حال، محققان کشف کردند که اگر کاربر برخی از توکن های اولیه را ارائه دهد بعد در مکالمه با یک LLM، در پاسخ های بعدی، کافی است عملکرد LLM را به نزدیک به اوج خود بازگردانید.

قیاس پشتیبانی مشتری انسانی ما را قبلاً به خاطر دارید؟ تصور کنید که با گفتن چهار کلمه جادویی مشابه که در ابتدای مکالمه با آنها گفتید، به طور ناگهانی آنها را وادار کنید تا حتی در اواخر مکالمه با شما پاسخ های باکیفیت ارائه کنند.

محققان این نشانه‌های اولیه را که بیشتر توجه LLM را به خود جلب می‌کنند، به طور مناسب به عنوان «حذف توجه» می‌نامند و توجه دارند که برای اکثر LLM‌ها، «معرفی چهار نشانه اولیه، به عنوان کاهش توجه، برای بازگرداندن عملکرد LLM کافی است… اضافه کردن یک یا دو مورد به بهبودی کامل منجر نمی شود.”

با معرفی مجدد نشانه‌های تمرکز حواس در هر درخواست بعدی از یک کاربر، محققان توانستند عملکرد مدل‌های پیشرو از جمله LLama 2 و Falcon 40B را در میان اعلان‌های متشکل از ۴ میلیون توکن (یک افزایش ۱۰۰۰ برابری نسبت به پنجره زمینه اصلی حفظ کنند). فقط ۴۰۰۰ توکن) “و به طور بالقوه حتی بیشتر”، و سرعت آن را در پاسخ های بعدی ۲۲٫۲ برابر افزایش داد.

به عبارت دیگر، Streaming LLM “LLM هایی را که با یک پنجره توجه محدود آموزش دیده اند را قادر می سازد تا روی متنی با طول بی نهایت بدون تنظیم دقیق کار کنند.” نکته مهم – این متن با طول “بی نهایت” همچنان باید به LLM در قطعات محدود به اندازه پنجره زمینه آن تحویل داده شود. با این حال، این بدان معناست که LLM می تواند یک مکالمه بی پایان با کسی داشته باشد و عملکرد خود را در سراسر (از لحاظ نظری) حفظ کند.

یک نشانه برای حکومت بر همه آنها (حداقل توجه آنها)

محققان با برداشتن گامی دیگر از یافته‌های خود، فرضیه‌ای را مطرح کردند و ثابت کردند که شما در واقع می‌توانید تنها با افزودن یک نشانه خاص برای عمل به عنوان یک «حذف توجه» برای یک LLM در اوایل، و با معرفی مجدد این توکن بعداً به‌صورت دستی یا خودکار، کنار بیایید. (در پشت صحنه یک کاربر یا کارمندی که با LLM روبرو است)، عملکرد LLM می تواند همچنان بالا نگه داشته شود.

محققان توضیح می دهند: «معرفی توکن سینک در تثبیت مکانیسم توجه بسیار مؤثر است. “به سادگی جفت کردن این توکن سینک با توکن های اخیر به اندازه کافی عملکرد مدل را تقویت می کند… با توجه به این یافته ها، توصیه می کنیم LLM های آینده را با توکن سینک در همه نمونه ها آموزش دهید تا استقرار استریم را بهینه کنید.”

یکی از نویسندگان مقاله، Guangxuan Xiao از MIT، در پاسخ به این سوال که از چه داده‌های خاصی باید برای یک مرکز توجه استفاده شود، در ایمیلی به VentureBeat نوشت که «حذف‌های توجه» می‌توانند نشانه‌های اولیه باشند؛ تمرکز بیشتر بر موقعیت آن‌ها است. معناشناسی… اینها کلمات یا مفاهیم خاصی نیستند، حتی نشانه ها (به عنوان مثال، خط شکن “\n”) بدون معانی معنایی به طور موثر کار می کنند.”

شیائو در مورد آنچه که محققان امیدوارند StreamingLLM برای چه مورد استفاده قرار گیرد، گفت: “ما StreamingLLM را برای کاربردهای پیوسته، مانند دیالوگ های چند دور طراحی کردیم. این برای مواردی که یک مدل باید بدون اتکا به داده های گذشته بدون وقفه کار کند، عالی است. یک دستیار روزانه LLM این را مثال می‌زند. با روش ما، این مدل می‌تواند با استفاده از تعاملات اخیر ادامه یابد و نیاز به تجدید مکرر حافظه پنهان را از بین ببرد.

با این حال، محققان همچنین می‌دانند که محدودیت‌های کار خود را نیز مورد توجه قرار می‌دهند، و مراقب بودند که StreamingLLM پنجره زمینه LLM‌ها را گسترش نمی‌دهد، برخلاف برخی تبلیغات در X (توئیتر سابق) در مورد کار آنها. همچنین تضمین نمی کند که LLM همه چیزهایی را که در هر نقطه از مکالمه گفته شده به خاطر بسپارد.

شیائو به VentureBeat گفت: «در واقع، ما نه پنجره زمینه LLMها را گسترش می‌دهیم و نه حافظه بلندمدت آنها را بهبود می‌بخشیم.

ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.


منبع: https://venturebeat.com/ai/streamingllm-shows-how-one-token-can-keep-ai-models-running-smoothly-indefinitely/

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *