VentureBeat ارائه می دهد: AI Unleashed – یک رویداد اجرایی انحصاری برای رهبران داده های سازمانی. شبکه و یادگیری با همتایان صنعت. بیشتر بدانید
مدل های زبان بزرگ متن به متن (LLM) مانند ChatGPT OpenAI، لاما ۲ متا، آنتروپیک کلود ۲ در مرکز جریان بوده اند عجله طلا در سیلیکون ولی و دنیای فناوری سازمانی گسترده تر – اما به طور کلی، همه آنها برخی از مسائل مشابه را دارند.
یکی از این مسائل عملکرد مداوم با کیفیت بالا در طول زمان در طول یک مکالمه با یک کاربر است – جایی که LLM پاسخهایی را ارائه میدهد که در میانه مکالمه و در انتهای مکالمه به همان اندازه مفید، سریع و مرتبط هستند که در ابتدا انجام میدهد. مهم نیست که آن مکالمه چقدر طول بکشد یا چه تعداد تبادل گفت وگو را در بر می گیرد. این به این دلیل است که LLM ها روی بلوک هایی از داده ها یا توالی هایی با طول های مشخص از قبل آموزش داده شده اند – ۴۰۰۰ توکن در مورد Llama 2 و بسیاری دیگر از LLM های پیشرو.
هنگامی که کاربر توکنهای بیشتری از این را وارد میکند – حتی اگر این کار را در چندین دستور مختلف انجام دهند – LLM شروع به کاهش عملکرد، یعنی پاسخهای با کیفیت بدتر میکند. این برای شرکتهایی که به دنبال داشتن LLM هستند که به مشتریان یا کارمندان به شکلی باز کمک میکنند قابل قبول نیست.
آ کاغذ جدید اخیرا توسط محققان در متامؤسسه فناوری ماساچوست (MIT) و دانشگاه کارنگی ملون (CMU) دریافتند که یک راه ساده برای کمک به LLM ها وجود دارد که عملکرد خود را حتی برای مکالمات طولانی مدت نامحدود حفظ کنند، که در آن اعلان های کاربر مجموعا طولانی تر از آنچه LLM است. برای رسیدگی به یکباره آموزش دیده بود.
کار آنها، یک چارچوب جدید برای آموزش و استقرار استنباط های LLM با نام “StreamingLLM”، تعدادی از یافته های مهم را برای سایر محققان و شرکت های هوش مصنوعی که به دنبال استفاده از LLM برای کمک به تجارت خود هستند، نشان می دهد.
مشکل StreamingLLM به دنبال حل آن است
همانطور که هر کسی که با یک متخصص پشتیبانی مشتری انسانی یا حتی یک فناوری اطلاعات داخلی در کارفرمای شما تعامل داشته است، میداند، اغلب ممکن است یک مکالمه طولانی و چندین پیام رد و بدل شده بین شما و کمکی که به شما اختصاص داده شده است برای حل مشکل مورد نظر نیاز داشته باشد.
اما مهم نیست که مشتری باشید یا کارمند – میخواهید شخصی که به شما منصوب میشود به شما کمک کند تا به طور مداوم پاسخگو، آگاه و مفید در ارتباطات خود با شما در کل تبادل شما باشد. اگر ناگهان، در اعماق مکالمه ای که قبلاً برای توضیح مسئله خود وقت و انرژی صرف کرده اید، کمک کننده شما شروع به پاسخ دادن با پاسخ های یک کلمه ای کند، آهسته تر یا بدون دادن اطلاعات مورد نیاز شما، می تواند بسیار خسته کننده و معکوس کننده باشد.
اگرچه این مشکل میتواند برای برخی از افرادی باشد که حواسشان پرت، بیانگیزه یا خسته از مکالمه است، اما برای LLMها رایج است، زیرا وقتی مکالمه با آنها از طول «پنجره زمینه»، یعنی حداکثر تعداد فراتر میرود، عملکردشان ضعیف میشود. از توکن هایی که LLM می تواند به یکباره به آنها پاسخ دهد و برای پیش آموزش آنها استفاده شده است. این درست است حتی اگر اکثر LLM ها برای مدیریت مکالمات باز که ممکن است برای چندین خط ادامه داشته باشند طراحی شده اند.
حتی اگر هر یک از این خطوط در پنجره زمینه یک LLM قرار گیرد – و همه آنها باید، زیرا اکثر LLMها دارای مرز بالایی برای مقدار متنی هستند که می توانید وارد کنید تا در یک پیام به آنها پاسخ دهند – با هم، مجموع انباشته پیامهای متعدد در یک مکالمه به تعداد نشانههایی اضافه میشود که بزرگتر از مواردی است که در پنجره زمینه اولیه پیش از آموزش LLM گنجانده شده است، که باعث میشود عملکرد LLM پس از این مرحله آسیب ببیند.
به نظر می رسد هنگامی که با یک نماینده پشتیبانی مشتری انسانی صحبت می کنید، اگر یک بار تعداد معینی از کلمات را در چند جمله به آنها بگویید که تا حدی ناشناخته برای شما جمع می شود، ناگهان احمق تر و کمتر توجه می شوند.
محققان پشت چارچوب StreamingLLM مشکل را در مقاله خود به صورت زیر خلاصه می کنند: “به عنوان مثال، یک دستیار ChatBot ایده آل می تواند به طور پایدار روی محتوای مکالمات یک روزه اخیر کار کند. با این حال، تعمیم LLM به طول های توالی طولانی تر برای LLM بسیار چالش برانگیز است. از قبل از قبل آموزش دیده اند.”
در حالی که میتوان طول توکنهای توکن را در LLMهای پیشآموزشی گسترش داد، و در حال حاضر، تعدادی از محققین این کار را انجام دادهاند، نمیتوان برای مدت زمانی که یک مکالمه منحصربهفرد با یک کاربر معین طول میکشد، توضیح داد.
بنابراین، چگونه میتوانید یک LLM با طول پنجره زمینه ثابت که در پیشآموزش استفاده میشود – هر چند طولانی باشد – به دست آورید تا زمانی که این طول در پیامهای متعدد محو شد، عملکرد خود را حفظ کند؟
راه حلی که محققان توسعه دادند
محققان یک راه حل ابتکاری برای حفظ عملکرد LLM ایجاد کردند، زمانی که مقدار اطلاعات در یک مکالمه از تعداد نشانه های استفاده شده در توالی قبل از آموزش فراتر رفت.
چیزی که محققان کشف کردند این بود که LLM ها به نشانه هایی که در اوایل مکالمه یا آموزش از آنها خواسته می شود توجه بیشتری می کنند.
آنها می نویسند: «مقدار شگفت انگیز توجه زیادی به نشانه های اولیه اختصاص داده می شود. چرا این طور است؟
آنها می نویسند: “با توجه به ماهیت متوالی مدل سازی زبان اتورگرسیو، نشانه های اولیه برای همه نشانه های بعدی قابل مشاهده هستند، در حالی که نشانه های بعدی فقط برای مجموعه محدودی از نشانه های بعدی قابل مشاهده هستند.” در نتیجه، توکنهای اولیه آسانتر آموزش داده میشوند تا به عنوان محفظه توجه عمل کنند و توجه غیر ضروری را به خود جلب کنند.»
به عبارت دیگر: هر چیزی که در هنگام مکالمه با یک LLM ابتدا در مقابل آن قرار دهید، میتواند و بعداً در مبادلات اعلانها و خروجیهای بعدی توسط آن استفاده میشود، اما هر چیزی که بعداً از آن درخواست کنید، این کار را انجام میدهد. لازم نیست همان چیزی باشد که LLM انتخاب می کند تا روی آن تمرکز کند یا در پاسخ های خود به آن ارجاع دهد.
با این حال، محققان کشف کردند که اگر کاربر برخی از توکن های اولیه را ارائه دهد بعد در مکالمه با یک LLM، در پاسخ های بعدی، کافی است عملکرد LLM را به نزدیک به اوج خود بازگردانید.
قیاس پشتیبانی مشتری انسانی ما را قبلاً به خاطر دارید؟ تصور کنید که با گفتن چهار کلمه جادویی مشابه که در ابتدای مکالمه با آنها گفتید، به طور ناگهانی آنها را وادار کنید تا حتی در اواخر مکالمه با شما پاسخ های باکیفیت ارائه کنند.
محققان این نشانههای اولیه را که بیشتر توجه LLM را به خود جلب میکنند، به طور مناسب به عنوان «حذف توجه» مینامند و توجه دارند که برای اکثر LLMها، «معرفی چهار نشانه اولیه، به عنوان کاهش توجه، برای بازگرداندن عملکرد LLM کافی است… اضافه کردن یک یا دو مورد به بهبودی کامل منجر نمی شود.”
با معرفی مجدد نشانههای تمرکز حواس در هر درخواست بعدی از یک کاربر، محققان توانستند عملکرد مدلهای پیشرو از جمله LLama 2 و Falcon 40B را در میان اعلانهای متشکل از ۴ میلیون توکن (یک افزایش ۱۰۰۰ برابری نسبت به پنجره زمینه اصلی حفظ کنند). فقط ۴۰۰۰ توکن) “و به طور بالقوه حتی بیشتر”، و سرعت آن را در پاسخ های بعدی ۲۲٫۲ برابر افزایش داد.
به عبارت دیگر، Streaming LLM “LLM هایی را که با یک پنجره توجه محدود آموزش دیده اند را قادر می سازد تا روی متنی با طول بی نهایت بدون تنظیم دقیق کار کنند.” نکته مهم – این متن با طول “بی نهایت” همچنان باید به LLM در قطعات محدود به اندازه پنجره زمینه آن تحویل داده شود. با این حال، این بدان معناست که LLM می تواند یک مکالمه بی پایان با کسی داشته باشد و عملکرد خود را در سراسر (از لحاظ نظری) حفظ کند.
یک نشانه برای حکومت بر همه آنها (حداقل توجه آنها)
محققان با برداشتن گامی دیگر از یافتههای خود، فرضیهای را مطرح کردند و ثابت کردند که شما در واقع میتوانید تنها با افزودن یک نشانه خاص برای عمل به عنوان یک «حذف توجه» برای یک LLM در اوایل، و با معرفی مجدد این توکن بعداً بهصورت دستی یا خودکار، کنار بیایید. (در پشت صحنه یک کاربر یا کارمندی که با LLM روبرو است)، عملکرد LLM می تواند همچنان بالا نگه داشته شود.
محققان توضیح می دهند: «معرفی توکن سینک در تثبیت مکانیسم توجه بسیار مؤثر است. “به سادگی جفت کردن این توکن سینک با توکن های اخیر به اندازه کافی عملکرد مدل را تقویت می کند… با توجه به این یافته ها، توصیه می کنیم LLM های آینده را با توکن سینک در همه نمونه ها آموزش دهید تا استقرار استریم را بهینه کنید.”
یکی از نویسندگان مقاله، Guangxuan Xiao از MIT، در پاسخ به این سوال که از چه دادههای خاصی باید برای یک مرکز توجه استفاده شود، در ایمیلی به VentureBeat نوشت که «حذفهای توجه» میتوانند نشانههای اولیه باشند؛ تمرکز بیشتر بر موقعیت آنها است. معناشناسی… اینها کلمات یا مفاهیم خاصی نیستند، حتی نشانه ها (به عنوان مثال، خط شکن “\n”) بدون معانی معنایی به طور موثر کار می کنند.”
شیائو در مورد آنچه که محققان امیدوارند StreamingLLM برای چه مورد استفاده قرار گیرد، گفت: “ما StreamingLLM را برای کاربردهای پیوسته، مانند دیالوگ های چند دور طراحی کردیم. این برای مواردی که یک مدل باید بدون اتکا به داده های گذشته بدون وقفه کار کند، عالی است. یک دستیار روزانه LLM این را مثال میزند. با روش ما، این مدل میتواند با استفاده از تعاملات اخیر ادامه یابد و نیاز به تجدید مکرر حافظه پنهان را از بین ببرد.
با این حال، محققان همچنین میدانند که محدودیتهای کار خود را نیز مورد توجه قرار میدهند، و مراقب بودند که StreamingLLM پنجره زمینه LLMها را گسترش نمیدهد، برخلاف برخی تبلیغات در X (توئیتر سابق) در مورد کار آنها. همچنین تضمین نمی کند که LLM همه چیزهایی را که در هر نقطه از مکالمه گفته شده به خاطر بسپارد.
شیائو به VentureBeat گفت: «در واقع، ما نه پنجره زمینه LLMها را گسترش میدهیم و نه حافظه بلندمدت آنها را بهبود میبخشیم.
ماموریت VentureBeat این است که یک میدان شهر دیجیتال برای تصمیم گیرندگان فنی باشد تا دانشی در مورد فناوری سازمانی متحول کننده کسب کنند و معامله کنند. جلسات توجیهی ما را کشف کنید.
منبع: https://venturebeat.com/ai/streamingllm-shows-how-one-token-can-keep-ai-models-running-smoothly-indefinitely/