۱٫ مقدمه
پیشبینی سریهای زمانی با هوش مصنوعی برای سالها یک حوزه تحقیقاتی برجسته بوده است. داده های تاریخی در مورد برق، ترافیک، امور مالی و آب و هوا اغلب برای آموزش مدل ها برای کاربردهای مختلف استفاده می شود. برخی از تکنیک های قبلی در پیش بینی سری های زمانی بر آمار و مدل های ریاضی مانند SARIMA متکی بودند. [۱,۲,۳]و TBATs [4]. اینها از میانگین متحرک و چرخه های فصلی برای گرفتن الگوها برای پیش بینی آینده استفاده کردند. با ظهور یادگیری ماشین، رویکردهای جدید با استفاده از رگرسیون خطی [۵] توسعه داده شدند. در اینجا، یک تابع میانگین درجه دوم تلفات مبتنی بر گروهبندی برای بهبود عملکرد رگرسیون خطی در پیشبینی سریهای زمانی گنجانده شده است. رویکرد دیگر در یادگیری ماشین مبتنی بر مجموعه ای از درختان تصمیم به نام XGBoost است [۶]. در این مورد از درختهای تصمیم تقویتشده گرادیان (GBDTs) استفاده میشود، جایی که هر درخت جدید بر اصلاح خطاهای پیشبینی درختهای قبلی تمرکز میکند.
یادگیری عمیق چند رویکرد جدیدتر را معرفی کرد. برخی از تکنیکهای قبلی از شبکههای عصبی بازگشتی (RNN) استفاده میکردند. [۷] با معماری های متفاوت مبتنی بر Elman RNN، LSTM (حافظه کوتاه مدت بلند مدت) و GRU (واحدهای بازگشتی دردار). این طرحها وابستگیهای متوالی و الگوهای بلندمدت را در دادهها ثبت میکنند [۸]. رویکردهای تکراری با استفاده از شبکههای عصبی کانولوشن (CNN) در سریهای زمانی دنبال شدند، به عنوان مثال، [۹,۱۰,۱۱]. در سالهای اخیر، معماریهای مبتنی بر ترانسفورماتور به محبوبترین رویکرد برای پردازش زبان طبیعی (NLP) تبدیل شدهاند. موفقیت آنها در NLP امکان استفاده از آنها را در حوزه های دیگری مانند پردازش تصویر، تشخیص گفتار و همچنین پیش بینی سری های زمانی فراهم کرده است. برخی از رویکردهای رایج مبتنی بر ترانسفورماتور برای سری های زمانی عبارتند از [۱۲,۱۳,۱۴,۱۵,۱۶,۱۷,۱۸]. از اینها، مخبر [۱۲] مکانیزم خود توجهی ProbSparse را با تکنیک های تقطیر برای استخراج موثر کلید معرفی می کند. Autoformer [13] مفاهیم تجزیه و همبستگی خودکار را از تجزیه و تحلیل سری های زمانی کلاسیک ترکیب می کند. FEDformer [14] از یک ساختار پیشرفته فوریه برای پیچیدگی خطی استفاده می کند. یکی از معماری های مبتنی بر ترانسفورماتور اخیر به نام PatchTST [16]یک سری زمانی را به بخش های کوچکتر تقسیم می کند تا به عنوان نشانه های ورودی برای مدل استفاده شود. یکی دیگر از طراحی های اخیر، iTransformer [18]به طور مستقل جاسازی هر متغیر سری زمانی را معکوس می کند. نقاط زمانی سری های فردی در نشانه های متغیر تعبیه شده است، که توسط مکانیسم توجه برای گرفتن همبستگی های چند متغیره استفاده می شود. علاوه بر این، شبکه فید فوروارد برای هر توکن متغیر برای یادگیری نمایشهای غیرخطی اعمال میشود. در حالی که طرحهای ذکر شده در بالا نتایج بهتری نسبت به روشهای آماری و یادگیری ماشین سنتی نشان دادهاند، ترانسفورماتورها به دلیل مشکل در مدلسازی دینامیک زمانی غیرخطی، حساسیت سفارش و پیچیدگی محاسباتی بالا برای دنبالههای طولانی با چالشهایی در پیشبینی سریهای زمانی مواجه هستند. حساسیت به نویز و مدیریت وابستگیهای بلندمدت، استفاده از آنها را در زمینههای مربوط به دادههای ناپایدار مانند پیشبینی مالی پیچیدهتر میکند. طراحی های مختلف مبتنی بر ترانسفورماتور مانند Autoformer، Informer و FEDformer با هدف کاهش مشکلات فوق، اما اغلب به قیمت از دست دادن اطلاعات و تفسیرپذیری انجام می شود. بنابراین، رویکردهای جایگزین بدون تکیه بر مکانیسم توجه ترانسفورماتور برای پیشرفت بیشتر در این زمینه نیاز به بررسی دارند.
در نتیجه، برخی از تحقیقات سری زمانی اخیر سعی در کشف رویکردهایی غیر از طراحی های مبتنی بر ترانسفورماتور داشتند. اینها شامل LTSF-Linear است [۱۹]ELM [20]و تایمز نت [۲۱]. LTSF-Linear بسیار ساده است و از یک لایه خطی استفاده می کند. عملکرد بهتری نسبت به بسیاری از مدل های مبتنی بر ترانسفورماتور مانند Informer، Autoformer و FEDformer دارد. [۱۲,۱۳,۱۴] در معیارهای پیشبینی سری زمانی محبوب تایمز نت [۲۰] از TimesBlocks ماژولار و یک بلوک آغازین برای تبدیل سریهای زمانی ۱ بعدی به دو بعدی استفاده میکند و به طور موثر تغییرات درون و در بین دورهها را برای تجزیه و تحلیل چند دورهای مدیریت میکند. ELM با ترکیب خطوط لوله دوگانه با نرمال سازی دسته ای و عادی سازی نمونه برگشت پذیر، LTSF-Linear را بیشتر بهبود می بخشد. با محبوبیت اخیر رویکردهای فضایی دولت [۲۲]برخی تحقیقات در سری های زمانی این ایده ها را بررسی کرده و به نتایج امیدوارکننده ای دست یافته اند، به عنوان مثال، SpaceTime [23] فرآیندهای خود رگرسیون را ضبط می کند و شامل یک تغییر “حلقه بسته” برای پیش بینی گسترده است.
موفقیت LTSF-Linear [19] و ELM [20]با معماریهای خطی ساده، در عملکرد بهتر از مدلهای مبتنی بر ترانسفورماتور پیچیدهتر، باعث ارزیابی مجدد رویکردهای پیشبینی سریهای زمانی شده است. این نتیجه غیرمنتظره این فرض را به چالش میکشد که معماریهای پیچیدهتر لزوماً منجر به عملکرد پیشبینی بهتر میشوند. در پرتو این یافتهها، ما پیشرفتهایی را برای معماری بهبود یافته مبتنی بر LSTM پیشنهاد میکنیم که xLSTM نامیده میشود. ما xLSTM را برای پیشبینی سریهای زمانی تطبیق داده و بهبود میدهیم و معماری خود را xLSTMTime مینامیم. این مدل دارای دروازه نمایی و ساختار حافظه تجدید نظر شده است که برای بهبود عملکرد و مقیاس پذیری در وظایف پیش بینی سری های زمانی طراحی شده است.
مشارکتهای ما شامل ترکیب تجزیه سری، استخراج روند و اجزای فصلی در معماری مبتنی بر xLSTM، و یک مرحله عادیسازی نمونه پس از برگشتپذیر است که موفقیت خوبی در بهبود مدلهای پیشبینی سریهای زمانی قبلی نشان داده است. ما همچنین اولین کسی هستیم که xLSTM را برای برنامه های سری زمانی پیشنهاد کرده و یک مدل یکپارچه برای آن ارائه می دهیم. ما xLSTMTime خود را با مدلهای مختلف پیشبینی سریهای زمانی پیشرفته در چندین مجموعه داده دنیای واقعی مقایسه میکنیم و عملکرد برتر آن را نشان میدهیم، که پتانسیل معماریهای تکراری اصلاحشده در این حوزه را برجسته میکند.
۲٫ کارهای مرتبط
در حالی که LSTM یکی از اولین رویکردهای محبوب یادگیری عمیق با کاربردهای NLP بود، موفقیت ترانسفورماتورها بر آن سایه افکنده بود. اخیراً این معماری مورد بازنگری قرار گرفته و بسیار بهبود یافته است. LSTM اصلاح شده XLSTM نامیده می شود – حافظه کوتاه مدت طولانی مدت [۲۴]. xLSTM معماری کلاسیک LSTM را با تمرکز بر کاستی های LSTM های سنتی بهبود می بخشد. یکی از اشکالات طراحی LSTM این است که در به روز رسانی موثر اطلاعات ذخیره شده قبلی در زمانی که داده های مرتبط بیشتری در یک توالی طولانی مواجه می شوند، مشکل دارد. با ادامه روند آموزش، به روز رسانی های حالت می تواند باعث شود LSTM اطلاعات مهم مرتبط را از دست بدهد. LSTM همچنین ظرفیت حافظه محدودی دارد زیرا سلول های حافظه اطلاعات تاریخی را به یک مقدار اسکالر فشرده می کنند. علاوه بر این، معماری LSTM ذاتاً متوالی است زیرا حالت بعدی به حالت قبلی بستگی دارد، بنابراین از آموزش کارآمد LSTM در مجموعه داده های بزرگ جلوگیری می کند.
جنبه فراموشی LSTM برای اطلاعات مهم در xLSTM از طریق دروازه نمایی و ساختارهای حافظه اصلاح شده بهبود یافته است. دو نوع از معماری xLSTM پیشنهاد شده است که sLSTM و sLSTM نامیده می شوند. sLSTM به روز رسانی های اسکالر بهبود یافته ای را برای حالت با توابع گیتینگ نمایی برای گیت های ورودی و فراموشی ارائه می دهد که مدیریت وضعیت بهتری را نسبت به LSTM ارائه می دهد. sLSTM دارای چندین سلول حافظه است که توانایی آن را در ذخیره الگوهای پیچیده افزایش می دهد. این جنبه به ویژه در پیش بینی سری های زمانی مفید است.
نوع دوم xLSTM که mLSTM نامیده می شود، از حافظه ماتریسی پشتیبانی می کند که می تواند اطلاعات حالت بسیار بزرگتری را ذخیره کند. بسیار شبیه به معماری محبوب ترانسفورماتور، mLSTM از مقادیر کلید پرس و جو برای ذخیره و بازیابی موثر اطلاعات مربوطه استفاده می کند. حذف به روز رسانی متوالی حافظه در mLSTM و استفاده از ماتریس ها، این معماری را بسیار مقیاس پذیر، کارآمد و مناسب برای مسائل در مقیاس بزرگ می کند. به طور کلی، xLSTM نرمال سازی بهتر، ساختار حافظه تجدید نظر شده با انواع اسکالر و ماتریس و ادغام ستون فقرات بلوک باقیمانده برای پایداری بهتر را ارائه می دهد. قبل از توصیف انطباق xLSTM برای پیشبینی سریهای زمانی، ما دو تغییر معماری xLSTM، یعنی sLSTM و mLSTM را در زیر بخشهای زیر شرح میدهیم.
۲٫۱٫ sLSTM
حافظه کوتاه مدت تثبیت شده (sLSTM) [24] مدل یک نوع پیشرفته از معماری سنتی LSTM است که دارای مکانیسمهای گیتینگ نمایی، اختلاط حافظه و مکانیسمهای تثبیت است. این پیشرفتها توانایی مدل را برای تصمیمگیری موثر برای ذخیرهسازی، مدیریت پیشبینی نشانههای نادر در NLP، گرفتن وابستگیهای پیچیده و حفظ استحکام در طول آموزش و استنتاج بهبود میبخشد. معادلات توصیف کننده sLSTM همانطور که در توضیح داده شده است [۲۴]. قبل از توصیف انطباق آنها با حوزه پیشبینی سریهای زمانی، اینها را برای کاملتر شدن کار خود در اینجا ارائه میکنیم.
معماری sLSTM در شکل ۱ نشان داده شده است.
برای sLSTM، رابطه بازگشتی بین ورودی و حالت به صورت زیر توصیف می شود:
کجا وضعیت سلول در مرحله زمانی است و حافظه بلند مدت شبکه را حفظ می کند، دروازه فراموشی است دروازه ورودی است و مقدار ورودی و حالت پنهان قبلی را کنترل می کند همانطور که در زیر توضیح داده شده است به حالت سلول اضافه شود.
در معادلات بالا، بردار ورودی است، یک تابع فعال سازی است، ماتریس وزن است، ماتریس وزن مکرر است و نشان دهنده تعصب
این مدل همچنین از حالت عادی سازی استفاده می کند:
کجا حالت نرمال شده در مرحله زمانی است . این به عادی سازی به روز رسانی های وضعیت سلول کمک می کند. حالت پنهان برای اتصالات مکرر استفاده می شود:
کجا دروازه خروجی است. دروازه ورودی میزان اضافه شدن اطلاعات جدید به حالت سلول را کنترل می کند:
به طور مشابه دروازه فراموش
میزان وضعیت سلول قبلی را کنترل می کند
حفظ می شود.
دروازه خروجی
جریان اطلاعات از حالت سلولی به حالت پنهان را کنترل می کند:
کجا ماتریس وزنی است که به ورودی جریان اعمال می شود ، ماتریس وزن مکرر برای دروازه خروجی است که در حالت پنهان قبلی اعمال می شود و اصطلاح بایاس برای دروازه خروجی است.
برای ایجاد ثبات عددی برای گیت های نمایی، گیت های فراموشی و ورودی در حالت دیگری ترکیب می شوند
:
کجا یک گیت ورودی تثبیت شده است که یک نسخه تغییر مقیاس شده از گیت ورودی اصلی است. به طور مشابه، دروازه فراموش از طریق تثبیت می شود که یک نسخه تغییر مقیاس شده از دروازه اصلی فراموش شده است:
به طور خلاصه، در مقایسه با LSTM اصلی، sLSTM دروازه نمایی را اضافه می کند، همانطور که با معادلات (۵) و (۶) نشان داده شده است. از نرمال سازی از طریق رابطه (۳) استفاده می کند. و در نهایت، تثبیت به دست آمده از طریق معادلات (۸) – (۱۰). اینها پیشرفت های قابل توجهی را برای LSTM متعارف ارائه می دهند.
۲٫۲٫ mLSTM
مدل حافظه کوتاه مدت ماتریسی (mLSTM). [24] یک سلول حافظه ماتریسی را همراه با مکانیزم به روز رسانی کوواریانس برای ذخیره سازی جفت کلید-مقدار معرفی می کند که ظرفیت حافظه مدل را به میزان قابل توجهی افزایش می دهد. مکانیسمهای گیتینگ در کنار قانون بهروزرسانی کوواریانس برای مدیریت مؤثر بهروزرسانیهای حافظه کار میکنند. با حذف اتصالات پنهان به مخفی، عملیات mLSTM را می توان به صورت موازی اجرا کرد، که هر دو فرآیند آموزش و استنتاج را سرعت می بخشد. این پیشرفتها mLSTM را برای ذخیره و بازیابی اطلاعات بسیار کارآمد میکند و آن را برای کارهای مدلسازی دنبالهای که به ظرفیتهای حافظه قابل توجهی نیاز دارند، مانند مدلسازی زبان، تشخیص گفتار، و پیشبینی سریهای زمانی ایدهآل میسازد. mLSTM نشان دهنده پیشرفت قابل توجهی در شبکه های عصبی بازگشتی است که به طور موثر به چالش های مدل سازی توالی پیچیده می پردازد. شکل ۲ معماری mLSTM را نشان می دهد.
معادلات (۱۱)-(۱۹) عملیات mLSTM را توصیف می کند [۲۴].
حافظه ماتریسی است که اطلاعات را در ساختار پیچیده تری نسبت به حالت سلول اسکالر در یک LSTM سنتی ذخیره می کند. عادی سازی مشابه sLSTM انجام می شود:
شبیه به معماری ترانسفورماتور، پرس و جو
کلید
و ارزش
به شرح زیر ایجاد می شوند:
کجا دروازه ورودی است که ادغام اطلاعات جدید در حافظه را کنترل می کند. همانطور که در زیر نشان داده شده است، دروازه فراموش در مقایسه با sLSTM کمی متفاوت است. میزان حافظه قبلی را مشخص می کند قرار است حفظ شود.
همانطور که در زیر نشان داده شده است، گیت خروجی نیز در mLSTM کمی متفاوت است.
گیت خروجی کنترل می کند که چه مقدار از حافظه بازیابی شده به حالت پنهان ارسال می شود. در بخش بعدی، نحوه تطبیق sLSTM و mLSTM را با دامنه سری زمانی شرح می دهیم.
۲٫۳٫ XLSTM برای برنامه های سری زمانی
برای کاربردهای سری زمانی، هر دو sLSTM و mLSTM یک معماری قابل دوام را به دلیل مدیریت بهتر بافت بلندمدت از نظر الگوهای مهم گذشته ارائه می کنند. ما قابلیت های xLSTM را با استفاده از تکنیک های اثبات شده تجزیه دنباله افزایش می دهیم [۱۳] و عادی سازی نمونه برگشت پذیر (RevIn [25]). تجزیه توالی روند و الگوهای فصلی را از دادههای سری زمانی استخراج میکند تا xLSTM بتواند کار موثری در ذخیره و بازیابی این اطلاعات انجام دهد. از آنجایی که ویژگیهای آماری مانند میانگین و واریانس اغلب در طول زمان در سریهای زمانی تغییر میکنند (معروف به مسئله تغییر توزیع)، RevIN (نرمالسازی نمونه برگشتپذیر) در پیشبینی سریهای زمانی بهتر مؤثر است. [۲۵]. RevIN یک روش عادی سازی و غیرعادی سازی با تبدیل افین قابل یادگیری است. ساختار متقارن برای حذف و بازیابی اطلاعات آماری یک نمونه سری زمانی است. این دو پیشرفت تجزیه توالی و RevIn وقتی به معماری بهبود یافته xLSTM اضافه میشوند، پتانسیل مدلهای پیشبینی سری زمانی برتر را دارند. ما طراحی معماری مبتنی بر xLSTM خود را در مرحله بعد به تفصیل شرح می دهیم و سپس به صورت تجربی نشان می دهیم که طراحی مبتنی بر xLSTM ما به صورت رقابتی با ترانسفورماتورهای پیشرفته عمل می کند. [۲۶] و مدل های فضای حالت [۲۲] برای پیش بینی سری های زمانی
۳٫ روش پیشنهادی
مدل مبتنی بر xLSTMTime پیشنهادی ما چندین مؤلفه کلیدی را برای مدیریت مؤثر وظایف پیشبینی سری زمانی ترکیب میکند. شکل ۳ نمای کلی از معماری مدل را ارائه می دهد.
ورودی مدل یک سری زمانی است که شامل چندین توالی است. بلوک تجزیه سری، داده های سری زمانی ورودی را به دو جزء برای هر سری تقسیم می کند تا روند و اطلاعات فصلی را ثبت کند. ما رویکرد را همانطور که در ارائه شده است اجرا می کنیم [۱۳] و به شرح زیر توضیح داده شده است. برای دنباله ورودی با طول زمینه از
و
تعداد ویژگی ها، به عنوان مثال
ما میانگین های متحرک قابل یادگیری را روی هر ویژگی از طریق کانولوشن های ۱ بعدی اعمال می کنیم. سپس مولفه های روند و فصلی به شرح زیر استخراج می شوند:
پس از تجزیه، داده ها از یک لایه تبدیل خطی عبور می کنند تا به ابعاد مورد نیاز برای ماژول های xLSTM تبدیل شوند. ما بیشتر نرمال سازی دسته ای را انجام می دهیم [۲۷] برای ایجاد ثبات در یادگیری قبل از تغذیه داده ها به ماژول های xLSTM. نرمال سازی دسته ای یک تکنیک دگرگون کننده در یادگیری عمیق است که توزیع ورودی های شبکه را با عادی سازی فعال سازی هر لایه تثبیت می کند. این امکان را برای نرخهای یادگیری بالاتر فراهم میکند، آموزش را تسریع میکند و نیاز به مقداردهی اولیه دقیق و برخی از اشکال منظمسازی مانند Dropout را کاهش میدهد. با پرداختن به تغییر متغیر داخلی، نرمال سازی دسته ای ثبات و عملکرد شبکه را در وظایف مختلف بهبود می بخشد. حداقل سربار را با دو پارامتر قابل آموزش اضافی در هر لایه معرفی میکند و شبکههای عمیقتر را قادر میسازد سریعتر و مؤثرتر آموزش دهند. [۲۷].
بلوک xLSTM شامل هر دو مؤلفه sLSTM و mLSTM است. مؤلفه sLSTM از حافظه اسکالر و دروازه نمایی برای مدیریت وابستگی های طولانی مدت و کنترل حافظه مناسب برای اطلاعات تاریخی استفاده می کند. مؤلفه mLSTM از حافظه ماتریسی و قانون بهروزرسانی کوواریانس برای افزایش ظرفیت ذخیرهسازی و قابلیتهای بازیابی اطلاعات مربوطه استفاده میکند. بسته به ویژگی های مجموعه داده، مولفه sLSTM یا mLSTM را انتخاب می کنیم. برای مجموعه داده های کوچکتر مانند ETTm1، ETTm2، ETTh1، ETTh2، ILI و آب و هوا، از sLSTM استفاده می کنیم، در حالی که برای مجموعه داده های بزرگتر مانند برق، ترافیک و PeMS، mLSTM به دلیل ظرفیت حافظه بالاتر در یادگیری بهتر برای سری های زمانی انتخاب می شود. الگوها خروجی بلوک xLSTM از لایه خطی دیگری عبور می کند. این لایه داده ها را بیشتر تبدیل می کند و آن را برای خروجی نهایی از طریق عادی سازی نمونه آماده می کند. عادی سازی نمونه در هر کانال سری زمانی به طور مستقل عمل می کند. دادههای درون هر کانال از هر سری مؤلفه را عادی میکند تا میانگین ۰ و واریانس ۱ داشته باشد. فرمول عادی سازی مثال برای یک نقشه ویژگی مشخص به شرح زیر است:
کجا x نقشه ویژگی ورودی را نشان می دهد، m(x) میانگین نقشه ویژگی است و s(x) انحراف معیار نقشه ویژگی است [۲۷]. ما از نرمالسازی نمونه برگشتپذیر (RevIn) استفاده میکنیم که در ابتدا پیشنهاد شد [۲۷]به طور مستقل روی هر کانال از هر نمونه کار کند. این یک تبدیل قابل یادگیری برای عادی سازی داده ها در طول آموزش اعمال می کند، به طوری که می توان آن را در حین پیش بینی به مقیاس اصلی خود برگرداند.
شبه کد xLSTMTime در شکل ۴ در زیر توضیح داده شده است.
۴٫ نتایج
ما معماری مبتنی بر xLSTM پیشنهادی خود را بر روی ۱۲ مجموعه داده پرکاربرد از برنامه های کاربردی دنیای واقعی آزمایش می کنیم. این مجموعه داده ها شامل سری دمای ترانسفورماتور برق (ETT) است که به ETTh1 و ETTh2 (فواصل ساعتی) و ETTm1 و ETTm2 (فاصله های ۵ دقیقه) تقسیم می شوند. علاوه بر این، مجموعه دادههای مربوط به ترافیک (ساعتی)، برق (ساعتی)، آب و هوا (فاصلههای ۱۰ دقیقه)، بیماری شبه آنفلوانزا (ILI) (هفتگی)، و نرخ ارز (روزانه) را تجزیه و تحلیل میکنیم. مجموعه داده دیگری، ترافیک PeMS (PEMS03، PEMS04، PEMS07، و PEMS08)، از سیستم اندازهگیری عملکرد آژانسهای حمل و نقل کالیفرنیا (CalTrans) (PeMS) تهیه شده است. جدول ۱ ویژگی های مجموعه داده های مختلفی را که ما استفاده می کنیم ارائه می دهد.
هر مدل از یک تنظیم آزمایشی سازگار پیروی می کند، با طول های پیش بینی T از {۹۶، ۱۹۲، ۳۳۶، ۷۲۰} برای همه مجموعه داده ها به جز مجموعه داده ILI. برای مجموعه داده ILI، از طول های پیش بینی {۲۴، ۳۶، ۴۸، ۶۰} استفاده می کنیم. پنجره نگاه به عقب L برای همه مجموعه داده ها به جز مجموعه داده ILI که برای آن استفاده می کنیم، ۵۱۲ است L از ۹۶ [۱۶]. ما در طول آموزش از میانگین خطای مطلق (MAE) استفاده می کنیم. برای ارزیابی، معیارهای مورد استفاده MSE (میانگین مربعات خطا) و MAE (میانگین خطای مطلق) هستند. جدول ۲ نتایج را برای معیارهای مختلف ارائه می دهد و نتایج ما را با کارهای اخیر در زمینه سری های زمانی مقایسه می کند.
جدول ۲: نتایج پیشبینی بلندمدت چند متغیره با فواصل پیشبینی T = {24، ۳۶، ۴۸، ۶۰} برای مجموعه داده ILI و T = {96، ۱۹۲، ۳۳۶، ۷۲۰} برای سایر مجموعههای داده. بهترین نتایج با رنگ قرمز و بهترین نتایج بعدی با رنگ آبی مشخص شده اند. اعداد کمتر بهتر است.
همانطور که از جدول ۲ مشاهده می شود، برای اکثریت قریب به اتفاق معیارها، ما از رویکردهای موجود بهتر عمل می کنیم. فقط در مورد الکتریسیته و ETTh2، در تعداد کمی از طولهای پیشبینی، نتایج ما در رتبه دوم قرار دارند.
شکل ۵ و شکل ۶ نمودارهایی را برای مقادیر سری زمانی واقعی در مقابل پیش بینی شده برای تعدادی از مجموعه داده ها نشان می دهد. طول های پیش بینی در شکل ۵a و شکل ۶a 192 است، در حالی که در شکل ۵b و شکل ۶b، آنها ۳۳۶ هستند. هر دو شکل از طول زمینه ۵۱۲ استفاده می کنند. همانطور که مشاهده می شود، مدل ما تناوب و تغییرات در داده ها را به خوبی یاد می گیرد. . در بیشتر موارد.
جدول ۳ نتایج مقایسه مجموعه داده های PeMS را نشان می دهد. در اینجا، مدل ما بهترین یا دومین نتایج را در مقایسه با مدلهای پیشرفته اخیر ایجاد میکند. شکل ۶ نمودارهای واقعی در مقابل پیش بینی شده را برای برخی از مجموعه داده های PeMS نشان می دهد.
شکل ۷ نمودارهایی را برای مقادیر سری زمانی واقعی در مقابل پیش بینی شده برای تعدادی از مجموعه داده های PEMS نشان می دهد. طول پیشبینی در شکل ۷ ۹۶ است. همانطور که مشاهده میشود، مدل ما روند و تغییرات در دادههای مجموعه داده PEMS را در اکثر موارد به خوبی یاد میگیرد.
برای بهینهسازی نرخ یادگیری، از تنظیم نرخ یادگیری پویا استفاده میکنیم، جایی که برنامه فرآیند آموزش را نظارت میکند و نرخ یادگیری مؤثری را بر اساس از دست دادن مشاهده شده پیشنهاد میکند. این منجر به افزایش نرخ یادگیری در ابتدای فرآیند آموزش می شود و به تدریج با بهبود زیان کاهش می یابد. این منجر به یک روند آموزشی سریعتر و پایدارتر می شود. شکل ۸ تغییر نرخ یادگیری را در طول آموزش مجموعه داده ETTm1 نشان می دهد.
پیچیدگی زمانی xLSTM خطی نشان داده شده است. ما تعداد دقیق پارامترها و زمان اجرا برای آموزش مدلهای مختلف را در جدول ۴ و جدول ۵ اندازهگیری میکنیم. در حالی که اندازههای مدل برای xLSTMTime و مدلهای مبتنی بر ترانسفورماتور (مانند PathTST و iTransformer) تقریباً مشابه است، زمان اجرا برای xLSTMTime برابر است. نسبت به مدل های مبتنی بر ترانسفورماتور کمتر است. این به این دلیل است که مدل های مبتنی بر ترانسفورماتور دارای پیچیدگی درجه دوم نسبت به طول دنباله به دلیل توجه زوجی هستند که محاسبه می شود.
۵٫ بحث
یکی از موثرترین مدل های اخیر برای پیش بینی سری های زمانی Dlinear است. هنگامی که رویکرد خود را با مدل Dlinear مقایسه میکنیم، همانطور که در جدول ۲ نشان داده شده است، پیشرفتهای قابلتوجهی را در مجموعههای داده مختلف به دست میآوریم. مهمترین پیشرفتها در مجموعه داده آب و هوا، با بهبودهای ۱۸٫۱۸% برای T = 96 و ۱۲٫۷۳% مشاهده میشود. برای T = 192. بهبودهای قابل توجهی نیز در مجموعه داده بیماری (۲۲٫۶۲٪ برای T = 36) و مجموعه داده ETTh2 (11.23٪ برای T = 192) مشاهده شده است. این نتایج نشان می دهد که مدل xLSTMTime ما به طور مداوم از DLinear بهتر عمل می کند، به خصوص در مجموعه داده های پیچیده برای طول های پیش بینی متفاوت.
یکی دیگر از مدل های قابل توجه اخیر برای پیش بینی سری های زمانی PatchTST است. مقایسه بین مدل xLSTMTime ما و PatchTST یک چشم انداز عملکرد ظریف را نشان می دهد. xLSTMTime در چندین سناریو، بهویژه در مجموعه دادههای آب و هوا، با پیشرفتهایی از ۱٫۰۳% تا ۳٫۳۶%، نسبت به PatchTST پیشرفتهای متوسط اما ثابتی را نشان میدهد. قابل توجه ترین پیشرفت ها در پیش بینی آب و هوا در T = 96 و T = 336، و همچنین در مجموعه داده ETTh1 برای T = 720 (1.34٪ بهبود) مشاهده شد. در مجموعه داده الکتریسیته، xLSTMTime پیشرفت های جزئی را در طول های پیش بینی طولانی تر نشان می دهد (T = 336 و T = 720). با این حال، xLSTMTime نیز برخی از محدودیت ها را نشان می دهد. در مجموعه داده بیماری، برای طولهای پیشبینی کوتاهتر، PatchTST 14.78٪ برای T = 24 کمتر عمل میکند، اگرچه برای T = 60 در ۳٫۵۴٪ عملکرد بهتری دارد. نتایج ترکیبی نیز در مجموعه داده ETTh2 مشاهده شد، با عملکرد ضعیف برای T = 336 اما عملکرد بهتر در سایر طولهای پیشبینی. جالب توجه است که برای افقهای پیشبینی طولانیتر (T = 720)، عملکرد xLSTMTime با PatchTST در چندین مجموعه داده، با تفاوتهایی که اغلب کمتر از ۱ درصد است، کاملاً مطابقت دارد یا کمی بهتر از آن است. این را می توان به قابلیت های حافظه بلند مدت بهتر رویکرد xLSTM نسبت داد.
به طور کلی، تجزیه و تحلیل مقایسه ای نشان می دهد که در حالی که xLSTMTime با PatchTST، یک مدل پیشرفته برای پیش بینی سری های زمانی، بسیار رقابتی است، مزایای آن به مجموعه داده های خاص و طول های پیش بینی اختصاص دارد. علاوه بر این، عملکرد بهتر از DLinear در سناریوهای متعدد، بر استحکام آن تأکید می کند. نمایه کلی عملکرد xLSTMTime، که در بیشتر موارد نسبت به DLinear و PatchTST پیشرفت های قابل توجهی نشان می دهد، پتانسیل آن را در زمینه پیش بینی سری های زمانی ایجاد می کند. مدل ما نقاط قوت خاصی را در افقهای پیشبینی طولانیتر نشان میدهد تا حدی به دلیل قابلیتهای زمینه طولانی xLSTM همراه با استخراج اطلاعات فصلی و روند در پیادهسازی ما.
در مقایسه مدل xLSTMTime با iTransformer، RLinear، PatchTST، Crossformer، DLinear، و SCINet در مجموعه دادههای PeMS (جدول ۳)، به عملکرد برتر نیز دست پیدا میکنیم. به عنوان مثال، در مجموعه داده PEMS03، برای یک پیشبینی ۱۲ مرحلهای، xLSTMTime تقریباً ۹٪ MSE بهتر و ۵٪ MAE بهتر به دست میآورد. این روند در سایر فواصل پیشبینی و مجموعه دادهها ادامه مییابد و اثربخشی xLSTMTime در پیشبینی چند متغیره را برجسته میکند. قابل ذکر است، xLSTMTime اغلب در تقریباً همه موارد بهترین یا دومین نتایج را به دست میآورد، که بر اثربخشی آن در سناریوهای مختلف پیشبینی تأکید میکند.
معماری سنتی LSTM در گرفتن وابستگی های طولانی مدت مشکل داشت. در حالی که xLSTM تا حدی بر این موارد غلبه میکند، ممکن است در مقایسه با معماریهای مبتنی بر ترانسفورماتور که برای پیشبینی نشانههای آینده به هیچ وضعیت گذشته متکی نیستند، محدودیتهایی در مدیریت توالی طولانی داشته باشد. در مجموعه دادههای استانداردی که محققان برای مقایسه مدلهای پیشبینی سریهای زمانی استفاده میکنند، ما با این محدودیت در xLSTM مواجه نشدهایم، اما باید دید زمانی که توالیهای زمانی بسیار بزرگتری استفاده میشوند تا ببینیم آیا xLSTM همچنان میتواند به همان خوبی باشد که در آن مشاهده کردیم. کار
در حالی که ما xLSTMTime را برای حوزههای پیشبینی سریهای زمانی مختلف مانند برق، آبوهوا، ترافیک، بیماری، حملونقل و غیره آزمایش کردهایم، برای پیشبینی مؤثر در حوزههای دیگر مانند مالی و اقتصادی کاربرد دارد. سری داده های هر دامنه از تعدادی ویژگی (یا کانال) تشکیل شده است. برای تطبیق دادههای یک دامنه معین با مدل xLSTM ما، بارگذارهای دادهای که دادههای آموزشی و آزمایشی را به مدل ما تغذیه میکنند باید بر اساس تعداد ویژگیها و مراحل زمانی در طول زمینه تنظیم شوند. ما کد را به روشی انعطافپذیر پیادهسازی کردهایم که به راحتی میتوان آن را مشخص کرد.
۶٫ نتیجه گیری
در این مقاله، ما معماری مکرر اخیراً بهبود یافته xLSTM را که نتایج رقابتی را در حوزه NLP برای پیشبینی سریهای زمانی نشان داده است، تطبیق میدهیم. از آنجایی که xLSTM با تثبیت بهبود یافته، دروازه نمایی و ظرفیت حافظه بالاتر، معماری یادگیری عمیق بالقوه بهتری را ارائه می دهد، با تطبیق صحیح آن با حوزه سری زمانی از طریق تجزیه سری، و نرمال سازی دسته ای و نمونه، ما معماری xLSTMTime را برای LTSF توسعه می دهیم. مدل xLSTMTime ما عملکرد عالی را در برابر مدلهای مبتنی بر ترانسفورماتور پیشرفته و همچنین سایر مدلهای سری زمانی پیشنهادی اخیر نشان میدهد. از طریق آزمایشهای گسترده بر روی مجموعههای داده متنوع، xLSTMTime دقت بالاتری را از نظر MSE و MAE نشان داد و آن را به یک جایگزین مناسب برای مدلهای پیچیدهتر تبدیل کرد. ما پتانسیل معماریهای xLSTM را در عرصه پیشبینی سریهای زمانی برجسته میکنیم، راه را برای راهحلهای پیشبینی کارآمدتر و قابل تفسیرتر و کاوش بیشتر با استفاده از مدلهای تکراری هموار میکنیم.