هوش مصنوعی | متن کامل رایگان | xLSTMTime: پیش بینی سری های زمانی بلند مدت با xLSTM

۱٫ مقدمه

پیش‌بینی سری‌های زمانی با هوش مصنوعی برای سال‌ها یک حوزه تحقیقاتی برجسته بوده است. داده های تاریخی در مورد برق، ترافیک، امور مالی و آب و هوا اغلب برای آموزش مدل ها برای کاربردهای مختلف استفاده می شود. برخی از تکنیک های قبلی در پیش بینی سری های زمانی بر آمار و مدل های ریاضی مانند SARIMA متکی بودند. [۱,۲,۳]و TBATs [4]. اینها از میانگین متحرک و چرخه های فصلی برای گرفتن الگوها برای پیش بینی آینده استفاده کردند. با ظهور یادگیری ماشین، رویکردهای جدید با استفاده از رگرسیون خطی [۵] توسعه داده شدند. در اینجا، یک تابع میانگین درجه دوم تلفات مبتنی بر گروه‌بندی برای بهبود عملکرد رگرسیون خطی در پیش‌بینی سری‌های زمانی گنجانده شده است. رویکرد دیگر در یادگیری ماشین مبتنی بر مجموعه ای از درختان تصمیم به نام XGBoost است [۶]. در این مورد از درخت‌های تصمیم تقویت‌شده گرادیان (GBDTs) استفاده می‌شود، جایی که هر درخت جدید بر اصلاح خطاهای پیش‌بینی درخت‌های قبلی تمرکز می‌کند.

یادگیری عمیق چند رویکرد جدیدتر را معرفی کرد. برخی از تکنیک‌های قبلی از شبکه‌های عصبی بازگشتی (RNN) استفاده می‌کردند. [۷] با معماری های متفاوت مبتنی بر Elman RNN، LSTM (حافظه کوتاه مدت بلند مدت) و GRU (واحدهای بازگشتی دردار). این طرح‌ها وابستگی‌های متوالی و الگوهای بلندمدت را در داده‌ها ثبت می‌کنند [۸]. رویکردهای تکراری با استفاده از شبکه‌های عصبی کانولوشن (CNN) در سری‌های زمانی دنبال شدند، به عنوان مثال، [۹,۱۰,۱۱]. در سال‌های اخیر، معماری‌های مبتنی بر ترانسفورماتور به محبوب‌ترین رویکرد برای پردازش زبان طبیعی (NLP) تبدیل شده‌اند. موفقیت آنها در NLP امکان استفاده از آنها را در حوزه های دیگری مانند پردازش تصویر، تشخیص گفتار و همچنین پیش بینی سری های زمانی فراهم کرده است. برخی از رویکردهای رایج مبتنی بر ترانسفورماتور برای سری های زمانی عبارتند از [۱۲,۱۳,۱۴,۱۵,۱۶,۱۷,۱۸]. از اینها، مخبر [۱۲] مکانیزم خود توجهی ProbSparse را با تکنیک های تقطیر برای استخراج موثر کلید معرفی می کند. Autoformer [13] مفاهیم تجزیه و همبستگی خودکار را از تجزیه و تحلیل سری های زمانی کلاسیک ترکیب می کند. FEDformer [14] از یک ساختار پیشرفته فوریه برای پیچیدگی خطی استفاده می کند. یکی از معماری های مبتنی بر ترانسفورماتور اخیر به نام PatchTST [16]یک سری زمانی را به بخش های کوچکتر تقسیم می کند تا به عنوان نشانه های ورودی برای مدل استفاده شود. یکی دیگر از طراحی های اخیر، iTransformer [18]به طور مستقل جاسازی هر متغیر سری زمانی را معکوس می کند. نقاط زمانی سری های فردی در نشانه های متغیر تعبیه شده است، که توسط مکانیسم توجه برای گرفتن همبستگی های چند متغیره استفاده می شود. علاوه بر این، شبکه فید فوروارد برای هر توکن متغیر برای یادگیری نمایش‌های غیرخطی اعمال می‌شود. در حالی که طرح‌های ذکر شده در بالا نتایج بهتری نسبت به روش‌های آماری و یادگیری ماشین سنتی نشان داده‌اند، ترانسفورماتورها به دلیل مشکل در مدل‌سازی دینامیک زمانی غیرخطی، حساسیت سفارش و پیچیدگی محاسباتی بالا برای دنباله‌های طولانی با چالش‌هایی در پیش‌بینی سری‌های زمانی مواجه هستند. حساسیت به نویز و مدیریت وابستگی‌های بلندمدت، استفاده از آن‌ها را در زمینه‌های مربوط به داده‌های ناپایدار مانند پیش‌بینی مالی پیچیده‌تر می‌کند. طراحی های مختلف مبتنی بر ترانسفورماتور مانند Autoformer، Informer و FEDformer با هدف کاهش مشکلات فوق، اما اغلب به قیمت از دست دادن اطلاعات و تفسیرپذیری انجام می شود. بنابراین، رویکردهای جایگزین بدون تکیه بر مکانیسم توجه ترانسفورماتور برای پیشرفت بیشتر در این زمینه نیاز به بررسی دارند.

در نتیجه، برخی از تحقیقات سری زمانی اخیر سعی در کشف رویکردهایی غیر از طراحی های مبتنی بر ترانسفورماتور داشتند. اینها شامل LTSF-Linear است [۱۹]ELM [20]و تایمز نت [۲۱]. LTSF-Linear بسیار ساده است و از یک لایه خطی استفاده می کند. عملکرد بهتری نسبت به بسیاری از مدل های مبتنی بر ترانسفورماتور مانند Informer، Autoformer و FEDformer دارد. [۱۲,۱۳,۱۴] در معیارهای پیش‌بینی سری زمانی محبوب تایمز نت [۲۰] از TimesBlocks ماژولار و یک بلوک آغازین برای تبدیل سری‌های زمانی ۱ بعدی به دو بعدی استفاده می‌کند و به طور موثر تغییرات درون و در بین دوره‌ها را برای تجزیه و تحلیل چند دوره‌ای مدیریت می‌کند. ELM با ترکیب خطوط لوله دوگانه با نرمال سازی دسته ای و عادی سازی نمونه برگشت پذیر، LTSF-Linear را بیشتر بهبود می بخشد. با محبوبیت اخیر رویکردهای فضایی دولت [۲۲]برخی تحقیقات در سری های زمانی این ایده ها را بررسی کرده و به نتایج امیدوارکننده ای دست یافته اند، به عنوان مثال، SpaceTime [23] فرآیندهای خود رگرسیون را ضبط می کند و شامل یک تغییر “حلقه بسته” برای پیش بینی گسترده است.

موفقیت LTSF-Linear [19] و ELM [20]با معماری‌های خطی ساده، در عملکرد بهتر از مدل‌های مبتنی بر ترانسفورماتور پیچیده‌تر، باعث ارزیابی مجدد رویکردهای پیش‌بینی سری‌های زمانی شده است. این نتیجه غیرمنتظره این فرض را به چالش می‌کشد که معماری‌های پیچیده‌تر لزوماً منجر به عملکرد پیش‌بینی بهتر می‌شوند. در پرتو این یافته‌ها، ما پیشرفت‌هایی را برای معماری بهبود یافته مبتنی بر LSTM پیشنهاد می‌کنیم که xLSTM نامیده می‌شود. ما xLSTM را برای پیش‌بینی سری‌های زمانی تطبیق داده و بهبود می‌دهیم و معماری خود را xLSTMTime می‌نامیم. این مدل دارای دروازه نمایی و ساختار حافظه تجدید نظر شده است که برای بهبود عملکرد و مقیاس پذیری در وظایف پیش بینی سری های زمانی طراحی شده است.

مشارکت‌های ما شامل ترکیب تجزیه سری، استخراج روند و اجزای فصلی در معماری مبتنی بر xLSTM، و یک مرحله عادی‌سازی نمونه پس از برگشت‌پذیر است که موفقیت خوبی در بهبود مدل‌های پیش‌بینی سری‌های زمانی قبلی نشان داده است. ما همچنین اولین کسی هستیم که xLSTM را برای برنامه های سری زمانی پیشنهاد کرده و یک مدل یکپارچه برای آن ارائه می دهیم. ما xLSTMTime خود را با مدل‌های مختلف پیش‌بینی سری‌های زمانی پیشرفته در چندین مجموعه داده دنیای واقعی مقایسه می‌کنیم و عملکرد برتر آن را نشان می‌دهیم، که پتانسیل معماری‌های تکراری اصلاح‌شده در این حوزه را برجسته می‌کند.

۲٫ کارهای مرتبط

در حالی که LSTM یکی از اولین رویکردهای محبوب یادگیری عمیق با کاربردهای NLP بود، موفقیت ترانسفورماتورها بر آن سایه افکنده بود. اخیراً این معماری مورد بازنگری قرار گرفته و بسیار بهبود یافته است. LSTM اصلاح شده XLSTM نامیده می شود – حافظه کوتاه مدت طولانی مدت [۲۴]. xLSTM معماری کلاسیک LSTM را با تمرکز بر کاستی های LSTM های سنتی بهبود می بخشد. یکی از اشکالات طراحی LSTM این است که در به روز رسانی موثر اطلاعات ذخیره شده قبلی در زمانی که داده های مرتبط بیشتری در یک توالی طولانی مواجه می شوند، مشکل دارد. با ادامه روند آموزش، به روز رسانی های حالت می تواند باعث شود LSTM اطلاعات مهم مرتبط را از دست بدهد. LSTM همچنین ظرفیت حافظه محدودی دارد زیرا سلول های حافظه اطلاعات تاریخی را به یک مقدار اسکالر فشرده می کنند. علاوه بر این، معماری LSTM ذاتاً متوالی است زیرا حالت بعدی به حالت قبلی بستگی دارد، بنابراین از آموزش کارآمد LSTM در مجموعه داده های بزرگ جلوگیری می کند.

جنبه فراموشی LSTM برای اطلاعات مهم در xLSTM از طریق دروازه نمایی و ساختارهای حافظه اصلاح شده بهبود یافته است. دو نوع از معماری xLSTM پیشنهاد شده است که sLSTM و sLSTM نامیده می شوند. sLSTM به روز رسانی های اسکالر بهبود یافته ای را برای حالت با توابع گیتینگ نمایی برای گیت های ورودی و فراموشی ارائه می دهد که مدیریت وضعیت بهتری را نسبت به LSTM ارائه می دهد. sLSTM دارای چندین سلول حافظه است که توانایی آن را در ذخیره الگوهای پیچیده افزایش می دهد. این جنبه به ویژه در پیش بینی سری های زمانی مفید است.

نوع دوم xLSTM که mLSTM نامیده می شود، از حافظه ماتریسی پشتیبانی می کند که می تواند اطلاعات حالت بسیار بزرگتری را ذخیره کند. بسیار شبیه به معماری محبوب ترانسفورماتور، mLSTM از مقادیر کلید پرس و جو برای ذخیره و بازیابی موثر اطلاعات مربوطه استفاده می کند. حذف به روز رسانی متوالی حافظه در mLSTM و استفاده از ماتریس ها، این معماری را بسیار مقیاس پذیر، کارآمد و مناسب برای مسائل در مقیاس بزرگ می کند. به طور کلی، xLSTM نرمال سازی بهتر، ساختار حافظه تجدید نظر شده با انواع اسکالر و ماتریس و ادغام ستون فقرات بلوک باقیمانده برای پایداری بهتر را ارائه می دهد. قبل از توصیف انطباق xLSTM برای پیش‌بینی سری‌های زمانی، ما دو تغییر معماری xLSTM، یعنی sLSTM و mLSTM را در زیر بخش‌های زیر شرح می‌دهیم.

۲٫۱٫ sLSTM

حافظه کوتاه مدت تثبیت شده (sLSTM) [24] مدل یک نوع پیشرفته از معماری سنتی LSTM است که دارای مکانیسم‌های گیتینگ نمایی، اختلاط حافظه و مکانیسم‌های تثبیت است. این پیشرفت‌ها توانایی مدل را برای تصمیم‌گیری موثر برای ذخیره‌سازی، مدیریت پیش‌بینی نشانه‌های نادر در NLP، گرفتن وابستگی‌های پیچیده و حفظ استحکام در طول آموزش و استنتاج بهبود می‌بخشد. معادلات توصیف کننده sLSTM همانطور که در توضیح داده شده است [۲۴]. قبل از توصیف انطباق آنها با حوزه پیش‌بینی سری‌های زمانی، اینها را برای کامل‌تر شدن کار خود در اینجا ارائه می‌کنیم.

معماری sLSTM در شکل ۱ نشان داده شده است.

برای sLSTM، رابطه بازگشتی بین ورودی و حالت به صورت زیر توصیف می شود:

$ج_{تی} = f_{تی} ج_{تی - ۱} + {من}_{تی} ز_{تی}$

(۱)

کجا $ج_{تی}$ وضعیت سلول در مرحله زمانی است $تی$ و حافظه بلند مدت شبکه را حفظ می کند، $f_{تی}$ دروازه فراموشی است ${من}_{تی}$ دروازه ورودی است و $ز_{تی}$ مقدار ورودی و حالت پنهان قبلی را کنترل می کند ${ساعت}_{تی - ۱}$ همانطور که در زیر توضیح داده شده است به حالت سلول اضافه شود.

$ز_{تی} = f ({\tilde{ز}}_{تی}) ، {\tilde{ز}}_{تی} = {دبلیو}_{ز}^{⊺} x_{تی} + r_{ز} {ساعت}_{تی - ۱} + ب_{ز}$

(۲)

در معادلات بالا، $x_{تی}$ بردار ورودی است، $f$ یک تابع فعال سازی است، ${دبلیو}_{ز}^{⊺}$ ماتریس وزن است، $r_{ز}$ ماتریس وزن مکرر است و $ب_{ز}$ نشان دهنده تعصب

این مدل همچنین از حالت عادی سازی استفاده می کند:

$n_{تی} = f_{تی} n_{تی - ۱} + {من}_{تی}$

(۳)

کجا $n_{تی}$ حالت نرمال شده در مرحله زمانی است $تی$ . این به عادی سازی به روز رسانی های وضعیت سلول کمک می کند. حالت پنهان ${ساعت}_{تی}$ برای اتصالات مکرر استفاده می شود:

${ساعت}_{تی} = O_{تی} {\tilde{ساعت}}_{تی} ، {\tilde{ساعت}}_{تی} = ج_{تی} ∕ n_{تی}$

(۴)

کجا $O_{تی}$ دروازه خروجی است. دروازه ورودی ${من}_{تی}$ میزان اضافه شدن اطلاعات جدید به حالت سلول را کنترل می کند:

${من}_{تی} = ه x ص ({\tilde{من}}_{تی}) ، {\tilde{من}}_{تی} = {دبلیو}_{ز}^{⊺} x_{تی} + r_{من} {ساعت}_{تی - ۱} + ب_{من}$

(۵)

به طور مشابه دروازه فراموش

f_{تی}

میزان وضعیت سلول قبلی را کنترل می کند

ج_{تی - ۱}

حفظ می شود.

$f_{تی} = ص ({\tilde{f}}_{تی}) O آر ه x ص ({\tilde{f}}_{تی}) {\tilde{f}}_{تی} = {دبلیو}_{f}^{⊺} x_{تی} + r_{f} {ساعت}_{تی - ۱} + ب_{f}$

(۶)

دروازه خروجی

O_{تی}

جریان اطلاعات از حالت سلولی به حالت پنهان را کنترل می کند:

$O_{تی} = ص ({\tilde{O}}_{تی}) ، {\tilde{O}}_{تی} = {دبلیو}_{O}^{⊺} X_{تی} + r_{O} {ساعت}_{تی - ۱} + ب_{O}$

(۷)

کجا ${دبلیو}_{O}^{⊺}$ ماتریس وزنی است که به ورودی جریان اعمال می شود $x_{تی}$ ، $r_{O}$ ماتریس وزن مکرر برای دروازه خروجی است که در حالت پنهان قبلی اعمال می شود ${ساعت}_{تی - ۱} ،$ و $ب_{O}$ اصطلاح بایاس برای دروازه خروجی است.

برای ایجاد ثبات عددی برای گیت های نمایی، گیت های فراموشی و ورودی در حالت دیگری ترکیب می شوند

{متر}_{تی}

${متر}_{تی} = حداکثر (ورود به سیستم (f_{تی}) + {متر}_{تی - ۱} ، ورود به سیستم ({من}_{تی}))$

(۸)

${من “}_{تی} = انقضا (ورود به سیستم ({من}_{تی}) - {متر}_{تی}) = انقضا ({\tilde{من}}_{تی} - {متر}_{تی})$

(۹)

کجا ${من “}_{تی}$ یک گیت ورودی تثبیت شده است که یک نسخه تغییر مقیاس شده از گیت ورودی اصلی است. به طور مشابه، دروازه فراموش از طریق تثبیت می شود ${f “}_{تی} ،$ که یک نسخه تغییر مقیاس شده از دروازه اصلی فراموش شده است:

${f “}_{تی} = ه x ص (ورود به سیستم (f_{تی}) + {متر}_{تی - ۱} - {متر}_{تی})$

(۱۰)

به طور خلاصه، در مقایسه با LSTM اصلی، sLSTM دروازه نمایی را اضافه می کند، همانطور که با معادلات (۵) و (۶) نشان داده شده است. از نرمال سازی از طریق رابطه (۳) استفاده می کند. و در نهایت، تثبیت به دست آمده از طریق معادلات (۸) – (۱۰). اینها پیشرفت های قابل توجهی را برای LSTM متعارف ارائه می دهند.

۲٫۲٫ mLSTM

مدل حافظه کوتاه مدت ماتریسی (mLSTM). [24] یک سلول حافظه ماتریسی را همراه با مکانیزم به روز رسانی کوواریانس برای ذخیره سازی جفت کلید-مقدار معرفی می کند که ظرفیت حافظه مدل را به میزان قابل توجهی افزایش می دهد. مکانیسم‌های گیتینگ در کنار قانون به‌روزرسانی کوواریانس برای مدیریت مؤثر به‌روزرسانی‌های حافظه کار می‌کنند. با حذف اتصالات پنهان به مخفی، عملیات mLSTM را می توان به صورت موازی اجرا کرد، که هر دو فرآیند آموزش و استنتاج را سرعت می بخشد. این پیشرفت‌ها mLSTM را برای ذخیره و بازیابی اطلاعات بسیار کارآمد می‌کند و آن را برای کارهای مدل‌سازی دنباله‌ای که به ظرفیت‌های حافظه قابل توجهی نیاز دارند، مانند مدل‌سازی زبان، تشخیص گفتار، و پیش‌بینی سری‌های زمانی ایده‌آل می‌سازد. mLSTM نشان دهنده پیشرفت قابل توجهی در شبکه های عصبی بازگشتی است که به طور موثر به چالش های مدل سازی توالی پیچیده می پردازد. شکل ۲ معماری mLSTM را نشان می دهد.

معادلات (۱۱)-(۱۹) عملیات mLSTM را توصیف می کند [۲۴].

$ج_{تی} = f_{تی} ج_{تی - ۱} + {من}_{تی} v_{تی} ک_{تی}$

(۱۱)

ج_{تی}

حافظه ماتریسی است که اطلاعات را در ساختار پیچیده تری نسبت به حالت سلول اسکالر در یک LSTM سنتی ذخیره می کند. عادی سازی مشابه sLSTM انجام می شود:

$n_{تی} = f_{تی} n_{تی - ۱} + {من}_{تی} ک_{تی}$

(۱۲)

${ساعت}_{تی} = O_{تی} ⨀ {\tilde{ساعت}}_{تی} ، {\tilde{ساعت}}_{تی} = g (ج_{تی} ، q_{تی} ، n_{تی}) = ج_{تی} q_{تی} ∕ متر الف x {n_{تی}^{⊺} q_{تی} ، ۱}$

(۱۳)

شبیه به معماری ترانسفورماتور، پرس و جو

q_{تی}

کلید

ک_{تی}

و ارزش

v_{تی}

به شرح زیر ایجاد می شوند:

$q_{تی} = {دبلیو}_{q} x_{تی} + ب_{q}$

(۱۴)

$ک_{تی} = \frac{۱}{\sqrt{د}} {دبلیو}_{ک} x_{تی} + ب_{ک}$

(۱۵)

$v_{تی} = {دبلیو}_{v} x_{تی} + ب_{v}$

(۱۶)

${من}_{تی} = ه x ص (\tilde{{من}_{تی}}) ، {\tilde{من}}_{تی} = w_{من} x_{تی} + ب_{من}$

(۱۷)

کجا ${من}_{تی}$ دروازه ورودی است که ادغام اطلاعات جدید در حافظه را کنترل می کند. همانطور که در زیر نشان داده شده است، دروازه فراموش در مقایسه با sLSTM کمی متفاوت است. میزان حافظه قبلی را مشخص می کند $ج_{تی - ۱}$ قرار است حفظ شود.

$f_{تی} = ص ({\tilde{f}}_{تی}) O آر ه x ص ({\tilde{f}}_{تی}) ، {\tilde{f}}_{تی} = w_{f} x_{تی} + ب_{f}$

(۱۸)

همانطور که در زیر نشان داده شده است، گیت خروجی نیز در mLSTM کمی متفاوت است.

$O_{تی} = ص ({\tilde{O}}_{تی}) ، {\tilde{O}}_{تی} = w_{O} x_{تی} + ب_{O}$

(۱۹)

گیت خروجی کنترل می کند که چه مقدار از حافظه بازیابی شده به حالت پنهان ارسال می شود. در بخش بعدی، نحوه تطبیق sLSTM و mLSTM را با دامنه سری زمانی شرح می دهیم.

۲٫۳٫ XLSTM برای برنامه های سری زمانی

برای کاربردهای سری زمانی، هر دو sLSTM و mLSTM یک معماری قابل دوام را به دلیل مدیریت بهتر بافت بلندمدت از نظر الگوهای مهم گذشته ارائه می کنند. ما قابلیت های xLSTM را با استفاده از تکنیک های اثبات شده تجزیه دنباله افزایش می دهیم [۱۳] و عادی سازی نمونه برگشت پذیر (RevIn [25]). تجزیه توالی روند و الگوهای فصلی را از داده‌های سری زمانی استخراج می‌کند تا xLSTM بتواند کار موثری در ذخیره و بازیابی این اطلاعات انجام دهد. از آنجایی که ویژگی‌های آماری مانند میانگین و واریانس اغلب در طول زمان در سری‌های زمانی تغییر می‌کنند (معروف به مسئله تغییر توزیع)، RevIN (نرمال‌سازی نمونه برگشت‌پذیر) در پیش‌بینی سری‌های زمانی بهتر مؤثر است. [۲۵]. RevIN یک روش عادی سازی و غیرعادی سازی با تبدیل افین قابل یادگیری است. ساختار متقارن برای حذف و بازیابی اطلاعات آماری یک نمونه سری زمانی است. این دو پیشرفت تجزیه توالی و RevIn وقتی به معماری بهبود یافته xLSTM اضافه می‌شوند، پتانسیل مدل‌های پیش‌بینی سری زمانی برتر را دارند. ما طراحی معماری مبتنی بر xLSTM خود را در مرحله بعد به تفصیل شرح می دهیم و سپس به صورت تجربی نشان می دهیم که طراحی مبتنی بر xLSTM ما به صورت رقابتی با ترانسفورماتورهای پیشرفته عمل می کند. [۲۶] و مدل های فضای حالت [۲۲] برای پیش بینی سری های زمانی

۳٫ روش پیشنهادی

مدل مبتنی بر xLSTMTime پیشنهادی ما چندین مؤلفه کلیدی را برای مدیریت مؤثر وظایف پیش‌بینی سری زمانی ترکیب می‌کند. شکل ۳ نمای کلی از معماری مدل را ارائه می دهد.

ورودی مدل یک سری زمانی است که شامل چندین توالی است. بلوک تجزیه سری، داده های سری زمانی ورودی را به دو جزء برای هر سری تقسیم می کند تا روند و اطلاعات فصلی را ثبت کند. ما رویکرد را همانطور که در ارائه شده است اجرا می کنیم [۱۳] و به شرح زیر توضیح داده شده است. برای دنباله ورودی با طول زمینه از

L

متر

تعداد ویژگی ها، به عنوان مثال

x \in {آر}^{L x متر}

ما میانگین های متحرک قابل یادگیری را روی هر ویژگی از طریق کانولوشن های ۱ بعدی اعمال می کنیم. سپس مولفه های روند و فصلی به شرح زیر استخراج می شوند:

$x_{تی r ه n د} = الف v ه r الف g ه پ O O ل (پ الف د د من n g (x)) x_{س ه الف س O n الف ل} = x - x_{تی r ه n د}$

(۲۰)

پس از تجزیه، داده ها از یک لایه تبدیل خطی عبور می کنند تا به ابعاد مورد نیاز برای ماژول های xLSTM تبدیل شوند. ما بیشتر نرمال سازی دسته ای را انجام می دهیم [۲۷] برای ایجاد ثبات در یادگیری قبل از تغذیه داده ها به ماژول های xLSTM. نرمال سازی دسته ای یک تکنیک دگرگون کننده در یادگیری عمیق است که توزیع ورودی های شبکه را با عادی سازی فعال سازی هر لایه تثبیت می کند. این امکان را برای نرخ‌های یادگیری بالاتر فراهم می‌کند، آموزش را تسریع می‌کند و نیاز به مقداردهی اولیه دقیق و برخی از اشکال منظم‌سازی مانند Dropout را کاهش می‌دهد. با پرداختن به تغییر متغیر داخلی، نرمال سازی دسته ای ثبات و عملکرد شبکه را در وظایف مختلف بهبود می بخشد. حداقل سربار را با دو پارامتر قابل آموزش اضافی در هر لایه معرفی می‌کند و شبکه‌های عمیق‌تر را قادر می‌سازد سریع‌تر و مؤثرتر آموزش دهند. [۲۷].

بلوک xLSTM شامل هر دو مؤلفه sLSTM و mLSTM است. مؤلفه sLSTM از حافظه اسکالر و دروازه نمایی برای مدیریت وابستگی های طولانی مدت و کنترل حافظه مناسب برای اطلاعات تاریخی استفاده می کند. مؤلفه mLSTM از حافظه ماتریسی و قانون به‌روزرسانی کوواریانس برای افزایش ظرفیت ذخیره‌سازی و قابلیت‌های بازیابی اطلاعات مربوطه استفاده می‌کند. بسته به ویژگی های مجموعه داده، مولفه sLSTM یا mLSTM را انتخاب می کنیم. برای مجموعه داده های کوچکتر مانند ETTm1، ETTm2، ETTh1، ETTh2، ILI و آب و هوا، از sLSTM استفاده می کنیم، در حالی که برای مجموعه داده های بزرگتر مانند برق، ترافیک و PeMS، mLSTM به دلیل ظرفیت حافظه بالاتر در یادگیری بهتر برای سری های زمانی انتخاب می شود. الگوها خروجی بلوک xLSTM از لایه خطی دیگری عبور می کند. این لایه داده ها را بیشتر تبدیل می کند و آن را برای خروجی نهایی از طریق عادی سازی نمونه آماده می کند. عادی سازی نمونه در هر کانال سری زمانی به طور مستقل عمل می کند. داده‌های درون هر کانال از هر سری مؤلفه را عادی می‌کند تا میانگین ۰ و واریانس ۱ داشته باشد. فرمول عادی سازی مثال برای یک نقشه ویژگی مشخص به شرح زیر است:

$من ن (x) = \frac{x - متر (x)}{ص (x)}$

(۲۱)

کجا x نقشه ویژگی ورودی را نشان می دهد، m(x) میانگین نقشه ویژگی است و s(x) انحراف معیار نقشه ویژگی است [۲۷]. ما از نرمال‌سازی نمونه برگشت‌پذیر (RevIn) استفاده می‌کنیم که در ابتدا پیشنهاد شد [۲۷]به طور مستقل روی هر کانال از هر نمونه کار کند. این یک تبدیل قابل یادگیری برای عادی سازی داده ها در طول آموزش اعمال می کند، به طوری که می توان آن را در حین پیش بینی به مقیاس اصلی خود برگرداند.

شبه کد xLSTMTime در شکل ۴ در زیر توضیح داده شده است.

۴٫ نتایج

ما معماری مبتنی بر xLSTM پیشنهادی خود را بر روی ۱۲ مجموعه داده پرکاربرد از برنامه های کاربردی دنیای واقعی آزمایش می کنیم. این مجموعه داده ها شامل سری دمای ترانسفورماتور برق (ETT) است که به ETTh1 و ETTh2 (فواصل ساعتی) و ETTm1 و ETTm2 (فاصله های ۵ دقیقه) تقسیم می شوند. علاوه بر این، مجموعه داده‌های مربوط به ترافیک (ساعتی)، برق (ساعتی)، آب و هوا (فاصله‌های ۱۰ دقیقه)، بیماری شبه آنفلوانزا (ILI) (هفتگی)، و نرخ ارز (روزانه) را تجزیه و تحلیل می‌کنیم. مجموعه داده دیگری، ترافیک PeMS (PEMS03، PEMS04، PEMS07، و PEMS08)، از سیستم اندازه‌گیری عملکرد آژانس‌های حمل و نقل کالیفرنیا (CalTrans) (PeMS) تهیه شده است. جدول ۱ ویژگی های مجموعه داده های مختلفی را که ما استفاده می کنیم ارائه می دهد.

هر مدل از یک تنظیم آزمایشی سازگار پیروی می کند، با طول های پیش بینی T از {۹۶، ۱۹۲، ۳۳۶، ۷۲۰} برای همه مجموعه داده ها به جز مجموعه داده ILI. برای مجموعه داده ILI، از طول های پیش بینی {۲۴، ۳۶، ۴۸، ۶۰} استفاده می کنیم. پنجره نگاه به عقب L برای همه مجموعه داده ها به جز مجموعه داده ILI که برای آن استفاده می کنیم، ۵۱۲ است L از ۹۶ [۱۶]. ما در طول آموزش از میانگین خطای مطلق (MAE) استفاده می کنیم. برای ارزیابی، معیارهای مورد استفاده MSE (میانگین مربعات خطا) و MAE (میانگین خطای مطلق) هستند. جدول ۲ نتایج را برای معیارهای مختلف ارائه می دهد و نتایج ما را با کارهای اخیر در زمینه سری های زمانی مقایسه می کند.

جدول ۲: نتایج پیش‌بینی بلندمدت چند متغیره با فواصل پیش‌بینی T = {24، ۳۶، ۴۸، ۶۰} برای مجموعه داده ILI و T = {96، ۱۹۲، ۳۳۶، ۷۲۰} برای سایر مجموعه‌های داده. بهترین نتایج با رنگ قرمز و بهترین نتایج بعدی با رنگ آبی مشخص شده اند. اعداد کمتر بهتر است.

همانطور که از جدول ۲ مشاهده می شود، برای اکثریت قریب به اتفاق معیارها، ما از رویکردهای موجود بهتر عمل می کنیم. فقط در مورد الکتریسیته و ETTh2، در تعداد کمی از طول‌های پیش‌بینی، نتایج ما در رتبه دوم قرار دارند.

شکل ۵ و شکل ۶ نمودارهایی را برای مقادیر سری زمانی واقعی در مقابل پیش بینی شده برای تعدادی از مجموعه داده ها نشان می دهد. طول های پیش بینی در شکل ۵a و شکل ۶a 192 است، در حالی که در شکل ۵b و شکل ۶b، آنها ۳۳۶ هستند. هر دو شکل از طول زمینه ۵۱۲ استفاده می کنند. همانطور که مشاهده می شود، مدل ما تناوب و تغییرات در داده ها را به خوبی یاد می گیرد. . در بیشتر موارد.

جدول ۳ نتایج مقایسه مجموعه داده های PeMS را نشان می دهد. در اینجا، مدل ما بهترین یا دومین نتایج را در مقایسه با مدل‌های پیشرفته اخیر ایجاد می‌کند. شکل ۶ نمودارهای واقعی در مقابل پیش بینی شده را برای برخی از مجموعه داده های PeMS نشان می دهد.

شکل ۷ نمودارهایی را برای مقادیر سری زمانی واقعی در مقابل پیش بینی شده برای تعدادی از مجموعه داده های PEMS نشان می دهد. طول پیش‌بینی در شکل ۷ ۹۶ است. همانطور که مشاهده می‌شود، مدل ما روند و تغییرات در داده‌های مجموعه داده PEMS را در اکثر موارد به خوبی یاد می‌گیرد.

برای بهینه‌سازی نرخ یادگیری، از تنظیم نرخ یادگیری پویا استفاده می‌کنیم، جایی که برنامه فرآیند آموزش را نظارت می‌کند و نرخ یادگیری مؤثری را بر اساس از دست دادن مشاهده شده پیشنهاد می‌کند. این منجر به افزایش نرخ یادگیری در ابتدای فرآیند آموزش می شود و به تدریج با بهبود زیان کاهش می یابد. این منجر به یک روند آموزشی سریعتر و پایدارتر می شود. شکل ۸ تغییر نرخ یادگیری را در طول آموزش مجموعه داده ETTm1 نشان می دهد.

پیچیدگی زمانی xLSTM خطی نشان داده شده است. ما تعداد دقیق پارامترها و زمان اجرا برای آموزش مدل‌های مختلف را در جدول ۴ و جدول ۵ اندازه‌گیری می‌کنیم. در حالی که اندازه‌های مدل برای xLSTMTime و مدل‌های مبتنی بر ترانسفورماتور (مانند PathTST و iTransformer) تقریباً مشابه است، زمان اجرا برای xLSTMTime برابر است. نسبت به مدل های مبتنی بر ترانسفورماتور کمتر است. این به این دلیل است که مدل های مبتنی بر ترانسفورماتور دارای پیچیدگی درجه دوم نسبت به طول دنباله به دلیل توجه زوجی هستند که محاسبه می شود.

۵٫ بحث

یکی از موثرترین مدل های اخیر برای پیش بینی سری های زمانی Dlinear است. هنگامی که رویکرد خود را با مدل Dlinear مقایسه می‌کنیم، همانطور که در جدول ۲ نشان داده شده است، پیشرفت‌های قابل‌توجهی را در مجموعه‌های داده مختلف به دست می‌آوریم. مهم‌ترین پیشرفت‌ها در مجموعه داده آب و هوا، با بهبودهای ۱۸٫۱۸% برای T = 96 و ۱۲٫۷۳% مشاهده می‌شود. برای T = 192. بهبودهای قابل توجهی نیز در مجموعه داده بیماری (۲۲٫۶۲٪ برای T = 36) و مجموعه داده ETTh2 (11.23٪ برای T = 192) مشاهده شده است. این نتایج نشان می دهد که مدل xLSTMTime ما به طور مداوم از DLinear بهتر عمل می کند، به خصوص در مجموعه داده های پیچیده برای طول های پیش بینی متفاوت.

یکی دیگر از مدل های قابل توجه اخیر برای پیش بینی سری های زمانی PatchTST است. مقایسه بین مدل xLSTMTime ما و PatchTST یک چشم انداز عملکرد ظریف را نشان می دهد. xLSTMTime در چندین سناریو، به‌ویژه در مجموعه داده‌های آب و هوا، با پیشرفت‌هایی از ۱٫۰۳% تا ۳٫۳۶%، نسبت به PatchTST پیشرفت‌های متوسط اما ثابتی را نشان می‌دهد. قابل توجه ترین پیشرفت ها در پیش بینی آب و هوا در T = 96 و T = 336، و همچنین در مجموعه داده ETTh1 برای T = 720 (1.34٪ بهبود) مشاهده شد. در مجموعه داده الکتریسیته، xLSTMTime پیشرفت های جزئی را در طول های پیش بینی طولانی تر نشان می دهد (T = 336 و T = 720). با این حال، xLSTMTime نیز برخی از محدودیت ها را نشان می دهد. در مجموعه داده بیماری، برای طول‌های پیش‌بینی کوتاه‌تر، PatchTST 14.78٪ برای T = 24 کمتر عمل می‌کند، اگرچه برای T = 60 در ۳٫۵۴٪ عملکرد بهتری دارد. نتایج ترکیبی نیز در مجموعه داده ETTh2 مشاهده شد، با عملکرد ضعیف برای T = 336 اما عملکرد بهتر در سایر طول‌های پیش‌بینی. جالب توجه است که برای افق‌های پیش‌بینی طولانی‌تر (T = 720)، عملکرد xLSTMTime با PatchTST در چندین مجموعه داده، با تفاوت‌هایی که اغلب کمتر از ۱ درصد است، کاملاً مطابقت دارد یا کمی بهتر از آن است. این را می توان به قابلیت های حافظه بلند مدت بهتر رویکرد xLSTM نسبت داد.

به طور کلی، تجزیه و تحلیل مقایسه ای نشان می دهد که در حالی که xLSTMTime با PatchTST، یک مدل پیشرفته برای پیش بینی سری های زمانی، بسیار رقابتی است، مزایای آن به مجموعه داده های خاص و طول های پیش بینی اختصاص دارد. علاوه بر این، عملکرد بهتر از DLinear در سناریوهای متعدد، بر استحکام آن تأکید می کند. نمایه کلی عملکرد xLSTMTime، که در بیشتر موارد نسبت به DLinear و PatchTST پیشرفت های قابل توجهی نشان می دهد، پتانسیل آن را در زمینه پیش بینی سری های زمانی ایجاد می کند. مدل ما نقاط قوت خاصی را در افق‌های پیش‌بینی طولانی‌تر نشان می‌دهد تا حدی به دلیل قابلیت‌های زمینه طولانی xLSTM همراه با استخراج اطلاعات فصلی و روند در پیاده‌سازی ما.

در مقایسه مدل xLSTMTime با iTransformer، RLinear، PatchTST، Crossformer، DLinear، و SCINet در مجموعه داده‌های PeMS (جدول ۳)، به عملکرد برتر نیز دست پیدا می‌کنیم. به عنوان مثال، در مجموعه داده PEMS03، برای یک پیش‌بینی ۱۲ مرحله‌ای، xLSTMTime تقریباً ۹٪ MSE بهتر و ۵٪ MAE بهتر به دست می‌آورد. این روند در سایر فواصل پیش‌بینی و مجموعه داده‌ها ادامه می‌یابد و اثربخشی xLSTMTime در پیش‌بینی چند متغیره را برجسته می‌کند. قابل ذکر است، xLSTMTime اغلب در تقریباً همه موارد بهترین یا دومین نتایج را به دست می‌آورد، که بر اثربخشی آن در سناریوهای مختلف پیش‌بینی تأکید می‌کند.

معماری سنتی LSTM در گرفتن وابستگی های طولانی مدت مشکل داشت. در حالی که xLSTM تا حدی بر این موارد غلبه می‌کند، ممکن است در مقایسه با معماری‌های مبتنی بر ترانسفورماتور که برای پیش‌بینی نشانه‌های آینده به هیچ وضعیت گذشته متکی نیستند، محدودیت‌هایی در مدیریت توالی طولانی داشته باشد. در مجموعه داده‌های استانداردی که محققان برای مقایسه مدل‌های پیش‌بینی سری‌های زمانی استفاده می‌کنند، ما با این محدودیت در xLSTM مواجه نشده‌ایم، اما باید دید زمانی که توالی‌های زمانی بسیار بزرگ‌تری استفاده می‌شوند تا ببینیم آیا xLSTM همچنان می‌تواند به همان خوبی باشد که در آن مشاهده کردیم. کار

در حالی که ما xLSTMTime را برای حوزه‌های پیش‌بینی سری‌های زمانی مختلف مانند برق، آب‌وهوا، ترافیک، بیماری، حمل‌ونقل و غیره آزمایش کرده‌ایم، برای پیش‌بینی مؤثر در حوزه‌های دیگر مانند مالی و اقتصادی کاربرد دارد. سری داده های هر دامنه از تعدادی ویژگی (یا کانال) تشکیل شده است. برای تطبیق داده‌های یک دامنه معین با مدل xLSTM ما، بارگذارهای داده‌ای که داده‌های آموزشی و آزمایشی را به مدل ما تغذیه می‌کنند باید بر اساس تعداد ویژگی‌ها و مراحل زمانی در طول زمینه تنظیم شوند. ما کد را به روشی انعطاف‌پذیر پیاده‌سازی کرده‌ایم که به راحتی می‌توان آن را مشخص کرد.

۶٫ نتیجه گیری

در این مقاله، ما معماری مکرر اخیراً بهبود یافته xLSTM را که نتایج رقابتی را در حوزه NLP برای پیش‌بینی سری‌های زمانی نشان داده است، تطبیق می‌دهیم. از آنجایی که xLSTM با تثبیت بهبود یافته، دروازه نمایی و ظرفیت حافظه بالاتر، معماری یادگیری عمیق بالقوه بهتری را ارائه می دهد، با تطبیق صحیح آن با حوزه سری زمانی از طریق تجزیه سری، و نرمال سازی دسته ای و نمونه، ما معماری xLSTMTime را برای LTSF توسعه می دهیم. مدل xLSTMTime ما عملکرد عالی را در برابر مدل‌های مبتنی بر ترانسفورماتور پیشرفته و همچنین سایر مدل‌های سری زمانی پیشنهادی اخیر نشان می‌دهد. از طریق آزمایش‌های گسترده بر روی مجموعه‌های داده متنوع، xLSTMTime دقت بالاتری را از نظر MSE و MAE نشان داد و آن را به یک جایگزین مناسب برای مدل‌های پیچیده‌تر تبدیل کرد. ما پتانسیل معماری‌های xLSTM را در عرصه پیش‌بینی سری‌های زمانی برجسته می‌کنیم، راه را برای راه‌حل‌های پیش‌بینی کارآمدتر و قابل تفسیرتر و کاوش بیشتر با استفاده از مدل‌های تکراری هموار می‌کنیم.

منبع: https://www.mdpi.com/2673-2688/5/3/71