۳٫۲٫ ساخت مدل
شبکه های عصبی شامل معماری های مختلفی هستند که برای ادغام توابع هزینه از پیش تعریف شده در فرآیند یادگیری خود برای پیش بینی های دقیق طراحی شده اند. عملکرد آنها را می توان با ترکیب دانش قبلی برای انطباق با محدودیت های فیزیکی و قوانین حاکم در صورت لزوم افزایش داد. چندین معماری کلیدی پدیدار شده اند که هر کدام دارای نقاط قوت مجزا هستند [۴۸].
شبکه های عصبی مصنوعی (ANN): یک شبکه عصبی کاملا متصل [۴۹,۵۰]اغلب به عنوان یک ANN متراکم شناخته می شود، از لایه های به هم پیوسته تشکیل شده است، که در آن هر نورون در یک لایه به هر نورون در لایه بعدی مرتبط است. [۵۱,۵۲]. از نظر ریاضی، خروجی y یک لایه به عنوان تابع فعال سازی محاسبه می شود f به جمع وزنی اعمال می شود ز از ورودی ها x با وزن های مربوطه دبلیو و تعصبات ببه شرح زیر نشان داده شده است:
در زمینه لایه های متعدد، نشان داده شده با
nفرآیند برای هر لایه تکرار می شود. به طور خاص، برای
منلایه -ام، خروجی
به صورت زیر محاسبه می شود:
کجا نشان دهنده بردار ورودی است xو و ماتریس وزن و بردار بایاس را نشان دهید منلایه -ام به ترتیب. این محاسبه بازگشتی از طریق لایهها، شبکه را قادر میسازد تا روابط پیچیده درون دادهها را ثبت کند. علاوه بر این، در طول آموزش، هدف شبکه به حداقل رساندن یک تابع هزینه از پیش تعریف شده است جیاغلب به عنوان خطای میانگین مربعات (MSE) برای مشکلات رگرسیون یا آنتروپی متقابل برای وظایف طبقه بندی نشان داده می شود. به عنوان مثال، در مورد MSE، تابع هزینه را می توان به صورت زیر نوشت:
کجا متر تعداد نمونه های آموزشی است نشان دهنده خروجی واقعی است، و خروجی پیش بینی شده را نشان می دهد.
ANN ها اغلب در پین ها به دلیل سادگی و اثربخشی در یادگیری روابط پیچیده استفاده می شوند. ببینید [۵۳,۵۴,۵۵,۵۶,۵۷,۵۸].
شبکه های عصبی کانولوشن (CNN): یک CNN شباهت هایی با ANN دارد اما شامل لایه های کانولوشن است [۵۹,۶۰,۶۱]. CNN ها به ویژه برای مشکلات مربوط به داده های ساختار یافته شبکه، مانند تصاویر یا داده های مکانی-زمانی مفید هستند. [۵۹,۶۲]. با این حال، آنها همچنین می توانند داده های عددی را با استفاده از یک CNN 1 بعدی به عنوان مدل پایه در خود جای دهند. ویژگی متمایز CNN ها در استفاده آنها از فیلترهای پیچشی است که به عنوان هسته نیز شناخته می شود. این فیلترها، مربعی شکل، از طریق فرآیند پیچیدگی بر روی پیکسلهای ورودی اعمال میشوند و هر مربعی را که با اندازه فیلتر و گام تعیینشده توسط کاربر تعریف میشود، طی میکنند. CNN ها با استفاده مداوم از فیلتر یکسان در پیکسل های ورودی، مجموعه ای مختصر از فراپارامترها را حفظ می کنند. [۶۳].
یک لایه کانولوشن از چندین هسته تشکیل شده است که نقشه های ویژگی را ایجاد می کند. هر نورون در یک نقشه ویژگی به یک منطقه محلی (میدان گیرنده) در لایه قبلی متصل است. برای به دست آوردن یک نقشه ویژگی، ورودی با یک هسته در هم می پیچد و به دنبال آن یک تابع فعال سازی غیرخطی اعمال می شود. [۶۰].
از نظر ریاضی، مقدار ویژگی
در موقعیت
در
ک-ام نقشه ویژگی از
للایه -ام به صورت زیر محاسبه می شود:
کجا است ک-بردار وزن فیلتر، تعصب آن است و وصله ورودی در است .
پس از عملیات پیچیدگی، یک تابع فعال سازی
برای معرفی غیر خطی بودن از نظر عنصر استفاده می شود:
متعاقباً، لایههای ادغام اغلب برای نمونهبرداری از نقشههای ویژگی بهدستآمده از لایههای کانولوشن استفاده میشوند و ابعاد را کاهش میدهند و در عین حال اطلاعات مهم را حفظ میکنند. یک عملیات ادغام مشترک حداکثر ادغام است که در آن حداکثر مقدار در یک منطقه محلی حفظ می شود.
کجا نشان دهنده محله محلی اطراف است و منطقه ای از نقشه ورودی است که ادغام می شود. عملیات متداول ادغام شامل جمع آوری متوسط و حداکثر جمع آوری است.
در CNNها، فرآیند آموزش معمولاً شامل به حداقل رساندن یک تابع ضرر است
که یک تابع ضرر استاندارد را ترکیب می کند
با یک اصطلاح تنظیم برای جلوگیری از برازش بیش از حد. این اصطلاح منظمسازی میتواند شامل کاهش وزن یا ترک تحصیل، در میان دیگران باشد. تابع زیان کل به صورت زیر تعریف می شود:
کجا یک هایپرپارامتر است که قدرت منظم سازی را کنترل می کند. این رویکرد یکپارچه به CNN ها اجازه می دهد تا به طور موثر ویژگی های پیچیده را از داده های ساختاری شبکه یاد بگیرند و در عین حال خطر بیش از حد برازش را در مرحله آموزش کاهش دهند. در پینها، CNNها را میتوان زمانی به کار برد که مشکل شامل وابستگیهای مکانی یا مکانی-زمانی باشد. [۴۱,۶۴,۶۵,۶۶,۶۷,۶۸,۶۹,۷۰].
شبکه های عصبی مکرر (RNN): RNN ها برای مدیریت داده های سری زمانی طراحی شده اند [۷۱,۷۲]. این قابلیت از چینش بازگشتی لایههای پنهان آنها ناشی میشود، که آنها را قادر میسازد نه تنها خروجیهایی را در نقاط زمانی خاص تولید کنند، بلکه حالتهای پنهان را به لایههای بعدی نیز منتقل کنند. بسته به نوع RNN، خروجی ها در هر مرحله زمانی نیز ممکن است به جلو رله شوند. از نظر مفهومی، RNN ها را می توان به عنوان چند نمونه از یک ANN استاندارد در نظر گرفت که هر نمونه اطلاعاتی را به جانشین خود ارسال می کند. [۷۳,۷۴,۷۵]. این انطباق به RNN ها قدرت می دهد تا داده ها را در گام های زمانی فردی و اتصالات بین آنها مدل کنند.
معماریهای RNN میتوانند برای مطابقت با انواع مشکلات متفاوت باشند. از نظر ساختاری، RNN ها ممکن است در پیکربندی های یک به یک، یک به چند، چند به یک یا چند به چند عمل کنند. [۷۶,۷۷]. کاربرد قابل توجه ساختار RNN چند به چند در کارهای ترجمه ماشینی یافت می شود. به عنوان مثال، در یک سناریوی ترجمه، جزء رمزگذار شبکه کلمات ورودی را به زبان انگلیسی دریافت می کند، در حالی که جزء رمزگشا کلمات ترجمه شده مربوطه را به زبان فرانسوی تولید می کند.
در سیستمهای دینامیکی، معادلات حاکم اغلب رفتار سیستم را در طول زمان توصیف میکنند و اغلب به شکل معادلات دیفرانسیل میآیند. این معادلات منبع ارزشمندی از دانش قبلی هستند.
RNN ها برای مدیریت داده های متوالی با حفظ وضعیت داخلی یا حافظه ورودی های گذشته طراحی شده اند. از نظر ریاضی، یک شبکه عصبی بازگشتی را می توان به صورت زیر نشان داد:
کجا حالت پنهان در زمان است تی; ورودی در زمان است تی; ، ، ماتریس های وزنی هستند. و بردارهای سوگیری هستند. f تابع فعال سازی لایه پنهان است. و g تابع فعال سازی لایه خروجی است. برای یک دنباله معین از ورودی ها دنباله خروجی با تکرار معادلات بالا در مراحل زمانی به دست می آید .
آموزش RNN ها شامل بهینه سازی یک تابع هزینه است
جی که اختلاف بین خروجی های پیش بینی شده و خروجی های واقعی را اندازه گیری می کند. یکی از گزینه های رایج برای تابع هزینه، میانگین مربعات خطا است:
کجا خروجی هدف در زمان است تی.
در پینها، RNNها را میتوان برای حل مسائل وابسته به زمان که توسط ODEها کنترل میشوند، مانند پیشبینی رفتار سیستمهای پویا در طول زمان به کار برد. ببینید [۷۸,۷۹,۸۰,۸۱,۸۲,۸۳].
شبکه های عصبی نمودار (GNN): مدل های یادگیری عمیق در درجه اول بر روی داده های ساختار یافته مانند تصاویر و متن تمرکز می کنند [۸۴,۸۵]. با این حال، دادههایی با ساختارهای نامنظم نیازمند روشهای پردازش جایگزین هستند. برای مقابله با این چالش، GNN ها توسعه یافته اند و شبکه های کانولوشن گراف (GCN) به عنوان یک نوع برجسته ظاهر می شوند. [۸۴,۸۶,۸۷]. GCN ها از تبدیل فوریه گراف برای استخراج ویژگی ها از نمودارها استفاده می کنند، مشابه نحوه استفاده CNN ها از کانال ها. آنها از فیلترهای گراف پارامتر شده توسط مقادیر ویژه یک ماتریس لاپلاسی گراف برای استخراج ویژگی استفاده می کنند. لایه خروجی یک GCN بر اساس وظیفه در دست تغییر می کند. برای طبقه بندی گره ها، اغلب از یک لایه کاملا متصل استفاده می شود.
نمایش ریاضی GCN ها می تواند شامل مراحل زیر باشد: GCN ها ممکن است از یک تبدیل فوریه مانند برای استخراج ویژگی ها از داده های ساختار یافته گراف استفاده کنند. نمودار تبدیل فوریه یک سیگنال x روی یک نمودار جی را می توان به صورت زیر تعریف کرد: کجا U ماتریس بردارهای ویژه گراف ماتریس لاپلاسی است.
سپس، GCN ها از فیلترهای گراف پارامتر شده توسط مقادیر ویژه ماتریس لاپلاسی گراف استفاده می کنند. با توجه به سیگنال نمودار
x و یک فیلتر
سیگنال فیلتر شده
به صورت زیر محاسبه می شود:
کجا ماتریس قطری مقادیر ویژه ماتریس لاپلاسی گراف است.
لایه خروجی یک GCN به وظیفه خاص بستگی دارد. به عنوان مثال، برای طبقه بندی گره ها، می توان از یک لایه کاملا متصل و به دنبال آن یک تابع softmax استفاده کرد. خروجی
y به صورت زیر محاسبه می شود:
کجا دبلیو ماتریس وزن است و ب بردار سوگیری است.
تابع هزینه برای آموزش یک GCN به وظیفه خاص بستگی دارد و می تواند بر این اساس فرموله شود. به عنوان مثال، برای طبقه بندی گره ها، یک انتخاب رایج تابع تلفات متقابل آنتروپی است:
کجا ن تعداد گره ها است ک تعداد کلاس ها است برچسب واقعی برای گره است من و کلاس کو احتمال پیش بینی گره است من متعلق به کلاس ک.
در زمینه PINN، GNN ها را می توان برای مدل سازی سیستم های فیزیکی پیچیده که با اجزای به هم پیوسته مشخص می شوند، مانند شبیه سازی های دینامیک مولکولی یا تجزیه و تحلیل شبکه های اجتماعی استفاده کرد. ببینید [۸۵,۸۸,۸۹,۹۰,۹۱,۹۲].
مکانیسم های توجهمکانیسمهای توجه به شبکههای عصبی (NN) اجازه میدهند تا بر بخشهای خاصی از دادههای ورودی تمرکز کنند و آنها را قادر میسازد تا اهمیت ویژگیهای مختلف را به صورت پویا ارزیابی کنند. [۹۳,۹۴]. از نظر ریاضی، مکانیسم های توجه را می توان به صورت زیر نشان داد: یک شبکه عصبی را در نظر بگیرید
f با پارامترها
و اجازه دهید
x نشان دهنده داده های ورودی مکانیسم توجه
وزنهایی را به بخشهای مختلف ورودی اختصاص میدهد و به شبکه اجازه میدهد تا بر مرتبطترین اطلاعات تمرکز کند. این مکانیسم توجه را می توان به صورت زیر فرموله کرد:
کجا ، ، و پارامترهای قابل یادگیری هستند و softmax تابع softmax است. ورودی با توجه وزن سپس به عنوان حاصلضرب عنصری وزن توجه و ورودی محاسبه می شود:
ورودی با توجه وزن سپس از طریق شبکه عصبی منتقل می شود f برای به دست آوردن خروجی y:
در نهایت، تابع هزینه
جی از PINN، که مکانیسم توجه را در بر می گیرد، می تواند به صورت زیر تعریف شود:
کجا ن تعداد نقاط داده است تابع ضرر است، برچسب حقیقت زمینی است و پارامتر منظم سازی است. اصطلاح عبارت منظم سازی را نشان می دهد که مقادیر زیادی از پارامترهای شبکه را جریمه می کند برای جلوگیری از نصب بیش از حد
در پینها، مکانیسمهای توجه میتوانند عملکرد را با توجه انتخابی به ویژگیهای مکانی یا زمانی مرتبط، به ویژه در مشکلات فضاهای ورودی بزرگ یا با ابعاد بالا، افزایش دهند. ببینید [۹۵,۹۶,۹۷,۹۸,۹۹].
مدل های مولد: شبکههای عصبی عمیق را میتوان به گروههای متمایز طبقهبندی کرد [۱۰۰] و مدل های مولد [۱۰۱] بر اساس عملکرد آنها مدلهای متمایز متغیر هدف را با توجه به متغیرهای ورودی پیشبینی میکنند، در حالی که مدلهای مولد احتمال شرطی متغیرهای قابل مشاهده را با توجه به هدف مدل میکنند. دو مدل مولد برجسته، رمزگذارهای خودکار متغیر (VAEs) هستند. [۱۰۲] و شبکه های متخاصم مولد (GAN) [103].
از نظر ریاضی، یک VAE را می توان به صورت زیر نشان داد: اجازه دهید
X نشان دهنده داده های ورودی،
ز نشان دهنده فضای نهفته و
پارامترهای VAE را نشان می دهد. رمزگذار
داده های ورودی را به توزیع فضای پنهان و رمزگشا نگاشت می کند
داده های ورودی را از فضای پنهان بازسازی می کند. هدف، به حداکثر رساندن شواهد کران پایین (ELBO) ارائه شده توسط
کجا توزیع قبلی بر روی فضای پنهان است و KL نشان دهنده واگرایی کولبک-لایبلر است.
یک GAN را می توان به صورت زیر نشان داد:
در یک GAN، یک شبکه ژنراتور
جی نمونه هایی را از توزیع قبلی تولید می کند
و یک شبکه تبعیض آمیز
د بین نمونه های واقعی و تولید شده تمایز قائل می شود. هدف ژنراتور به حداقل رساندن تابع هزینه زیر است:
کجا تابع مقدار بازی minimax را نشان می دهد.
در پینها، رمزگذارهای خودکار یا VAE میتوانند برای یادگیری نمایشهای فشرده سیستمهای فیزیکی، امکان مدلسازی و شبیهسازی کارآمد را برای کارهایی مانند حذف نویز دادهها، استخراج ویژگی یا تخمین عدم قطعیت به کار ببرند. ببینید [۴۰,۱۰۴,۱۰۵,۱۰۶,۱۰۷].
هر یک از معماری های قبلی مزایای منحصر به فردی را ارائه می دهد و برای انواع مختلف مشکلات فیزیکی مناسب است.
۳٫۳٫ گنجاندن قوانین فیزیکی به عنوان یک تابع هزینه اضافی
در وضعیت فعلی تحقیقات PINN، روشهای مورد بحث در این بخش به طور گسترده برای جاسازی قوانین فیزیکی در شبکههای عصبی مورد استفاده قرار میگیرند. این تضمین میکند که مدلهای حاصل نه تنها مبتنی بر دادهها هستند، بلکه از نظر فیزیکی سازگار و قابل تفسیر هستند.
گنجاندن قوانین فیزیکی در PINN ها برای اطمینان از اینکه مدل ها به طور دقیق اصول اساسی را منعکس می کنند، بسیار مهم است. تکنیکهای مختلف این قوانین را در تابع از دست دادن ادغام میکنند و به شبکههای عصبی اجازه میدهند تا روابط پیچیده را ثبت کنند و در عین حال به اصول اساسی وفادار بمانند. شایع ترین شکل عملکردی از دست دادن، میانگین مربعات خطا (MSE) است. [۷]; از p-norm نیز استفاده می شود [۱۰۸].
در این زمینه، تابع هزینه ممکن است شامل وفاداری داده ها و اصطلاحات تنظیم فیزیک باشد که انحراف از قوانین فیزیکی شناخته شده را در طول تمرین جریمه می کند. [۱۰۹]. از طرف دیگر، ممکن است محدودیتهای فیزیکی مبتنی بر قوانین حفاظت یا روابط سازنده را به عنوان محدودیتهای برابری یا نابرابری بر خروجی شبکه عصبی تحمیل کند و اطمینان حاصل کند که پیشبینیها از نظر فیزیکی قابل قبول هستند. [۱۱۰]. علاوه بر این، تابع هزینه می تواند به عنوان یک اصطلاح منظم در هدف آموزشی عمل کند تا ثبات فیزیکی را اعمال کند، انحراف از قوانین فیزیکی را جریمه کند و در عین حال نرمی و ثبات را در راه حل های آموخته شده ارتقا دهد. [۱۱۱,۱۱۲].
تحقیقات اخیر امکان ادغام اطلاعات ساختار یافته قبلی را در سیستم های یادگیری کارآمد از نظر داده و فیزیک نشان داده است. به عنوان مثال، رگرسیون فرآیند گاوسی برای ایجاد نمایش های تابعی مناسب برای عملگرهای خطی خاص استفاده شده است، که امکان استنتاج حل دقیق و ارزیابی عدم قطعیت را در فیزیک ریاضی فراهم می کند. [۷,۴۴,۱۱۳].
چارچوب پیشگام معرفی شده توسط [۷] قوانین فیزیکی را در فرآیندهای یادگیری شبکه عصبی گنجانده است، به ویژه برای حل PDE های غیرخطی در مسائل رو به جلو و معکوس. این ادغام معادلات دیفرانسیل در توابع از دست دادن یک شبکه عصبی، فرآیند آموزش را با استفاده از محدودیتهای فیزیکی هدایت میکند.
با تکیه بر این پایه، رئیسی و همکاران. یک چارچوب یادگیری عمیق به نام مکانیک سیالات پنهان (HFM) را معرفی کرد، که مفهوم PINN را به سیستم های پیچیده ای که توسط PDE های جفت شده و غیرخطی اداره می شوند گسترش داد. [۱۱۴]. این مشارکتهای اولیه کارآمدی PINN را در رسیدگی به مشکلات رو به جلو و معکوس نشان داد و راه را برای پذیرش گستردهتر و نوآوری بیشتر هموار کرد.
تحقیقات بعدی قابلیتهای PINN را پیشرفته کرده است، از جمله توسعه توابع فعالسازی تطبیقی و رویکردهای چند وفاداری برای رسیدگی به سفتی PDE و بهبود نرخهای همگرایی. [۱۱۵]. روشهای ترکیب معادلات فیزیکی در توابع از دست دادن مدل یادگیری عمیق، مانند مواردی که توسط [۴۱]امکان آموزش بدون دادههای برچسبگذاری شده، ارائه پیشبینیهای دقیق با رعایت محدودیتهای مشکل و تعیین کمیت عدم قطعیت پیشبینی در سناریوهای مختلف.
رویکردهای ترکیبی ترکیب عناصر چند تکنیک [۶,۳۴]مانند توابع از دست دادن مبتنی بر فیزیک و روشهای مبتنی بر محدودیت، برای اجرای همزمان محدودیتهای فیزیکی و اهداف مبتنی بر داده. با استفاده از نقاط قوت مکمل تکنیکهای مختلف، رویکردهای ترکیبی چارچوبی همهکاره و مؤثر برای گنجاندن قوانین فیزیکی در PINN ارائه میدهند.
علاوه بر این، پیشرفتها در تکنیکهای بهینهسازی، از جمله نزول گرادیان تصادفی مبتنی بر فیزیک و نرخهای یادگیری تطبیقی، به استحکام و کارایی PINN کمک کردهاند. در این زمینه، یانگ و همکاران. [۱۱۶] شبکه عصبی مبتنی بر فیزیک بیزی (B-PINN) را معرفی کرد که شبکه های عصبی بیزی (BNNs) را یکپارچه می کند. [۱۱۷] و پین ها برای مقابله با مشکلات غیرخطی رو به جلو و معکوس مربوط به PDE ها و داده های نویزدار. B-PINN ها از اصول فیزیکی و اندازه گیری های پر سر و صدا در چارچوب بیزی برای ارائه پیش بینی ها و ارزیابی عدم قطعیت استفاده می کنند. برخلاف پینها، B-PINNها پیشبینیهای دقیقتری ارائه میکنند و برای مدیریت سطوح قابلتوجهی از نویز با پرداختن به بیش از حد مناسب مجهزتر هستند. مقایسه سیستماتیک بین همیلتونی مونت کارلو (HMC) [118] و استنتاج متغیر (VI) [119] نشان دهنده ترجیح HMC برای تخمین پسین است. علاوه بر این، جایگزینی BNN در گذشته با یک انبساط کوتاه شده Karhunen-Loève (KL) همراه با HMC یا یک مدل جریان عادی کننده عمیق (DNF) [120] پتانسیل را نشان می دهد اما فاقد مقیاس پذیری برای مسائل با ابعاد بالا است.