هوش مصنوعی | متن کامل رایگان | درک شبکه‌های عصبی مبتنی بر فیزیک: تکنیک‌ها، کاربردها، روندها و چالش‌ها

۳٫۲٫ ساخت مدل

شبکه های عصبی شامل معماری های مختلفی هستند که برای ادغام توابع هزینه از پیش تعریف شده در فرآیند یادگیری خود برای پیش بینی های دقیق طراحی شده اند. عملکرد آنها را می توان با ترکیب دانش قبلی برای انطباق با محدودیت های فیزیکی و قوانین حاکم در صورت لزوم افزایش داد. چندین معماری کلیدی پدیدار شده اند که هر کدام دارای نقاط قوت مجزا هستند [۴۸].

شبکه های عصبی مصنوعی (ANN): یک شبکه عصبی کاملا متصل [۴۹,۵۰]اغلب به عنوان یک ANN متراکم شناخته می شود، از لایه های به هم پیوسته تشکیل شده است، که در آن هر نورون در یک لایه به هر نورون در لایه بعدی مرتبط است. [۵۱,۵۲]. از نظر ریاضی، خروجی y یک لایه به عنوان تابع فعال سازی محاسبه می شود f به جمع وزنی اعمال می شود ز از ورودی ها x با وزن های مربوطه دبلیو و تعصبات ببه شرح زیر نشان داده شده است:

در زمینه لایه های متعدد، نشان داده شده با nفرآیند برای هر لایه تکرار می شود. به طور خاص، برای منلایه -ام، خروجی

y^{(من)}

به صورت زیر محاسبه می شود:

$ز^{(من)} = {دبلیو}^{(من)} y^{(من - ۱)} + ب^{(من)}$

(۳)

$y^{(من)} = f (ز^{(من)})$

(۴)

کجا $y^{(۰)}$ نشان دهنده بردار ورودی است xو ${دبلیو}^{(من)}$ و $ب^{(من)}$ ماتریس وزن و بردار بایاس را نشان دهید منلایه -ام به ترتیب. این محاسبه بازگشتی از طریق لایه‌ها، شبکه را قادر می‌سازد تا روابط پیچیده درون داده‌ها را ثبت کند. علاوه بر این، در طول آموزش، هدف شبکه به حداقل رساندن یک تابع هزینه از پیش تعریف شده است جیاغلب به عنوان خطای میانگین مربعات (MSE) برای مشکلات رگرسیون یا آنتروپی متقابل برای وظایف طبقه بندی نشان داده می شود. به عنوان مثال، در مورد MSE، تابع هزینه را می توان به صورت زیر نوشت:

$جی (دبلیو ، ب) = \frac{۱}{متر} \sum_{من = ۱}^{متر} {(y_{من} - {\hat{y}}_{من})}^{۲}$

(۵)

کجا متر تعداد نمونه های آموزشی است $y_{من}$ نشان دهنده خروجی واقعی است، و ${\hat{y}}_{من}$ خروجی پیش بینی شده را نشان می دهد.

ANN ها اغلب در پین ها به دلیل سادگی و اثربخشی در یادگیری روابط پیچیده استفاده می شوند. ببینید [۵۳,۵۴,۵۵,۵۶,۵۷,۵۸].

شبکه های عصبی کانولوشن (CNN): یک CNN شباهت هایی با ANN دارد اما شامل لایه های کانولوشن است [۵۹,۶۰,۶۱]. CNN ها به ویژه برای مشکلات مربوط به داده های ساختار یافته شبکه، مانند تصاویر یا داده های مکانی-زمانی مفید هستند. [۵۹,۶۲]. با این حال، آنها همچنین می توانند داده های عددی را با استفاده از یک CNN 1 بعدی به عنوان مدل پایه در خود جای دهند. ویژگی متمایز CNN ها در استفاده آنها از فیلترهای پیچشی است که به عنوان هسته نیز شناخته می شود. این فیلترها، مربعی شکل، از طریق فرآیند پیچیدگی بر روی پیکسل‌های ورودی اعمال می‌شوند و هر مربعی را که با اندازه فیلتر و گام تعیین‌شده توسط کاربر تعریف می‌شود، طی می‌کنند. CNN ها با استفاده مداوم از فیلتر یکسان در پیکسل های ورودی، مجموعه ای مختصر از فراپارامترها را حفظ می کنند. [۶۳].

یک لایه کانولوشن از چندین هسته تشکیل شده است که نقشه های ویژگی را ایجاد می کند. هر نورون در یک نقشه ویژگی به یک منطقه محلی (میدان گیرنده) در لایه قبلی متصل است. برای به دست آوردن یک نقشه ویژگی، ورودی با یک هسته در هم می پیچد و به دنبال آن یک تابع فعال سازی غیرخطی اعمال می شود. [۶۰].

از نظر ریاضی، مقدار ویژگی

ز_{من ، جی ، ک}^{ل}

در موقعیت

(من ، جی)

در ک-ام نقشه ویژگی از للایه -ام به صورت زیر محاسبه می شود:

$ز_{من ، جی ، ک}^{ل} = {(w_{ک}^{ل})}^{تی} x_{من ، جی}^{ل} + ب_{ک}^{ل}$

(۶)

کجا $w_{ک}^{ل}$ است ک-بردار وزن فیلتر، $ب_{ک}^{ل}$ تعصب آن است و $x_{من ، جی}^{ل}$ وصله ورودی در است $(من ، جی)$ .

پس از عملیات پیچیدگی، یک تابع فعال سازی

الف (\cdot)

برای معرفی غیر خطی بودن از نظر عنصر استفاده می شود:

${الف}_{من ، جی ، ک}^{ل} = الف (ز_{من ، جی ، ک}^{ل})$

(۷)

متعاقباً، لایه‌های ادغام اغلب برای نمونه‌برداری از نقشه‌های ویژگی به‌دست‌آمده از لایه‌های کانولوشن استفاده می‌شوند و ابعاد را کاهش می‌دهند و در عین حال اطلاعات مهم را حفظ می‌کنند. یک عملیات ادغام مشترک حداکثر ادغام است که در آن حداکثر مقدار در یک منطقه محلی حفظ می شود.

$y_{من ، جی ، ک}^{ل} = استخر ({الف}_{متر ، n ، ک}^{ل}) ، \forall (متر ، n) \in {آر}_{من ، جی}$

(۸)

کجا $(متر ، n)$ نشان دهنده محله محلی اطراف است $(من ، جی)$ و ${آر}_{من ، جی}$ منطقه ای از نقشه ورودی است که ادغام می شود. عملیات متداول ادغام شامل جمع آوری متوسط و حداکثر جمع آوری است.

در CNNها، فرآیند آموزش معمولاً شامل به حداقل رساندن یک تابع ضرر است

L_{مجموع}

که یک تابع ضرر استاندارد را ترکیب می کند

L_{std}

با یک اصطلاح تنظیم برای جلوگیری از برازش بیش از حد. این اصطلاح منظم‌سازی می‌تواند شامل کاهش وزن یا ترک تحصیل، در میان دیگران باشد. تابع زیان کل به صورت زیر تعریف می شود:

$L_{مجموع} = L_{std} + ل L_{reg}$

(۹)

کجا $ل$ یک هایپرپارامتر است که قدرت منظم سازی را کنترل می کند. این رویکرد یکپارچه به CNN ها اجازه می دهد تا به طور موثر ویژگی های پیچیده را از داده های ساختاری شبکه یاد بگیرند و در عین حال خطر بیش از حد برازش را در مرحله آموزش کاهش دهند. در پین‌ها، CNN‌ها را می‌توان زمانی به کار برد که مشکل شامل وابستگی‌های مکانی یا مکانی-زمانی باشد. [۴۱,۶۴,۶۵,۶۶,۶۷,۶۸,۶۹,۷۰].

شبکه های عصبی مکرر (RNN): RNN ها برای مدیریت داده های سری زمانی طراحی شده اند [۷۱,۷۲]. این قابلیت از چینش بازگشتی لایه‌های پنهان آن‌ها ناشی می‌شود، که آنها را قادر می‌سازد نه تنها خروجی‌هایی را در نقاط زمانی خاص تولید کنند، بلکه حالت‌های پنهان را به لایه‌های بعدی نیز منتقل کنند. بسته به نوع RNN، خروجی ها در هر مرحله زمانی نیز ممکن است به جلو رله شوند. از نظر مفهومی، RNN ها را می توان به عنوان چند نمونه از یک ANN استاندارد در نظر گرفت که هر نمونه اطلاعاتی را به جانشین خود ارسال می کند. [۷۳,۷۴,۷۵]. این انطباق به RNN ها قدرت می دهد تا داده ها را در گام های زمانی فردی و اتصالات بین آنها مدل کنند.

معماری‌های RNN می‌توانند برای مطابقت با انواع مشکلات متفاوت باشند. از نظر ساختاری، RNN ها ممکن است در پیکربندی های یک به یک، یک به چند، چند به یک یا چند به چند عمل کنند. [۷۶,۷۷]. کاربرد قابل توجه ساختار RNN چند به چند در کارهای ترجمه ماشینی یافت می شود. به عنوان مثال، در یک سناریوی ترجمه، جزء رمزگذار شبکه کلمات ورودی را به زبان انگلیسی دریافت می کند، در حالی که جزء رمزگشا کلمات ترجمه شده مربوطه را به زبان فرانسوی تولید می کند.

در سیستم‌های دینامیکی، معادلات حاکم اغلب رفتار سیستم را در طول زمان توصیف می‌کنند و اغلب به شکل معادلات دیفرانسیل می‌آیند. این معادلات منبع ارزشمندی از دانش قبلی هستند.

RNN ها برای مدیریت داده های متوالی با حفظ وضعیت داخلی یا حافظه ورودی های گذشته طراحی شده اند. از نظر ریاضی، یک شبکه عصبی بازگشتی را می توان به صورت زیر نشان داد:

$\begin{matrix} {ساعت}_{تی} & = f ({دبلیو}_{ساعت ساعت} {ساعت}_{تی - ۱} + {دبلیو}_{x ساعت} x_{تی} + ب_{ساعت}) \\ y_{تی} & = g ({دبلیو}_{ساعت y} {ساعت}_{تی} + ب_{y}) \end{matrix}$

(۱۰)

کجا ${ساعت}_{تی}$ حالت پنهان در زمان است تی; $x_{تی}$ ورودی در زمان است تی; ${دبلیو}_{ساعت ساعت}$ ، ${دبلیو}_{x ساعت}$ ، ${دبلیو}_{ساعت y}$ ماتریس های وزنی هستند. $ب_{ساعت}$ و $ب_{y}$ بردارهای سوگیری هستند. f تابع فعال سازی لایه پنهان است. و g تابع فعال سازی لایه خروجی است. برای یک دنباله معین از ورودی ها $X = (x_{۱} ، x_{۲} ، \dots ، x_{تی})$ دنباله خروجی $Y = (y_{۱} ، y_{۲} ، \dots ، y_{تی})$ با تکرار معادلات بالا در مراحل زمانی به دست می آید $تی = ۱ ، ۲ ، \dots ، تی$ .

آموزش RNN ها شامل بهینه سازی یک تابع هزینه است جی که اختلاف بین خروجی های پیش بینی شده و خروجی های واقعی را اندازه گیری می کند. یکی از گزینه های رایج برای تابع هزینه، میانگین مربعات خطا است:

$جی = \frac{۱}{تی} \sum_{تی = ۱}^{تی} {∥ y_{تی} - {\hat{y}}_{تی} ∥}^{۲}$

(۱۱)

کجا ${\hat{y}}_{تی}$ خروجی هدف در زمان است تی.

در پین‌ها، RNN‌ها را می‌توان برای حل مسائل وابسته به زمان که توسط ODEها کنترل می‌شوند، مانند پیش‌بینی رفتار سیستم‌های پویا در طول زمان به کار برد. ببینید [۷۸,۷۹,۸۰,۸۱,۸۲,۸۳].

شبکه های عصبی نمودار (GNN): مدل های یادگیری عمیق در درجه اول بر روی داده های ساختار یافته مانند تصاویر و متن تمرکز می کنند [۸۴,۸۵]. با این حال، داده‌هایی با ساختارهای نامنظم نیازمند روش‌های پردازش جایگزین هستند. برای مقابله با این چالش، GNN ها توسعه یافته اند و شبکه های کانولوشن گراف (GCN) به عنوان یک نوع برجسته ظاهر می شوند. [۸۴,۸۶,۸۷]. GCN ها از تبدیل فوریه گراف برای استخراج ویژگی ها از نمودارها استفاده می کنند، مشابه نحوه استفاده CNN ها از کانال ها. آنها از فیلترهای گراف پارامتر شده توسط مقادیر ویژه یک ماتریس لاپلاسی گراف برای استخراج ویژگی استفاده می کنند. لایه خروجی یک GCN بر اساس وظیفه در دست تغییر می کند. برای طبقه بندی گره ها، اغلب از یک لایه کاملا متصل استفاده می شود.

نمایش ریاضی GCN ها می تواند شامل مراحل زیر باشد: GCN ها ممکن است از یک تبدیل فوریه مانند برای استخراج ویژگی ها از داده های ساختار یافته گراف استفاده کنند. نمودار تبدیل فوریه یک سیگنال x روی یک نمودار جی را می توان به صورت زیر تعریف کرد: کجا U ماتریس بردارهای ویژه گراف ماتریس لاپلاسی است.

سپس، GCN ها از فیلترهای گراف پارامتر شده توسط مقادیر ویژه ماتریس لاپلاسی گراف استفاده می کنند. با توجه به سیگنال نمودار x و یک فیلتر

من

سیگنال فیلتر شده

\tilde{x}

به صورت زیر محاسبه می شود:

$\tilde{x} = من (L) x = U من (L) U^{تی} x$

(۱۳)

کجا $L$ ماتریس قطری مقادیر ویژه ماتریس لاپلاسی گراف است.

لایه خروجی یک GCN به وظیفه خاص بستگی دارد. به عنوان مثال، برای طبقه بندی گره ها، می توان از یک لایه کاملا متصل و به دنبال آن یک تابع softmax استفاده کرد. خروجی y به صورت زیر محاسبه می شود:

$y = سافت مکس (دبلیو \tilde{x} + ب)$

(۱۴)

کجا دبلیو ماتریس وزن است و ب بردار سوگیری است.

تابع هزینه برای آموزش یک GCN به وظیفه خاص بستگی دارد و می تواند بر این اساس فرموله شود. به عنوان مثال، برای طبقه بندی گره ها، یک انتخاب رایج تابع تلفات متقابل آنتروپی است:

$جی (من) = - \sum_{من = ۱}^{ن} \sum_{ک = ۱}^{ک} y_{من ، ک} ورود به سیستم ({\hat{y}}_{من ، ک})$

(۱۵)

کجا ن تعداد گره ها است ک تعداد کلاس ها است $y_{من ، ک}$ برچسب واقعی برای گره است من و کلاس کو ${\hat{y}}_{من ، ک}$ احتمال پیش بینی گره است من متعلق به کلاس ک.

در زمینه PINN، GNN ها را می توان برای مدل سازی سیستم های فیزیکی پیچیده که با اجزای به هم پیوسته مشخص می شوند، مانند شبیه سازی های دینامیک مولکولی یا تجزیه و تحلیل شبکه های اجتماعی استفاده کرد. ببینید [۸۵,۸۸,۸۹,۹۰,۹۱,۹۲].

مکانیسم های توجهمکانیسم‌های توجه به شبکه‌های عصبی (NN) اجازه می‌دهند تا بر بخش‌های خاصی از داده‌های ورودی تمرکز کنند و آنها را قادر می‌سازد تا اهمیت ویژگی‌های مختلف را به صورت پویا ارزیابی کنند. [۹۳,۹۴]. از نظر ریاضی، مکانیسم های توجه را می توان به صورت زیر نشان داد: یک شبکه عصبی را در نظر بگیرید f با پارامترها

من

و اجازه دهید x نشان دهنده داده های ورودی مکانیسم توجه

الف (x)

وزن‌هایی را به بخش‌های مختلف ورودی اختصاص می‌دهد و به شبکه اجازه می‌دهد تا بر مرتبط‌ترین اطلاعات تمرکز کند. این مکانیسم توجه را می توان به صورت زیر فرموله کرد:

$الف (x) = سافت مکس ({دبلیو}_{الف} \cdot رزومه ({دبلیو}_{x} \cdot x + ب_{x}) + ب_{الف})$

(۱۶)

کجا ${دبلیو}_{x}$ ، $ب_{x}$ ، ${دبلیو}_{الف}$ و $ب_{الف}$ پارامترهای قابل یادگیری هستند و softmax تابع softmax است. ورودی با توجه وزن $\tilde{x}$ سپس به عنوان حاصلضرب عنصری وزن توجه و ورودی محاسبه می شود:

$\tilde{x} = الف (x) ⊙ x$

(۱۷)

ورودی با توجه وزن

\tilde{x}

سپس از طریق شبکه عصبی منتقل می شود f برای به دست آوردن خروجی y:

در نهایت، تابع هزینه جی از PINN، که مکانیسم توجه را در بر می گیرد، می تواند به صورت زیر تعریف شود:

$جی (من) = \frac{۱}{ن} \sum_{من = ۱}^{ن} L (y_{من} ، {\hat{y}}_{من}) + ل آر (من)$

(۱۹)

کجا ن تعداد نقاط داده است $L$ تابع ضرر است، ${\hat{y}}_{من}$ برچسب حقیقت زمینی است و $ل$ پارامتر منظم سازی است. اصطلاح $آر (من)$ عبارت منظم سازی را نشان می دهد که مقادیر زیادی از پارامترهای شبکه را جریمه می کند $من$ برای جلوگیری از نصب بیش از حد

در پین‌ها، مکانیسم‌های توجه می‌توانند عملکرد را با توجه انتخابی به ویژگی‌های مکانی یا زمانی مرتبط، به ویژه در مشکلات فضاهای ورودی بزرگ یا با ابعاد بالا، افزایش دهند. ببینید [۹۵,۹۶,۹۷,۹۸,۹۹].

مدل های مولد: شبکه‌های عصبی عمیق را می‌توان به گروه‌های متمایز طبقه‌بندی کرد [۱۰۰] و مدل های مولد [۱۰۱] بر اساس عملکرد آنها مدل‌های متمایز متغیر هدف را با توجه به متغیرهای ورودی پیش‌بینی می‌کنند، در حالی که مدل‌های مولد احتمال شرطی متغیرهای قابل مشاهده را با توجه به هدف مدل می‌کنند. دو مدل مولد برجسته، رمزگذارهای خودکار متغیر (VAEs) هستند. [۱۰۲] و شبکه های متخاصم مولد (GAN) [103].

از نظر ریاضی، یک VAE را می توان به صورت زیر نشان داد: اجازه دهید X نشان دهنده داده های ورودی، ز نشان دهنده فضای نهفته و

من

پارامترهای VAE را نشان می دهد. رمزگذار

q_{من} (ز | X)

داده های ورودی را به توزیع فضای پنهان و رمزگشا نگاشت می کند

ص_{من} (X | ز)

داده های ورودی را از فضای پنهان بازسازی می کند. هدف، به حداکثر رساندن شواهد کران پایین (ELBO) ارائه شده توسط

$L (من) = E_{q_{من} (ز | X)} [log p_{θ} (X | Z)] - KL (q_{من} (ز | X) | | ص (ز))$

(۲۰)

کجا $ص (ز)$ توزیع قبلی بر روی فضای پنهان است و KL نشان دهنده واگرایی کولبک-لایبلر است.

یک GAN را می توان به صورت زیر نشان داد:

در یک GAN، یک شبکه ژنراتور جی نمونه هایی را از توزیع قبلی تولید می کند

ص_{داده ها} (X)

و یک شبکه تبعیض آمیز د بین نمونه های واقعی و تولید شده تمایز قائل می شود. هدف ژنراتور به حداقل رساندن تابع هزینه زیر است:

$\underset{جی}{حداقل} \underset{د}{حداکثر} V (د ، جی) = E_{X \sim ص_{داده ها} (X)} [log D (X)] + E_{ز \sim ص (ز)} [log (۱ - D (G (Z)))]$

(۲۱)

کجا $V (د ، جی)$ تابع مقدار بازی minimax را نشان می دهد.

در پین‌ها، رمزگذارهای خودکار یا VAE می‌توانند برای یادگیری نمایش‌های فشرده سیستم‌های فیزیکی، امکان مدل‌سازی و شبیه‌سازی کارآمد را برای کارهایی مانند حذف نویز داده‌ها، استخراج ویژگی یا تخمین عدم قطعیت به کار ببرند. ببینید [۴۰,۱۰۴,۱۰۵,۱۰۶,۱۰۷].

هر یک از معماری های قبلی مزایای منحصر به فردی را ارائه می دهد و برای انواع مختلف مشکلات فیزیکی مناسب است.

۳٫۳٫ گنجاندن قوانین فیزیکی به عنوان یک تابع هزینه اضافی

در وضعیت فعلی تحقیقات PINN، روش‌های مورد بحث در این بخش به طور گسترده برای جاسازی قوانین فیزیکی در شبکه‌های عصبی مورد استفاده قرار می‌گیرند. این تضمین می‌کند که مدل‌های حاصل نه تنها مبتنی بر داده‌ها هستند، بلکه از نظر فیزیکی سازگار و قابل تفسیر هستند.

گنجاندن قوانین فیزیکی در PINN ها برای اطمینان از اینکه مدل ها به طور دقیق اصول اساسی را منعکس می کنند، بسیار مهم است. تکنیک‌های مختلف این قوانین را در تابع از دست دادن ادغام می‌کنند و به شبکه‌های عصبی اجازه می‌دهند تا روابط پیچیده را ثبت کنند و در عین حال به اصول اساسی وفادار بمانند. شایع ترین شکل عملکردی از دست دادن، میانگین مربعات خطا (MSE) است. [۷]; از p-norm نیز استفاده می شود [۱۰۸].

در این زمینه، تابع هزینه ممکن است شامل وفاداری داده ها و اصطلاحات تنظیم فیزیک باشد که انحراف از قوانین فیزیکی شناخته شده را در طول تمرین جریمه می کند. [۱۰۹]. از طرف دیگر، ممکن است محدودیت‌های فیزیکی مبتنی بر قوانین حفاظت یا روابط سازنده را به عنوان محدودیت‌های برابری یا نابرابری بر خروجی شبکه عصبی تحمیل کند و اطمینان حاصل کند که پیش‌بینی‌ها از نظر فیزیکی قابل قبول هستند. [۱۱۰]. علاوه بر این، تابع هزینه می تواند به عنوان یک اصطلاح منظم در هدف آموزشی عمل کند تا ثبات فیزیکی را اعمال کند، انحراف از قوانین فیزیکی را جریمه کند و در عین حال نرمی و ثبات را در راه حل های آموخته شده ارتقا دهد. [۱۱۱,۱۱۲].

تحقیقات اخیر امکان ادغام اطلاعات ساختار یافته قبلی را در سیستم های یادگیری کارآمد از نظر داده و فیزیک نشان داده است. به عنوان مثال، رگرسیون فرآیند گاوسی برای ایجاد نمایش های تابعی مناسب برای عملگرهای خطی خاص استفاده شده است، که امکان استنتاج حل دقیق و ارزیابی عدم قطعیت را در فیزیک ریاضی فراهم می کند. [۷,۴۴,۱۱۳].

چارچوب پیشگام معرفی شده توسط [۷] قوانین فیزیکی را در فرآیندهای یادگیری شبکه عصبی گنجانده است، به ویژه برای حل PDE های غیرخطی در مسائل رو به جلو و معکوس. این ادغام معادلات دیفرانسیل در توابع از دست دادن یک شبکه عصبی، فرآیند آموزش را با استفاده از محدودیت‌های فیزیکی هدایت می‌کند.

با تکیه بر این پایه، رئیسی و همکاران. یک چارچوب یادگیری عمیق به نام مکانیک سیالات پنهان (HFM) را معرفی کرد، که مفهوم PINN را به سیستم های پیچیده ای که توسط PDE های جفت شده و غیرخطی اداره می شوند گسترش داد. [۱۱۴]. این مشارکت‌های اولیه کارآمدی PINN را در رسیدگی به مشکلات رو به جلو و معکوس نشان داد و راه را برای پذیرش گسترده‌تر و نوآوری بیشتر هموار کرد.

تحقیقات بعدی قابلیت‌های PINN را پیشرفته کرده است، از جمله توسعه توابع فعال‌سازی تطبیقی و رویکردهای چند وفاداری برای رسیدگی به سفتی PDE و بهبود نرخ‌های همگرایی. [۱۱۵]. روش‌های ترکیب معادلات فیزیکی در توابع از دست دادن مدل یادگیری عمیق، مانند مواردی که توسط [۴۱]امکان آموزش بدون داده‌های برچسب‌گذاری شده، ارائه پیش‌بینی‌های دقیق با رعایت محدودیت‌های مشکل و تعیین کمیت عدم قطعیت پیش‌بینی در سناریوهای مختلف.

رویکردهای ترکیبی ترکیب عناصر چند تکنیک [۶,۳۴]مانند توابع از دست دادن مبتنی بر فیزیک و روش‌های مبتنی بر محدودیت، برای اجرای همزمان محدودیت‌های فیزیکی و اهداف مبتنی بر داده. با استفاده از نقاط قوت مکمل تکنیک‌های مختلف، رویکردهای ترکیبی چارچوبی همه‌کاره و مؤثر برای گنجاندن قوانین فیزیکی در PINN ارائه می‌دهند.

علاوه بر این، پیشرفت‌ها در تکنیک‌های بهینه‌سازی، از جمله نزول گرادیان تصادفی مبتنی بر فیزیک و نرخ‌های یادگیری تطبیقی، به استحکام و کارایی PINN کمک کرده‌اند. در این زمینه، یانگ و همکاران. [۱۱۶] شبکه عصبی مبتنی بر فیزیک بیزی (B-PINN) را معرفی کرد که شبکه های عصبی بیزی (BNNs) را یکپارچه می کند. [۱۱۷] و پین ها برای مقابله با مشکلات غیرخطی رو به جلو و معکوس مربوط به PDE ها و داده های نویزدار. B-PINN ها از اصول فیزیکی و اندازه گیری های پر سر و صدا در چارچوب بیزی برای ارائه پیش بینی ها و ارزیابی عدم قطعیت استفاده می کنند. برخلاف پین‌ها، B-PINN‌ها پیش‌بینی‌های دقیق‌تری ارائه می‌کنند و برای مدیریت سطوح قابل‌توجهی از نویز با پرداختن به بیش از حد مناسب مجهزتر هستند. مقایسه سیستماتیک بین همیلتونی مونت کارلو (HMC) [118] و استنتاج متغیر (VI) [119] نشان دهنده ترجیح HMC برای تخمین پسین است. علاوه بر این، جایگزینی BNN در گذشته با یک انبساط کوتاه شده Karhunen-Loève (KL) همراه با HMC یا یک مدل جریان عادی کننده عمیق (DNF) [120] پتانسیل را نشان می دهد اما فاقد مقیاس پذیری برای مسائل با ابعاد بالا است.

منبع: https://www.mdpi.com/2673-2688/5/3/74

۳٫۲٫ ساخت مدل

۳٫۳٫ گنجاندن قوانین فیزیکی به عنوان یک تابع هزینه اضافی

دیدگاهتان را بنویسید لغو پاسخ