هوش مصنوعی | متن کامل رایگان | سنجش از راه دور تعیین تنش آب محصول با استفاده از معماری CNN-ViT

۲٫۲٫ داده ها

۲٫۲٫۱٫ داده های حقیقت زمینی

مجموعه داده استفاده شده از ماموریت ماهواره ای «سیستم فعال رطوبت خاک» (SMAP) مشتق شده است که هدف آن ارزیابی سطوح رطوبت خاک در هر مکان روی زمین است. [۲۴]. این به عنوان یک مجموعه داده اعتبارسنجی برای اندازه گیری های به دست آمده از ماهواره عمل می کند.
مشاهدات با استفاده از سیستم باند L غیرفعال (PALS)، یک ابزار سنجش از دور طراحی شده برای اندازه گیری رطوبت خاک و محتوای آب گیاهی انجام شد. این ابزار بر روی یک هواپیمای DC-3 با زاویه برخورد ۴۰ درجه نصب شده بود. سپس هواپیما منطقه آزمایشی را طی کرد، تقریباً ۲۷ کیلومتر × ۴۸ کیلومتر در منطقه مانیتوبا، در ارتفاع ۳۰۰۰ متری، اندازه گیری ها را در فواصل ۵۰۰ متر در امتداد یک شبکه منظم جمع آوری کرد. [۲۴].

دستگاه PALS در دو حالت غیرفعال و فعال عمل می کند. در حالت غیرفعال، دمای روشنایی تشعشعات مایکروویو ساطع شده از سطح زمین را که تحت تأثیر رطوبت خاک و محتوای آب گیاهی است، اندازه گیری می کند. در حالت فعال، دستگاه یک پالس مایکروویو را به سمت سطح ارسال می کند و مدت زمان بازگشت سیگنال منعکس شده را اندازه گیری می کند. از تابش باند L استفاده می کند که به سطح خاک و پوشش گیاهی نفوذ می کند تا به منطقه ریشه که بیشتر آب در آن ذخیره می شود برسد. این اندازه گیری برای محاسبه رطوبت خاک و محتوای آب پوشش گیاهی استفاده شد.

آ

ترکیب مجموعه داده

اندازه‌گیری‌ها در یک دوره دوازده روزه از ۸ ژوئن تا ۲۲ ژوئیه ۲۰۱۶ انجام شد. ما تاریخی را انتخاب کردیم که برای آن یک تصویر ماهواره‌ای که همان منطقه را پوشش می‌دهد در دسترس است. داده‌های هر تاریخ در قالب متن (txt.) ارائه می‌شود و شامل مختصات هر نقطه اندازه‌گیری، نوع برش، تاریخ دریافت و متغیرهای اندازه‌گیری شده است.

مجموعه داده‌ها انواع مختلفی از محصولات را در بر می‌گیرد که دانه سویا برجسته‌ترین آن‌ها است که ۳۸ درصد از مجموعه داده را تشکیل می‌دهد. محصولات غلات با ۳۳ درصد از این میزان به دنبال آن هستند. Colza، اگرچه سهم کمتری با ۱۱٫۹٪ دارد، یک جزء مهم باقی مانده است. ذرت و جو دوسر به ترتیب ۹٫۲% و ۲٫۲% را تشکیل می دهند، در حالی که سایر محصولات متفرقه در مجموع ۵٫۷% به مجموعه داده ها کمک می کنند.

ب

متغیرهای اندازه گیری شده

مجموعه داده شامل چندین متغیر مانند دمای روشنایی قطبی عمودی و افقی، دمای موثر خاک و دمای موثر پوشش گیاهی است. با این حال، تمرکز اصلی ما بر روی محتوای حجمی رطوبت خاک و محتوای آب پوشش گیاهی بود، زیرا این اندازه‌گیری‌ها تنوع بیشتری را در مجموعه داده ما نشان می‌دهند.

رطوبت حجمی خاک (VSM) نشان دهنده مقدار آب موجود در خاک در واحد حجم خاک است:

  • به صورت کسری بیان می شود (m3/m3)

  • برگرفته از اندازه گیری دمای روشنایی PALS با استفاده از یک الگوریتم [۲۴];
  • دقت اندازه‌گیری رطوبت خاک با استفاده از داده‌های جمع‌آوری‌شده و آزمایشگاهی تعیین‌شده ارزیابی شد. عدم قطعیت های اندازه گیری به عنوان ویژگی در فایل داده ارائه شده است.

محتوای آب گیاهی (VWC) به مقدار آب موجود در گیاهان اشاره دارد:

  • بیان شده بر حسب کیلوگرم آب در متر مربع (کیلوگرم بر متر۲)

  • تخمین زده شده از مشاهدات ماهواره ای نوری کالیبره شده با اندازه گیری های میدانی. برای هر طبقه محصول، از روش حداقل مربعات برای ایجاد رابطه (معادله (۱)) بین شاخص گیاهی تفاوت نرمال شده (NDVI) و VWC اندازه گیری شده استفاده شد.

VWC = ۱٫۹۱۳۴ ایکس NDVI ۲ ۰٫۳۱۲۵ ایکس NDVI + ساقه _ عامل ایکس NDVI حداکثر NDVI دقیقه ۱ NDVI دقیقه .

جایی که:

NDVIحداکثر: این پارامتر به حداکثر NDVI سالانه در یک مکان معین اشاره دارد. مانند NDVI، ارتباط نزدیکی با انواع پوشش زمین دارد.

NDVIدقیقه: این پارامتر به حداقل NDVI سالانه در یک مکان معین اشاره دارد.

Stem_factor: تخمینی است از حداکثر مقدار آب موجود در ساقه ها.

در حرکت رو به جلو، VWC استفاده می‌شود زیرا مشخص می‌شود که متغیرهایی که مستقیماً به پاسخ‌های محصول مربوط می‌شوند، بیش از متغیرهای مربوط به خاک، نماینده وضعیت آبی هستند. [۲].

۲٫۲٫۲٫ داده های سنجش از راه دور

پاسخ نوار حرارتی پوشش گیاهی به عنوان یک شاخص قوی برای سطوح تنش آبی آن عمل می کند [۲۵]. این به دلیل همبستگی معکوس بین دمای گیاه و تنش آب است، زیرا گیاهان تحت تنش معمولاً دمای بالای تاج پوشش را به دلیل بسته شدن روزنه با هدف به حداقل رساندن اتلاف آب نشان می دهند. [۲۶]. از این رو، سنسوری انتخاب شد که اطلاعات حرارتی را در حالی که وضوح فضایی مناسبی را حفظ می کند، ارائه می دهد.

لندست ۸ مجهز به حسگرهای حیاتی است: تصویرگر زمین عملیاتی (OLI) و سنسور حرارتی مادون قرمز (TIRS). این حسگرها امکان دستیابی به تصاویر چند طیفی را که باندهای طیفی مختلف را در بر می گیرد، می کنند. هر یک از این باندها مربوط به بخش خاصی از طیف الکترومغناطیسی است که اندازه گیری خواص نوری متمایز مربوط به بازتاب و گسیل سطح زمین را تسهیل می کند. قابل‌توجه، این باندها وضوح‌های فضایی متفاوتی از ۳۰ متر (برای نوارهایی که مناطق مرئی، نزدیک به مادون قرمز و مادون قرمز میانی را پوشش می‌دهند) تا ۱۰۰ متر (برای نوارهای حرارتی) از خود نشان می‌دهند.

یک تصویر Landsat 8 بدون ابر، که در ۱۸ ژوئیه ۲۰۱۶ به دست آمد، برای تجزیه و تحلیل انتخاب شد که نشان دهنده یک محصول علمی سطح ۲ (L2SP) از نظر پردازش داده است. تصمیم برای استفاده از این تصویر ماهواره‌ای خاص برای منطقه مورد مطالعه اساساً بر اساس دو معیار محوری بود: عدم وجود پوشش ابر و در دسترس بودن داده‌های مربوط به حقیقت زمین.

باندهای مورد استفاده در این مطالعه در جدول ۱ آورده شده است.

۲٫۳٫ روش شناسی

تحقیق ما به ایجاد یک روش دقیق و سرتاسری برای تعیین دقیق تنش آبی محصول اختصاص دارد. این روش شناسی کل طیف را از انتخاب داده های اولیه تا مرحله تجزیه و تحلیل نهایی را در بر می گیرد (شکل ۲). روش پیشنهادی شامل چند مرحله کلیدی است: (۱) پیش پردازش داده های اولیه، شامل آماده سازی و حاشیه نویسی گسترده داده ها، مدیریت باندها و شاخص های طیفی، و تعیین دقیق آستانه های کلاس. (۲) استقرار و ارزیابی یک مدل ترانسفورماتور بینایی مستقل. (۳) انطباق و کاربرد بعدی معماری CNN-ViT برای تعیین وضعیت آب محصولات تصفیه شده. پس از این مراحل، ما یک تجزیه و تحلیل مقایسه ای برای ارزیابی اثربخشی ترانسفورماتور بینایی و معماری CNN-ViT در شناسایی تنش آبی محصول انجام دادیم که با یک بحث گسترده همراه بود.

۲٫۳٫۱٫ پردازش داده ها

آ

پردازش داده های حقیقت زمینی

تعداد کل نقاط اندازه‌گیری شده در هر تاریخ کسب ۵۱۸۴ بود. فایل داده حاوی ویژگی «پوشش زمین» (LC) است. با استفاده از نرم افزار ArcGIS 10.8، نقاط را بر اساس مختصات آنها با استفاده از سیستم مختصات NAD83/UTM Zone 14N نمایش دادیم. برای بهینه‌سازی برچسب‌گذاری پیکسل در حالی که ماهیت نقطه‌ای داده‌هایمان را در نظر می‌گیریم، رویکردی را اجرا کردیم که شامل ایجاد بافرهای مربعی با اضلاع ۲۴۰ متر در اطراف هر نقطه است. هدف این استراتژی افزایش تعداد پیکسل‌های برچسب‌گذاری‌شده دقیق بدون تغییر خصوصیات درون بسته بود. پس از آن، ما به طور انتخابی چند ضلعی را که پوشش زمین با پوشش گیاهی مطابقت نداشت، حذف کردیم. در نتیجه، تعداد نهایی چند ضلعی های برچسب گذاری شده مربوط به مناطق پوشش گیاهی ۴۳۵۷ بود.

ب

پردازش داده های سنجش از دور

داده‌های سنجش از راه دور به‌دست‌آمده تحت چندین مرحله پردازش حیاتی قرار گرفتند تا از کیفیت و مناسب بودن آن برای تجزیه و تحلیل اطمینان حاصل شود. تکنیک‌های پوشاندن ابر و سایه برای شناسایی و حذف پیکسل‌های متاثر از ابرها، مه یا سایه‌ها استفاده شد. پیکسل های ناخواسته برای حفظ یکپارچگی داده ها به عنوان “NoData” علامت گذاری شدند. علاوه بر این، نرمال سازی داده ها برای استانداردسازی ابعاد داده های ورودی، تسهیل آموزش مدل و افزایش پایداری و تعمیم آن انجام شد.

ج

محاسبه NDVI و LST

عملکرد مدل‌های یادگیری عمیق به توانایی آنها در پردازش حجم زیادی از داده‌ها برای استخراج اطلاعات مرتبط و مدل‌سازی روابط فضایی متکی است. با در نظر گرفتن این موضوع، ما انتخاب کردیم که نه تنها نوارهای تصویری، بلکه شاخص گیاهی تفاوت نرمال شده (NDVI) و دمای سطح زمین (LST) را نیز در مدل ورودی لحاظ کنیم. افزودن NDVI امکان گرفتن اطلاعات در مورد تراکم پوشش گیاهی و شرایط آن را فراهم می کند، که برای تجزیه و تحلیل محصول و تشخیص تنش آب بسیار مهم است. از سوی دیگر، LST بینشی در مورد دمای سطح زمین ارائه می دهد و به درک تغییرات حرارتی مربوط به رطوبت خاک و تنش آب کمک می کند. با ترکیب این متغیرهای اضافی، داده‌های ورودی مدل را با اطلاعات مربوط به پوشش گیاهی و دما افزایش دادیم، که به طور بالقوه ظرفیت مدل را برای توصیف و پیش‌بینی تنش آبی با دقت بیشتری بهبود می‌بخشد.

پوشش گیاهی سالم یک منحنی بازتاب طیفی بسیار مشخص با یک پاسخ قوی در باند مادون قرمز نزدیک و یک پاسخ نسبتا ضعیف تر در باند قرمز را نشان می دهد. شاخص گیاهی تفاوت عادی شده (NDVI) این تفاوت را به صورت یک مقدار عددی در محدوده ۱- تا ۱ کمیت می کند.

NDVI با استفاده از باند ۴ (قرمز) Landsat 8 و باند ۵ (نزدیک فروسرخ، NIR) به دنبال معادله (۲) محاسبه می‌شود.

NDVI = NIR قرمز NIR + قرمز

دمای سطح زمین را می توان با استفاده از باند حرارتی Landsat 8، طبق فرمول توصیه شده توسط سازمان زمین شناسی ایالات متحده محاسبه کرد. [۲۷]. این محاسبه شامل چندین مرحله است که در شکل ۳ مشخص شده است. به طور خاص، ورودی برای محاسبه شامل سه باند از Landsat 8 است که عبارتند از: باند ۴ (طول موج قرمز؛ ۰٫۶۴-۰٫۶۷ میکرومتر)، باند ۵ (طول موج مادون قرمز نزدیک (NIR)؛ ۰٫۸۵- ۰٫۸۸ میکرومتر)، و باند ۱۰ (طول موج حسگر مادون قرمز حرارتی (TIRS)؛ ۱۰٫۶۰-۱۱٫۱۹ میکرومتر).
د

کلاس های تنش آبی محصول

مدل‌های یادگیری عمیق برای پیش‌بینی وابستگی یک پیکسل به یک کلاس خاص استفاده می‌شوند. برای اعمال این رویکرد برای متغیر VWC (محتوای آب گیاهی)، لازم است محدوده ارزش خود را به کلاس‌های تنش آبی معنی‌دار طبقه‌بندی کنیم. با توجه به یافته‌های بررسی ادبیات ما، استفاده از سه کلاس متمایز (تنش آبی کم، تنش آبی متوسط ​​و تنش آبی بالا) یک رویکرد مرتبط است، زیرا بین عملکرد مدل و تعداد کلاس‌های به کار رفته همبستگی منفی مشاهده شده است. [۷,۱۲]. شایان ذکر است که انتخاب آستانه طبقه بندی به عوامل مختلفی مانند نوع محصول خاص، مرحله رشد، شرایط محیطی و شیوه های آبیاری بستگی دارد. [۲,۲۸]. با توجه به اینکه آستانه های شاخص تنش آب محصول (CWSI) شناخته شده و قابل تعمیم است، ما سعی کردیم یک همبستگی بین CWSI و متغیر VWC خود ایجاد کنیم تا آستانه های مناسب برای طبقه بندی خود را تعیین کنیم. [۲۹].
ما رویکردی را که صرفاً بر اساس باند حرارتی ماهواره Landsat 8 است، استفاده کردیم، همانطور که توسط Ref پیشنهاد و تایید شد. [۳۰].
توجه به این نکته ضروری است که مقدار CWSI نزدیک به ۱ نشان دهنده وجود زیاد تنش آبی است، در حالی که مقدار نزدیک به ۰ نشان دهنده عدم وجود تنش آبی است.

CWSI = تی اس تی سرد تی داغ تی سرد

جایی که

تیاس: دمای سطح زمین، LST.

تیسرد: دمای “سردترین” پیکسل گیاهی.

تیداغ: دمای “گرمترین” پیکسل گیاهی.

انتخاب “سردترین” پیکسل گیاهی با اعمال یک آستانه NDVI بیشتر از ۰٫۵ به دست آمد. از بین پیکسل‌هایی که این معیار را دارند، ۱۰% را با سردترین دما انتخاب کردیم و سپس پیکسلی را با کمترین مقدار از بین آنها انتخاب کردیم. به طور مشابه، انتخاب “گرم ترین” پیکسل گیاهی با اعمال آستانه NDVI بیشتر از ۰٫۲ انجام شد.

با داشتن داده هایی که هر دو مقدار CWSI و VWC برای آنها شناخته شده است، می توانیم همبستگی بین این دو متغیر را برقرار کنیم و آستانه های شناخته شده CWSI را به آستانه هایی برای متغیر VWC خود ترجمه کنیم.

در نرم افزار ArcGIS، مقادیر CWSI را برای نقاطی با مقادیر شناخته شده VWC استخراج کردیم. متعاقباً، ما یک پیوند داده‌ای بین این مجموعه داده‌ها انجام دادیم و یک تحلیل همبستگی انجام دادیم. نتایج نشان داد که همبستگی معکوس معنی داری با ضریب همبستگی ۶۳/۰- = r وجود دارد. اهمیت این همبستگی با تفاوت معنی داری ضریب همبستگی با صفر با سطح معنی داری ۰۵/۰ مشخص می شود. این نشان دهنده ارتباط قابل توجه بین CWSI و VWC است، که در آن کاهش VWC مربوط به ارتفاع در CWSI است که نشان دهنده وجود تنش آبی است.

مطابق با [۳۰,۳۱]، آستانه های تعمیم یافته CWSI در جدول زیر ارائه شده است. بر اساس این مقادیر، آستانه های VWC متناظر به شرح زیر تعیین شد (جدول ۲).

برای CWSI، مقادیر بیش از ۰٫۸ معمولاً با پوشش گیاهی مطابقت ندارد.

شکل ۴ توزیع مقادیر VWC را به همراه آستانه های اتخاذ شده برای ایجاد سه کلاس نشان می دهد.
ه

برچسب گذاری مجموعه داده

فرآیند برچسب‌گذاری دنباله‌ای ساختار یافته از مراحل را دنبال کرد. در ابتدا، چند ضلعی‌هایی که موقعیت‌های اندازه‌گیری VWC را نشان می‌دهند، همانطور که قبلاً بحث شد، در کلاس‌های از پیش تعریف‌شده طبقه‌بندی شدند. متعاقباً، این چند ضلعی‌های طبقه‌بندی‌شده به یک نمایش شطرنجی تبدیل شدند. در این نمایش شطرنجی، به هر پیکسل، مطابق با کلاس مربوطه، مقدار ۱، ۲ یا ۳ اختصاص داده شد.

نتیجه فرآیند برچسب‌گذاری در قالب TIFF، مطابق با ابعاد تصویر ماهواره‌ای (۱۵۴۲ × ۹۱۷ پیکسل) صادر شد. در این قالب، هر ناحیه بدون حاشیه نویسی به عنوان پس زمینه (کلاس ۰) تعیین می شود.

مجموعه داده‌ها به مجموعه‌های آموزشی (۶۰٪)، اعتبارسنجی (۱۰٪) و تست (۳۰٪) تقسیم شد و از توزیع متوازن از طریق به هم زدن تصادفی اطمینان حاصل کرد. ارزیابی نهایی بر روی مجموعه آزمون مستقل انجام شد که صرفاً برای ارزیابی عملکرد مدل بر روی داده‌های دیده نشده رزرو شده بود.

۲٫۳٫۲٫ ترانسفورماتورهای بصری

ترانسفورماتورهای بصری از شبکه‌های عصبی کانولوشنال سنتی جدا می‌شوند و تصاویر را به‌عنوان دنباله‌هایی از تکه‌های با اندازه ثابت و بدون همپوشانی در نظر می‌گیرند. این وصله‌ها تحت یک تبدیل دو مرحله‌ای قرار می‌گیرند: اول، آنها به صورت خطی در بردارهایی با ابعاد بالا جاسازی می‌شوند و دوم، یک جاسازی موقعیتی برای رمزگذاری مکان مکانی هر پچ اضافه می‌شود. تعبیه‌های حاصل از طریق پشته‌ای از لایه‌های توجه به خود پردازش می‌شوند، که یادآور مدل ترانسفورماتور است که در ابتدا برای وظایف پردازش زبان طبیعی توسعه داده شد.

مجموعه‌ای از لایه‌های توجه به خود در ترانسفورماتورهای بصری در توانمندسازی مدل برای گرفتن روابط متنی بین وصله‌ها بسیار مفید هستند. این هم در مقیاس محلی، جایی که وصله‌ها به تکه‌های همسایه‌شان توجه می‌کنند، و هم در مقیاس جهانی، که در آن وابستگی‌های دوربرد در کل تصویر شناسایی می‌شوند، رخ می‌دهد. این توانایی برای تخصیص وزن توجه به سایر وصله‌ها بر اساس محتوای آنها به ترانسفورماتورهای بصری اجازه می‌دهد تا روابط پیچیده و اطلاعات متنی درون تصاویر را درک کنند و در نهایت به عملکرد فوق‌العاده آن در معیارهای مختلف بینایی رایانه کمک می‌کند.

۲٫۳٫۳٫ CNN-ViT

مدل پیشنهادی یک معماری CNN-ViT با منابع کارآمد است که مکانیسم توجه به پنجره محلی (LWA)را برای استفاده موثر از امضاهای طیفی محصولات ترکیب می‌کند. برای همسویی بهتر با داده های ورودی مطالعه و مورد استفاده، تغییرات ساختاری و فراپارامتری ایجاد کردیم. شبکه پیشنهادی شامل سه جزء حیاتی است: یک بلوک استخراج ویژگی، یک بلوک پیچیده چند مقیاسی عمیق، و یک ترانسفورماتور بصری با توجه به پنجره محلی. [۲۱]. معماری پیشنهادی در شکل ۵ نشان داده شده است، جایی که نماد ⨁ نشان دهنده جمع عنصر است. Xpatch ورودی مدل را نشان می دهد و O مربوط به پیش بینی است. جزئیات مدل در جدول ۳ نشان داده شده است.

مرحله اولیه شامل ایجاد وصله های آموزشی با ابعاد ۸ × ۸ × ۸ است. هر پچ با عبور از هر باند ورودی و تعریف منطقه ای در مرکز هر پیکسل تولید می شود. برای اطمینان از اینکه وصله‌های نزدیک به حاشیه‌های تصویر دارای زمینه کافی هستند، بالشتکی در اطراف تصاویر اضافه کردیم.

همزمان، همانطور که وصله‌های ورودی ایجاد می‌کنیم، وصله‌های مربوطه را نیز برای برچسب‌ها ایجاد می‌کنیم. این اطمینان حاصل کرد که هر پچ آموزشی با برچسب مناسب مرتبط است. در چارچوب این فرآیند، ما به‌طور خاص وصله‌های مربوط به پس‌زمینه را حذف کردیم و صرفاً بر طبقات مورد علاقه تمرکز کردیم.

بلوک استخراج ویژگی: بلوک استخراج ویژگی از هر دو کانولوشن سه بعدی و دو بعدی به همراه شاخه های موازی برای استخراج هر دو ویژگی فضایی و طیفی استفاده می کند. این معماری پیچیده، ضبط اطلاعات غنی را با حفظ کارایی محاسباتی امکان پذیر می کند.

در ابتدا، داده های ورودی با اندازه ۸ × ۸ × ۸ به ۸ × ۸ × ۸ × ۱ تغییر شکل داده می شوند تا با الزامات لایه کانولوشن مطابقت داشته باشند. پس از آن، دو لایه کانولوشن سه بعدی اعمال می شود که به ترتیب از ۱۶ و ۳۲ فیلتر با اندازه هسته ۱ × ۱ × ۱ و ۱ × ۱ × ۵ استفاده می کنند. این پیچیدگی ها امکان گرفتن اطلاعات فضایی و طیفی را فراهم می کند.

سپس نتایج به دو شاخه موازی هدایت می شوند. اف۱ و اف۲٫ شعبه اف۱ شامل یک رمزگذار و رمزگشا کانولوشنال است. رمزگذار از دو لایه کانولوشن ۲ بعدی قابل جداسازی با ۳۲ فیلتر و اندازه هسته ۳×۳ تشکیل شده است. رمزگشا از دو لایه کانولوشن انتقال یافته ۲ بعدی و به دنبال آن یک لایه نمونه برداری ۲ بعدی تشکیل شده است که استخراج و بازسازی ویژگی های فضایی را تسهیل می کند. شاخه اف۲، از سوی دیگر، از یک کانولوشن دو بعدی با ۳۲ فیلتر، گام ۲، و اندازه هسته ۳×۳ استفاده می کند. اف۱٫

در نهایت نتایج حاصل از هر دو شاخه برای به دست آوردن یک نقشه مشخصه نهایی با ابعاد ۸×۸×۳۲ جمع‌بندی می‌شود.

این معماری به طور موثر اطلاعات فضایی و طیفی را با حفظ پیچیدگی محاسباتی معقول ترکیب می کند [۲۱]. شکل ۶ و جدول ۴ معماری بلوک استخراج کننده ویژگی را نشان می دهد.

بلوک پیچشی عمقی: برای کاهش بیش از حد برازش احتمالی به دلیل تعداد زیاد پارامترها، از سه پیچ عمقی موازی استفاده می شود. هر پیچیدگی عمقی از یک فیلتر با اندازه ۶۴ و اندازه هسته های مختلف (به ترتیب ۱ × ۱، ۳ × ۳ و ۵ × ۵) استفاده می کند. ویژگی های شبکه استخراج ویژگی، با اندازه ۸×۸×۳۲، به عنوان داده های ورودی برای بلوک کانولوشن عمق عمل می کند.

پنجره توجه محلی: با ادغام LWA در معماری تقسیم‌بندی معنایی، مدل می‌تواند بر ایجاد مناطق محلی محلی در اطراف هر عنصر پرس و جو تمرکز کند. این به مدل اجازه می دهد تا جزئیات محلی و روابط بین پیکسل های همسایه را ثبت کند. LWA توانایی مدل را برای تمرکز بر اطلاعات مرتبط در منطقه محلی در حالی که جزئیات نامربوط یا منحرف کننده را نادیده می گیرد، افزایش می دهد.

۲٫۳٫۴٫ جزئیات پیاده سازی

پیاده‌سازی مدل‌های یادگیری عمیق می‌تواند از نظر محاسباتی فشرده باشد و اغلب به منابع GPU نیاز دارد. ما از ابزارهای منبع باز، از جمله Google Collaboratory برای محاسبات مبتنی بر ابر مانند دسترسی رایگان به منابع GPU مانند Tesla T4 و ۱۳ گیگابایت رم، TensorFlow برای قابلیت‌های گسترده‌اش، و Keras به‌عنوان یک API شبکه عصبی کاربرپسند، ساده‌سازی توسعه مدل و گسترش.

آ

بهینه سازی هایپرپارامتر

توابع آموزشی: مدل های مطالعه ما بر اساس معماری های از پیش آموزش دیده نبوده و از روش های متمایز برای مقداردهی اولیه وزن استفاده می کنند. هر دو مدل ترانسفورماتور بصری و CNN-ViT با استفاده از روش “یونیفرم Glorot” مقداردهی اولیه شدند.

برای مسائل چند طبقه ای مانند مطالعه ما، “آنتروپی متقاطع طبقه ای پراکنده”، یک تغییر از “آنتروپی متقاطع طبقه ای”، اغلب به عنوان تابع ضرر استفاده می شود. زمانی مناسب است که برچسب ها به صورت اعداد صحیح نمایش داده شوند (به جای بردارهای تک داغ، مانند آنتروپی متقاطع طبقه ای استاندارد). این تابع از دست دادن به ویژه هنگام پیش‌بینی کلاس‌های انحصاری متقابل مناسب است، جایی که یک مثال داده می‌تواند تنها به یک کلاس تعلق داشته باشد. ما از این تابع از دست دادن به همراه تابع فعال‌سازی «softmax» برای طبقه‌بندی در هر دو معماری استفاده کردیم. برای لایه‌های کانولوشن، ما از فعال‌سازی ReLU (واحد خطی اصلاح‌شده) استفاده کردیم، در حالی که GELU (واحد خطی خطای گاوسی)، که معمولاً در معماری‌های مبتنی بر ترانسفورماتور استفاده می‌شود، برای اجزای CNN-ViT استفاده شد.

الگوریتم بهینه‌سازی مورد استفاده در این مطالعه AdamW بود، که نوعی از الگوریتم Adam است که کاهش وزن را در بر می‌گیرد. الگوریتم آدام به دلیل توانایی خود در تطبیق نرخ یادگیری به صورت تطبیقی ​​برای هر پارامتر مدل شناخته شده است، که آن را برای همگرایی سریع و مدیریت شیب های مقیاس های مختلف کارآمد می کند. این ارتقاء جریمه ای برای وزن های مدل در طول به روز رسانی گرادیان اعمال می کند. این جریمه وزنی، بزرگی آنها را کاهش می‌دهد، که می‌تواند با ترجیح دادن وزنه‌های کوچک‌تر، به جلوگیری از اضافه‌شدن کمک کند.

فراپارامترها: برای تنظیم فراپارامترهای مدل‌های اتخاذ شده، از یک استراتژی تکراری برای کاهش ماهیت زمان و منابع تکنیک‌هایی مانند جستجوی تصادفی و شبکه‌ای استفاده کردیم. این روش تکراری در ابتدا طیف وسیعی از مقادیر ممکن را برای هر هایپرپارامتر تعریف می‌کند و به دنبال آن چرخه‌های آموزش و ارزیابی متعدد با ترکیب‌های فراپارامتر متفاوت انجام می‌شود. در هر تکرار، عملکرد مدل بر روی یک مجموعه اعتبارسنجی ارزیابی می‌شود و مقادیر فراپارامتر بر این اساس تنظیم می‌شوند. این رویکرد تکراری ما را قادر می‌سازد تا بینش‌هایی را از عملکرد مدل در هر مرحله به‌دست آوریم، و به تدریج فراپارامترها را برای نتایج بهبود یافته اصلاح کنیم.

میزان یادگیری: نرخ بهینه ساز پیش فرض Adam 0.001 به صورت تدریجی تنظیم شد. ترانسفورماتور بصری و CNN-ViT از افزایش نرخ ۰٫۰۱ برای همگرایی سریع‌تر بدون ایجاد نگرانی در مورد بی‌ثباتی بهره بردند.

اندازه دسته: ما گزینه های مختلف را مقایسه کردیم. ترانسفورماتور بصری و CNN-ViT در اندازه های دسته ای ۶۴، ۱۲۸ و ۲۵۶ عنصر مورد ارزیابی قرار گرفتند که ۲۵۶ انتخاب بهینه در کنار نرخ یادگیری خاص آنها بود.

دوره ها: هر دو مدل در ابتدا روی ۵۰۰ دوره تنظیم شده بودند. با این حال، ما مکانیسم‌های توقف اولیه را برای محدود کردن دوره‌ها به ۱۰۰ برای ترانسفورماتور بصری و CNN-ViT اجرا کردیم. این استراتژی از بدتر شدن عملکرد مدل بالقوه جلوگیری می کند و در عین حال آموزش کارآمد را تضمین می کند.

ب

تکنیک های منظم سازی

منظم‌سازی برای مبارزه با بیش‌برازش استفاده می‌شود، که زمانی رخ می‌دهد که خطای طبقه‌بندی در مجموعه داده اعتبارسنجی بیشتر از مجموعه داده آموزشی باشد. این یکی از رایج ترین مسائل هنگام استفاده از تکنیک های یادگیری است، به ویژه برای مدل هایی با تعداد پارامترهای زیاد. در این کار، تکنیک‌های منظم‌سازی زیر پیاده‌سازی شد: حذف، افزایش داده‌ها، کاهش وزن، و توقف زودهنگام.

ترک تحصیل: یک تکنیک منظم سازی که شامل غیرفعال کردن تصادفی بخشی از نورون ها و اتصالات آنها در طول آموزش شبکه عصبی است. هر نورون در شبکه دارای احتمال P% فعال بودن و احتمال (۱-P)% غیرفعال شدن است. مقدار احتمال P یک فراپارامتر است که باید تنظیم شود. در پایان آزمایش ها، نرخ ترک تحصیل از ۰٫۴ برای ترانسفورماتور بصری و مدل هیبریدی کافی تلقی شد.

افزایش داده ها: برای بهبود عملکرد مدل‌ها، داده‌های آموزشی را به‌طور مصنوعی با اعمال تبدیل‌های زیر افزایش دادیم:

  • چرخش افقی تصادفی؛

  • چرخش تصادفی تصاویر با ضریب چرخش ۰٫۰۲ رادیان.

  • بزرگنمایی تصادفی تصاویر با تنظیم ارتفاع و عرض آنها با ضریب ۰٫۲٫

با معرفی این تبدیل‌ها، داده‌های آموزشی متنوع‌تر می‌شوند و مدل‌ها را قادر می‌سازد از طیف وسیع‌تری از سناریوها و الگوها بیاموزند. در نتیجه، مدل‌ها تعمیم بهتری را نشان می‌دهند و هنگام پیش‌بینی داده‌های جدید بهتر عمل می‌کنند.

کاهش وزن: کاهش وزن ۰۰۰۱/۰ اعمال شد. این بدان معنی است که هنگام به روز رسانی وزنه های مدل، یک جریمه کوچک به عملکرد ضرر اضافه شده است. این جریمه وزن‌ها را تشویق می‌کند تا مقادیر کوچک‌تری داشته باشند، که پیچیدگی مدل را محدود می‌کند و به تنظیم یادگیری کمک می‌کند.

توقف زودهنگام: در طول تمرین، توقف زودهنگام بر عملکرد مدل در مجموعه اعتبارسنجی نظارت می کند و وزن های مربوط به بهترین عملکرد را ثبت می کند. در هر تکرار آموزشی، اگر عملکرد مجموعه اعتبار سنجی بهبود یابد، وزن مدل ذخیره می شود. هنگامی که عملکرد مجموعه اعتبارسنجی شروع به بدتر شدن می کند، تمرین پیش از موعد متوقف می شود و وزنه های مرتبط با بهترین عملکرد بازیابی می شوند. این وزن ها با نقطه ای مطابقت دارد که مدل بهترین قابلیت تعمیم را داشت.

با حفظ وزن‌های مربوط به بهترین عملکرد در مجموعه اعتبارسنجی، توقف زودهنگام به انتخاب مدل بهینه برای پیش‌بینی داده‌های جدید کمک می‌کند.

ج

معیارهای ارزیابی

عملکرد هر مدل به صورت کمی با استفاده از پنج معیار عملکرد ارزیابی شد: دقت، یادآوری، دقت، امتیاز F1 و کاپا کوهن. دقت درصدی از مقادیر پیش‌بینی‌شده را که با مقادیر واقعی هر مدل مطابقت دارد، اندازه‌گیری می‌کند. یادآوری به عنوان نسبت تعداد مثبت های درست به مجموع مثبت های واقعی و منفی های کاذب تعریف می شود و دقت، نسبت تعداد مثبت های درست به مجموع مثبت های واقعی و مثبت های کاذب برای هر مدل است. امتیاز F1 نشان‌دهنده میانگین هارمونیک یادآوری و دقت است و کاپا کوهن توافق بین مقادیر پیش‌بینی‌شده و واقعی را با در نظر گرفتن توافق شانس، برای هر مدل جداگانه ارزیابی می‌کند.


منبع: https://www.mdpi.com/2673-2688/5/2/33

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *