۵٫۱٫ مجموعه داده COVID-19
این بخش نتایج محک زدن CNN ها و ViT های مختلف را در کار طبقه بندی تصویر COVID-19 ارائه می دهد. ارزیابی جامع ما شامل معیارهای عملکردی مانند دقت، دقت، یادآوری، و امتیاز F1، در کنار معیارهای کارایی محاسباتی مانند زمان اجرا مدل، FLOP، MAC، و تأخیر CPU و GPU بود. با تجزیه و تحلیل این معیارها، ما بینشی در مورد نقاط قوت و ضعف معماری مدل های مختلف و کاربرد آنها در سناریوهای دنیای واقعی ارائه می دهیم. یافتهها بر مبادلات حیاتی بین دقت و نیازهای محاسباتی تأکید میکنند و راهنماییهای ارزشمندی را برای انتخاب مدلهای بهینه برای طبقهبندی تصاویر پزشکی و سایر حوزهها ارائه میدهند.
تجزیه و تحلیل ما در نمودارهای نمودار ارائه شده است و درک یافته ها و روابط بین معیارهای مختلف را آسان تر می کند. در تمام نمودارهای زیر و در بخشهای بعدی، یک دایره نشاندهنده مدلهای CNN، یک مربع نشاندهنده مدلهای ViT، مدلهای درون کادر سبز مدلهای ترجیحی هستند، و اندازه نقطه داده نشاندهنده تعداد پارامترهای مدل است. اندازه مدل برای هر یک از مدل های مورد استفاده در شکل ۳ ارائه شده است. شکل ۴ دقت را در مقابل MAC ها نشان می دهد. ViT-Small-patch8 به عنوان یک مدل با MAC های بالا متمایز است ( میلیارد) اما دقت نسبتا پایین (). این رفتار غیر معمول است، زیرا MAC های بالاتر با مدل های پیچیده تر و عملکرد بهتر همبستگی دارند، که نشان دهنده ناکارآمدی بالقوه و بیش از حد مناسب بودن در طراحی ViT-Small-patch8 است. برعکس، ShuffleNetV2-x0-5 MAC های کم (۰٫۰۴ میلیارد) را نشان می دهد، اما دقت بالایی را به دست می آورد. ، که غیرعادی است زیرا مدل های ساده تر با MAC کمتر اغلب برای حفظ دقت بالا تلاش می کنند. این یافته نشان می دهد که ShuffleNetV2-x0-5 به طور استثنایی بهینه شده است و از معماری آن برای دستیابی به دقت بالا به طور موثر استفاده می کند. این ناهنجاری ها اهمیت نوآوری های معماری و تنظیم دقیق در دستیابی به عملکرد بهینه در مدل های یادگیری عمیق را برجسته می کند.
در تجزیه و تحلیل ما از شکل ۵، که دقت در مقابل FLOP ها را نشان می دهد، رابطه همیشه خطی و مشابه دقت در مقابل MAC نیست. مدلی مانند ViT-Small-patch8 که FLOPهای بالایی را نشان می دهد ( میلیارد)، دقت نسبتاً پایینی دارد () به دلیل ناکارآمدی ها و چالش ها در استفاده مؤثر از منابع محاسباتی. برعکس، مدل ShuffleNetV2-x0-5 با FLOP کم ( میلیارد)، به دقت بالایی می رسد () به دلیل کارایی و اثربخشی آن در استفاده از منابع موجود.
شکل ۶ رابطه بین دقت و صحت دوره را نشان می دهد که نشان دهنده دوره ای است که مدل در طی آموزش به بالاترین دقت خود دست یافته است. همانطور که موارد شدید مشاهده شده نشان می دهد، رابطه بین عصر و دقت کاملاً قطعی نیست. به عنوان مثال، مدل PoolFormer-S36 با دوران بالا (۴۸۴) و دقت پایین () می تواند مسائل مربوط به همگرایی، بیش از حد برازش یا تنظیم فراپارامتر غیربهینه را نشان دهد که منجر به زمان طولانی تر تمرین بدون بهبود دقت قابل توجه می شود. برعکس، مدل RegNet-y-16gf با دوره کم (۴۵) به دقت بالایی می رسد () به دلیل طراحی معماری کارآمد، تکنیک های منظم سازی موثر و تنظیمات فراپارامتر بهینه.
شکل ۷ تأخیر CPU در مقابل دقت را نشان می دهد. ViT-Small-patch8 تأخیر بالای CPU را نشان می دهد ( ms) و دقت نسبتا پایین (). این ناهنجاری نشان دهنده ناکارآمدی در طراحی یا آموزش مدل است، زیرا تأخیر بالاتر معمولاً زمان استنتاج کندتر را نشان می دهد، که می تواند برنامه های بلادرنگ را مختل کند. MobileNetV2 تأخیر کم CPU را نشان می دهد ( ms) و دقت بالا (). این عملکرد استثنایی به طراحی معماری کارآمد و بهینهسازی نسبت داده میشود که امکان زمان استنتاج سریعتر را فراهم میکند.
تاخیر GPU در مقابل دقت در شکل ۸ نشان داده شده است. مدل CvT-21 دارای تاخیر GPU بالایی است ( ms) اما دقت نسبتا پایین (). این رفتار معمولی نیست، زیرا تاخیر بالاتر معمولاً با پارامترهای بیشتر و عملکرد بهتر به دلیل محاسبات پیچیده تر مرتبط است. با این حال، دقت پایینتر CvT-21 نشاندهنده ناکارآمدی و تطبیق بیش از حد احتمالی است، جایی که پیچیدگی مدل به بهبود کیفیت پیشبینی ترجمه نمیشود. از سوی دیگر، Vgg-13-bn تأخیر پایین GPU را نشان می دهد ( ms) با دستیابی به دقت بالا (). عملکرد آن نشاندهنده بهینهسازی استثنایی در طراحی آن است که به طور موثر بازده محاسباتی را با دقت پیشبینی بالا متعادل میکند.
در رابطه بین حافظه آموزشی و دقت، همانطور که در شکل ۹ نشان داده شده است، مدل های با پارامترهای بیشتر به طور کلی به حافظه آموزشی بیشتری نیاز دارند و اغلب به دلیل افزایش ظرفیت آنها برای یادگیری الگوهای پیچیده، به دقت بالاتری دست می یابند. با این حال، در تجزیه و تحلیل ما، مدل NFNet-F0 استفاده از حافظه آموزشی بالایی را نشان می دهد ( گیگابایت) اما دقت نسبتاً کمتری (). این ناهماهنگی ناشی از برازش بیش از حد و ناکارآمدی در معماری مدل است. از سوی دیگر، ShuffleNetV2-x0-5 با استفاده کم از حافظه آموزشی متمایز است ( GB) در حالی که به دقت نسبتاً بالایی ().
تجزیه و تحلیل رابطه بین حافظه استنتاج، دقت و تعداد پارامترها بینش جالبی را از داده ها نشان می دهد. شکل ۱۰ نمودار حافظه استنتاج در مقابل دقت را نشان می دهد. به طور معمول، مدلهایی که پارامترها و حافظه استنتاج بیشتری دارند، به دلیل ظرفیت یادگیری ویژگیهای پیچیده، دقت بالاتری دارند. روند مشابه نمودار حافظه آموزشی در مقابل دقت است، اما در مقیاس کوچکتر، به جز TNT-Base. TNT-Base حافظه استنتاج بالایی دارد ( مگابایت) اما دقت نسبتاً کمتری () ناکارآمدی و بیش از حد برازش را با وجود ظرفیت آن نشان می دهد.
شکل ۱۱ زمان آموزش در مقابل دقت را نشان می دهد. ViT-Small-patch8 نمونه ای از زمان تمرین بالا با دقت کم است. این یک زمان آموزش در هر دوره از s، در عین حال به دقت کمی از . از سوی دیگر، GoogLeNet یک مورد جالب از زمان کم آموزش با دقت نسبتا بالا ارائه می دهد. فقط زمان آموزش در هر دوره دارد s و به دقتی از . به طور معمول، مدل هایی با چنین زمان های آموزشی سریع به دلیل معماری ساده و پارامترهای کمتر، به دقت بالایی دست نمی یابند. این استثنائات نشان میدهد که کارایی مدل و بهینهسازی معماری نقشهای حیاتی ایفا میکنند، گاهی اوقات به مدلهایی با پارامترهای کمتر و زمانهای آموزش سریعتر اجازه میدهند تا عملکرد فوقالعادهای داشته باشند یا باعث میشوند مدلهایی با نیازهای محاسباتی بالا به دلیل ناکارآمدی، عملکرد ضعیفتری داشته باشند.
در بررسی رابطه بین MCC، دوره، و تعداد پارامترها از شکل ۱۲، ما افراط های جالبی را از داده های داده شده مشاهده کردیم. به طور معمول، MCC بالاتر با دوره های بیشتر و تعداد قابل توجهی از پارامترها به دلیل افزایش پیچیدگی و مدت زمان آموزش که عملکرد مدل را بهبود می بخشد، مرتبط است. با این حال، مدل AlexNet یک مورد استثنایی از MCC بالا (نشان دهنده دقت بالا و پیشبینی کلاس متعادل) را نشان میدهد که در دورههای نسبتا کمی (۱۹) و با تعداد متوسطی از پارامترها (۵۷ میلیون) به دست آمده است. برعکس، مدل SqueezeNet-1-1، با پارامترهای کمتر ( میلیون) و MCC پایین تر، برای همگرایی به دوره های زیادی (۴۴۳) نیاز دارد. این ناهنجاری ها نشان می دهد که AlexNet فوق العاده کارآمد است و معماری خود را برای دستیابی سریع به عملکرد بالا بهینه می کند، در حالی که آموزش طولانی SqueezeNet-1-1 نشان دهنده مشکلات در یادگیری مؤثر مجموعه داده است.
همبستگی بین دقت، دوره و تعداد پارامترها در مدلهای یادگیری عمیق از روندی پیروی میکند که در آن مدلهایی با پارامترهای بیشتر اغلب به دقت بالاتری دست مییابند اما برای همگرایی به دورههای بیشتری نیاز دارند. این رفتار نشان میدهد که مدلهای بزرگتر میتوانند الگوهای پیچیدهتری را در دادهها ثبت کنند، اما همچنین به آموزش بیشتری برای بهینهسازی تمام پارامترهایشان به طور موثر نیاز دارند. شکل ۱۳ دقت را در مقابل دوره نشان می دهد. با این حال، از طریق تجزیه و تحلیل، CCT-14-سینوس، داشتن میلیون پارامتر، پس از ۱۸ دوره به دقت نسبتاً بالاتری دست می یابد. یکی دیگر از موارد شدید مدل MNASnet-05 است که دارد میلیون پارامتر و پس از ۴۸۷ دوره به دقت بالایی می رسد. این انحرافات ناشی از تفاوت های معماری آنهاست.
شکل ۱۴ فراخوان در مقابل دوره را نشان می دهد. مدل RegNet-y-16gf به فراخوان بالایی دست می یابد این نتیجه نشان می دهد که RegNet-y-16gf به سرعت در طول تمرین همگرا می شود و به سرعت به عملکرد بالایی می رسد، که با توجه به تعداد نسبتاً بالای پارامترهای آن قابل توجه است. میلیون). از سوی دیگر، MNASnet-05، با فراخوانی نسبتاً کمتری از و تعداد بالای دوره ۴۹۹، علیرغم داشتن تعداد کمی از پارامترها، به طور قابل توجهی بیشتر طول می کشد تا همگرا شوند. میلیون). به طور معمول، مدلهای با پارامترهای کمتر به دلیل کاهش پیچیدگی محاسباتی باید سریعتر آموزش ببینند، و مدلهای با پارامترهای بالاتر اغلب به دورههای بیشتری نیاز دارند تا از برازش بیش از حد جلوگیری کنند. این افراطهای مشاهدهشده نشان میدهد که RegNet-y-16gf بسیار کارآمد و بهینهسازی شده است، در حالی که آموزش طولانیمدت MNASnet-05 به دلیل پویایی آموزش کمتر از حد مطلوب است، که هر دو از رفتار مورد انتظار مدلهای یادگیری عمیق منحرف میشوند.
شکل ۱۵ تأخیر CPU را در مقابل MAC ها نشان می دهد. در تجزیه و تحلیل رابطه بین تاخیر CPU، MACها و تعداد پارامترها، دو مورد شدید رفتارهای غیرعادی را در مدلهای یادگیری عمیق نشان میدهند. مدل NFNet-F0 تأخیر بالایی را نشان می دهد ( ms) با وجود داشتن MAC کم ( میلیون) و تعداد متوسطی از پارامترها ( میلیون). علیرغم سادگی محاسباتی آن، این تأخیر بالا نشان دهنده ناکارآمدی بالقوه در نحوه پردازش داده ها یا ساختار عملیات مدل است. از سوی دیگر، Vgg-13-bn تأخیر نسبتاً کمی را نشان می دهد ( ms) با وجود داشتن MAC نسبتاً بالا ( میلیارد) و تعداد قابل توجهی از پارامترها ( میلیارد). به طور معمول، مدل هایی با MAC های بالاتر به دلیل افزایش بار محاسباتی، تأخیر بیشتری دارند.
شکل ۱۶ تاخیر GPU را در مقابل MAC ها نشان می دهد که در آن اکثر مدل های با MAC های بالاتر و پارامترهای بیشتر به دلیل افزایش پیچیدگی محاسباتی تاخیر GPU بالاتری را نشان می دهند. MobileFormer-508M، با تاخیر GPU بالا ms اما MAC کم ( میلیارد) و تعداد متوسطی از پارامترها ( میلیون)، ناکارآمدی را نشان می دهد که احتمالاً به دلیل استفاده نابهینه از منابع GPU یا تنگناهای معماری است. از سوی دیگر، DenseNet-161، با تاخیر GPU کم ( ms)، اما MAC های بالا ( میلیارد) و تعداد قابل توجهی از پارامترها ( میلیون)، نشاندهنده یک معماری کارآمد و بهینهسازی عالی GPU است که با وجود پیچیدگی، محاسبات سریعتر را در پی دارد.
شکل ۱۷ زمان آموزش در مقابل MAC را نشان می دهد. مدل FocalTransformer-Tiny زمان تمرین بالایی را در هر دوره نشان می دهد ( s) با وجود داشتن MAC کم ( میلیارد) و تعداد نسبتاً کمی از پارامترها ( میلیون). این رفتار غیرمعمول به دلیل موازی سازی ناکارآمد و تنگناها در خط لوله داده است که باعث می شود روند آموزش به دلیل پیچیدگی محاسباتی آن کندتر از حد انتظار باشد. از سوی دیگر، Vgg-13-bn زمان تمرین کم در هر دوره را نشان می دهد ( s) اما MAC های بالایی دارد ( میلیارد) و تعداد زیادی پارامتر ( میلیون). این یافته جالب است زیرا مدلهایی با MAC و تعداد پارامترهای بالاتر معمولاً به منابع محاسباتی و زمان بیشتری برای آموزش نیاز دارند. زمان آموزش کارآمد برای Vgg-13-bn پیاده سازی های بسیار بهینه ای را پیشنهاد می کند که بار محاسباتی مورد انتظار را به حداقل می رساند.
در تجزیه و تحلیل رابطه بین حافظه آموزشی و MACها از شکل ۱۸، ما دو مورد شدید را مشاهده کردیم که انتظارات معمولی را نادیده می گرفتند. مدل NFNet-F0 استفاده از حافظه آموزشی بالایی دارد گیگابایت اما MACهای نسبتاً کم در میلیارد. به طور کلی، یک حافظه آموزشی بالا با تعداد زیادی از MAC ها و پارامترها مرتبط است که نشان دهنده پیچیدگی مدل است. رفتار NFNet-F0 نشان میدهد که بدون بازده محاسباتی نسبتاً پارامتر فشرده است. از سوی دیگر، ViT-Small-patch8 استفاده کم حافظه آموزشی را نشان می دهد ( GB) اما MAC های بالا در میلیارد. این نتیجه نشان می دهد که ViT-Small-patch8 به گونه ای طراحی شده است که علیرغم پیچیدگی محاسباتی، از نظر حافظه کارآمد باشد و از استراتژی های معماری پیشرفته برای بهینه سازی استفاده از حافظه در طول آموزش استفاده کند. روند از استنباط حافظه در مقابل MAC ها پیروی می کند، با این تفاوت که اندازه حافظه کوچک شده است، همانطور که در شکل ۱۹ نشان داده شده است.
شکل ۲۰ زمان آموزش در مقابل تاخیر CPU را نشان می دهد. مدل Vgg-13-bn زمان آموزش کمتری را در هر دوره نشان می دهد ( s) با تأخیر نسبتاً کم CPU ( ms) با وجود داشتن تعداد قابل توجهی از پارامترها ( میلیون). به طور معمول، یک مدل پیچیده زمان آموزش بالایی دارد و به دلیل نیازهای محاسباتی در طول استنتاج، تمایل به تأخیر بالاتری دارد. مدل NFNet-F0 زمان آموزش کم در هر دوره را نشان می دهد ( s)، با این حال تاخیر CPU بالا ( ms)، با وجود داشتن حداقل تعداد پارامتر ( میلیون). معمولاً مدلی با پارامترهای کمتر و زمان آموزشی کوتاه باید تأخیر کمتری نیز داشته باشد، زیرا مدلهای سادهتر معمولاً به منابع محاسباتی کمتری نیاز دارند. این انحرافات نشان می دهد که Vgg-13-bn علیرغم پیچیدگی آن برای استنتاج بسیار بهینه شده است، در حالی که NFNet-F0 از ناکارآمدی در اجرای آن رنج می برد که علیرغم سادگی آن تاخیر را افزایش می دهد.
شکل ۲۱ زمان آموزش در مقابل تأخیر GPU را نشان می دهد. مدل ViT-Small-patch8 یک سناریوی غیرعادی را با زمان آموزش بالا ارائه میکند. ثانیه در هر دوره) اما تاخیر GPU نسبتا کم ( اماس). معمولاً مدلهایی با زمانهای آموزشی طولانیتر نیز به دلیل پیچیدگی، تأخیر بیشتری را نشان میدهند. با این حال، معماری ViT-Small-patch8 دارای مکانیسم های کارآمد برای استنتاج است که منجر به تأخیر کمتر آن علیرغم آموزش طولانی مدت می شود. از سوی دیگر، MobileFormer-508M زمان آموزش کم را نشان می دهد ( ثانیه در هر دوره) اما تاخیر GPU بالاتر ( اماس). این رفتار همچنین غیر معمول است، زیرا مدلهایی با زمانهای آموزشی کوتاهتر معمولاً معماریهای سادهتری دارند که باید به تأخیر کمتری منجر شود. تأخیر بالاتر MobileFormer-508M از اجزای معماری خاصی ناشی می شود که در عین کاهش زمان آموزش، سرعت استنتاج را به طور موثر بهینه نمی کنند.
تجزیه و تحلیل زمان تمرین در مقابل حافظه تمرینی از شکل ۲۲ نشان می دهد که مدل ViT-Small-patch8 دارای زمان تمرین بالایی در هر دوره است. s) اما استفاده از حافظه آموزشی نسبتاً کم ( GB)، که غیر معمول است زیرا زمان های تمرین بالا معمولاً به دلیل پیچیدگی عملیات درگیر با استفاده از حافظه بالاتر مرتبط است. Vgg-13-bn زمان تمرین کم در هر دوره را نشان می دهد () در عین حال استفاده از حافظه آموزشی بالا ( گیگابایت). این رفتار همچنین غیرعادی است زیرا مدلهایی با استفاده از حافظه بالا معمولاً شامل محاسبات گسترده و در نتیجه زمانهای آموزشی طولانیتر میشوند. یک الگوی مشابه برای زمان آموزش در مقابل حافظه استنتاج مشاهده می شود. همانطور که در شکل ۲۳ نشان داده شده است، اندازه حافظه نیز کوچک شده است.
شکل ۲۴ حافظه آموزشی در مقابل تأخیر GPU را نشان می دهد، که در آن مدل هایی با پارامترهای بیشتر تمایل به استفاده از حافظه آموزشی و تأخیر GPU بالاتری دارند. MobileFormer-508M تاخیر GPU بالایی دارد ( ms) اما استفاده از حافظه آموزشی نسبتاً کم ( گیگابایت). دلیل این امر این است که معماری MobileFormer-508M دارای عملیات پیچیده ای است که علیرغم ردپای حافظه کارآمد آن باعث تأخیر می شود. Vgg-13-bn تأخیر GPU کم را نشان می دهد ( ms) اما استفاده از حافظه آموزشی بالا ( GB)، نشان می دهد که Vgg-13-bn برای اجرای سریع به قیمت افزایش مصرف حافظه بهینه شده است.
به طور کلی، استنباط و حافظه آموزشی یک مدل تحت تأثیر تعداد پارامترهای آن است. شکل ۲۵ حافظه آموزشی در مقابل حافظه استنتاج را نشان می دهد که در آن مدل هایی با پارامترهای بیشتر در طول آموزش و استنتاج به حافظه بیشتری نیاز دارند. با این حال، NFNet-F0 و AlexNet با داشتن حافظه های استنتاج کمتر و بالاتر در مقایسه با حافظه های آموزشی خود، اندکی از این رابطه تقریبا خطی منحرف می شوند.
جدول ۴ نتایج عملکرد برخی از CNN ها و ViTs با دقت بالا را برای تشخیص COVID-19 در میان تمام مدل های آموزش دیده دیگر ارائه می دهد. مدلها بر اساس دقت، یادآوری و از دست دادن بالای ۱ ارزیابی شدند، با دورههای متناظر که بهترین عملکرد را برای هر متریک نشان میدهند. DenseNet-161 بالاترین دقت بالای ۱ را به دست می آورد با یادآوری از ، استحکام خود را برای تشخیص های پزشکی با دقت بالا نشان می دهد، البته با افزایش پیچیدگی محاسباتی. مدل هایی مانند Vgg-13-bn و MaxVit-tiny نیز عملکرد خوبی دارند و دقت و نیازهای محاسباتی را به طور موثر متعادل می کنند.
جدول ۵ تجزیه و تحلیل دقیقی از کارایی محاسباتی CNN ها و ViTs با دقت بالا که برای تشخیص COVID-19 در میان تمام مدل های آموزش دیده دیگر استفاده می شود را ارائه می دهد. معیارهای کلیدی مانند تعداد پارامترها، عملیات انباشت چند برابر (MAC)، عملیات ممیز شناور (FLOP)، زمان آموزش در هر دوره، تأخیر CPU و GPU، و استفاده از حافظه در طول آموزش و استنتاج در بین مدلها مقایسه میشوند. یافتهها بر مبادلات بین دقت و کارایی محاسباتی تأکید میکنند و انتخاب مدلهای مناسب را بر اساس الزامات کاربردی خاص هدایت میکنند. به عنوان مثال، DenseNet-161 عملکرد قوی را برای تشخیص با دقت بالا ارائه می دهد، در حالی که مدل هایی مانند MaxVit-tiny و MobileFormer-96M به دلیل نیازهای محاسباتی کمتر، برای استقرار در زمان واقعی مناسب تر هستند. این تجزیه و تحلیل بر اهمیت در نظر گرفتن دقت و کارایی هنگام انتخاب مدلها برای استقرار در طبقهبندی تصاویر پزشکی و سایر کارهای محاسباتی فشرده تأکید میکند.
نتایج نشان میدهد که مدلهای با دقت بالا (دقت > ۹۰%) دارای حداقل تغییرات در معیارهای عملکرد هستند: امتیازات F1 از به یادآوری از به دقت تقریباً ثابت می ماند و MCC کمی متفاوت است به . این سازگاری به دلیل استحکام، بهینهسازی و مجموعه داده آموزشی بزرگ مدلها است.
مدلهای CNN مانند AlexNet، GoogLeNet و EfficientNet برای استخراج ویژگی به لایههای کانولوشنال متکی هستند. عواملی مانند عمق، عرض و اتصالات پرش (ResNet) بر عملکرد آنها تأثیر می گذارد. EfficientNet از مقیاس بندی ترکیبی برای متعادل کردن ابعاد شبکه استفاده می کند. DenseNet-161 بالاترین دقت را در و امتیاز F1 از ، نشان دهنده تعادل فراخوان دقیق و قوی است که آن را برای طبقه بندی تصاویر پزشکی موثر می کند. با این حال، پیچیدگی محاسباتی بالای آن مستلزم بررسی دقیق استقرار است. در مقابل، MobileNetV2 با کمترین پارامترها (۲۲۲۷۷۱۵)، MAC و FLOP کم، حداقل زمان آموزش و تاخیر کم CPU و GPU کارآمد است و آن را برای برنامه های بلادرنگ در محیط های با منابع محدود ایده آل می کند.
یکی دیگر از مدلهای CNN با کارایی بالا، RegNet-y-16gf، به دقت قابل ستایشی دست مییابد، اما تعداد پارامترها، MACها و FLOPهای آن به میزان قابل توجهی منجر به زمانهای آموزشی طولانیتر و افزایش تأخیر میشود. این نتایج نشان میدهد که علیرغم دقت آن، این مدل ممکن است برای سناریوهایی که منابع محاسباتی یک عامل محدودکننده نیستند، مناسبتر باشد. مدلهای کارآمد با حفظ عملکرد رقابتی، تقاضاهای محاسباتی نسبتاً کمتری را نشان میدهند.
مدلهای ViT تصاویر ورودی را به تکههای با اندازه ثابت تقسیم میکنند، آنها را به صورت خطی جاسازی میکنند و با لایههای Transformer پردازش میکنند. عواملی مانند تعداد لایه ها، سرهای توجه و استراتژی توکن سازی بر عملکرد ViT تاثیر می گذارد. Max-ViT به دقت بالای ۱ دست می یابد اما با پارامترهای بالاتر، MAC ها و FLOP ها، نشان دهنده یک مبادله بین دقت و هزینه محاسباتی است. MobileFormer، با دقت رقابتی () و پارامترهای کم، به یکی از کوتاه ترین زمان های تمرین در هر دوره دست می یابد ( s)، آن را برای برنامه های بلادرنگ ایده آل می کند.
با مقایسه عملکرد کلی مدلهای CNN و ViT، یافتهها نشان میدهد که مدلهای ViT به دلیل مکانیسم توجه به خود، که شامل پردازش کل توالی به طور همزمان است، زمانهای آموزشی طولانیتری دارند. CNN ها، به خصوص آنهایی که کوچکتر هستند، سریعتر همگرا می شوند. با این حال، دقت مدلهای ViT با پیکربندی مناسب میتواند با CNNها قابل رقابت باشد. مدلهای ViT میتوانند زمینه جهانی را بیاموزند، و آنها را برای کارهایی مناسب میسازد که درک کل ورودیها بسیار مهم است. در عین حال، CNN ها به دلیل استخراج ویژگی سلسله مراتبی خود شناخته می شوند که می تواند برای گرفتن الگوهای محلی مفید باشد.
مدلهای ViT معمولاً MAC و FLOP بالاتری نسبت به CNN نشان میدهند، زیرا ViT کل تصویر را بهعنوان دنبالهای از وصلهها پردازش میکند و نیازهای محاسباتی را افزایش میدهد. از سوی دیگر، CNN ها طراحی های کارآمدتری از نظر پارامتر را نشان می دهند و در مقایسه با برخی از مدل های ViT به عملکرد رقابتی با پارامترهای کمتر دست می یابند. علاوه بر این، CNN ها در طول استنتاج CPU و GPU نسبت به مدل های ViT تاخیر کمتری دارند، تا حدی به دلیل ماهیت پردازش متوالی ViT ها، که می تواند منجر به زنجیره های وابستگی طولانی تر شود. مدلهای ViT اغلب نیاز به آموزش و حافظه استنباط بالاتری دارند زیرا وصلههای تصویر را به طور مستقل پردازش میکنند و در نتیجه نمایشهای میانی مهمتری را به همراه دارند.
این نتایج از تصمیم گیری در مورد اینکه کدام مدل ممکن است بر اساس نیازهای محاسباتی، مصرف حافظه و عملکرد مناسب موارد استفاده خاص باشد، پشتیبانی می کند. ساختار سلسله مراتبی و لایهای CNN و مکانیسم خودتوجهی ViTs این مدلها را قادر میسازد تا به عملکرد پیشرفتهای در وظایف طبقهبندی تصویر COVID-19 CXR دست یابند. با این حال، با رشد مجموعه دادهها و پیچیدهتر شدن وظایف، محدودیتهای رویکرد کانولوشنال سنتی و چالشهای ادغام ترانسفورماتورها در بینایی رایانه باید از طریق تحقیق و توسعه مستمر برطرف شوند.