هوش مصنوعی | متن کامل رایگان | معیار ConVision: چارچوبی معاصر برای محک زدن مدل‌های CNN و ViT

۵٫۱٫ مجموعه داده COVID-19

این بخش نتایج محک زدن CNN ها و ViT های مختلف را در کار طبقه بندی تصویر COVID-19 ارائه می دهد. ارزیابی جامع ما شامل معیارهای عملکردی مانند دقت، دقت، یادآوری، و امتیاز F1، در کنار معیارهای کارایی محاسباتی مانند زمان اجرا مدل، FLOP، MAC، و تأخیر CPU و GPU بود. با تجزیه و تحلیل این معیارها، ما بینشی در مورد نقاط قوت و ضعف معماری مدل های مختلف و کاربرد آنها در سناریوهای دنیای واقعی ارائه می دهیم. یافته‌ها بر مبادلات حیاتی بین دقت و نیازهای محاسباتی تأکید می‌کنند و راهنمایی‌های ارزشمندی را برای انتخاب مدل‌های بهینه برای طبقه‌بندی تصاویر پزشکی و سایر حوزه‌ها ارائه می‌دهند.

تجزیه و تحلیل ما در نمودارهای نمودار ارائه شده است و درک یافته ها و روابط بین معیارهای مختلف را آسان تر می کند. در تمام نمودارهای زیر و در بخش‌های بعدی، یک دایره نشان‌دهنده مدل‌های CNN، یک مربع نشان‌دهنده مدل‌های ViT، مدل‌های درون کادر سبز مدل‌های ترجیحی هستند، و اندازه نقطه داده نشان‌دهنده تعداد پارامترهای مدل است. اندازه مدل برای هر یک از مدل های مورد استفاده در شکل ۳ ارائه شده است. شکل ۴ دقت را در مقابل MAC ها نشان می دهد. ViT-Small-patch8 به عنوان یک مدل با MAC های بالا متمایز است ( ۱۶٫۷۵ میلیارد) اما دقت نسبتا پایین ( ۸۸٫۴ % ). این رفتار غیر معمول است، زیرا MAC های بالاتر با مدل های پیچیده تر و عملکرد بهتر همبستگی دارند، که نشان دهنده ناکارآمدی بالقوه و بیش از حد مناسب بودن در طراحی ViT-Small-patch8 است. برعکس، ShuffleNetV2-x0-5 MAC های کم (۰٫۰۴ میلیارد) را نشان می دهد، اما دقت بالایی را به دست می آورد. ۹۲٫۸۵ % ، که غیرعادی است زیرا مدل های ساده تر با MAC کمتر اغلب برای حفظ دقت بالا تلاش می کنند. این یافته نشان می دهد که ShuffleNetV2-x0-5 به طور استثنایی بهینه شده است و از معماری آن برای دستیابی به دقت بالا به طور موثر استفاده می کند. این ناهنجاری ها اهمیت نوآوری های معماری و تنظیم دقیق در دستیابی به عملکرد بهینه در مدل های یادگیری عمیق را برجسته می کند.
در تجزیه و تحلیل ما از شکل ۵، که دقت در مقابل FLOP ها را نشان می دهد، رابطه همیشه خطی و مشابه دقت در مقابل MAC نیست. مدلی مانند ViT-Small-patch8 که FLOPهای بالایی را نشان می دهد ( ۱۶٫۷۶ میلیارد)، دقت نسبتاً پایینی دارد ( ۸۸٫۴ % ) به دلیل ناکارآمدی ها و چالش ها در استفاده مؤثر از منابع محاسباتی. برعکس، مدل ShuffleNetV2-x0-5 با FLOP کم ( ۰٫۰۴ میلیارد)، به دقت بالایی می رسد ( ۹۲٫۸۵ % ) به دلیل کارایی و اثربخشی آن در استفاده از منابع موجود.
شکل ۶ رابطه بین دقت و صحت دوره را نشان می دهد که نشان دهنده دوره ای است که مدل در طی آموزش به بالاترین دقت خود دست یافته است. همانطور که موارد شدید مشاهده شده نشان می دهد، رابطه بین عصر و دقت کاملاً قطعی نیست. به عنوان مثال، مدل PoolFormer-S36 با دوران بالا (۴۸۴) و دقت پایین ( ۸۵٫۲۲ % ) می تواند مسائل مربوط به همگرایی، بیش از حد برازش یا تنظیم فراپارامتر غیربهینه را نشان دهد که منجر به زمان طولانی تر تمرین بدون بهبود دقت قابل توجه می شود. برعکس، مدل RegNet-y-16gf با دوره کم (۴۵) به دقت بالایی می رسد ( ۹۳ % ) به دلیل طراحی معماری کارآمد، تکنیک های منظم سازی موثر و تنظیمات فراپارامتر بهینه.
شکل ۷ تأخیر CPU در مقابل دقت را نشان می دهد. ViT-Small-patch8 تأخیر بالای CPU را نشان می دهد ( ۹۶٫۶۷ ms) و دقت نسبتا پایین ( ۸۸٫۴ % ). این ناهنجاری نشان دهنده ناکارآمدی در طراحی یا آموزش مدل است، زیرا تأخیر بالاتر معمولاً زمان استنتاج کندتر را نشان می دهد، که می تواند برنامه های بلادرنگ را مختل کند. MobileNetV2 تأخیر کم CPU را نشان می دهد ( ۹٫۱۳ ms) و دقت بالا ( ۹۳٫۹۷ % ). این عملکرد استثنایی به طراحی معماری کارآمد و بهینه‌سازی نسبت داده می‌شود که امکان زمان استنتاج سریع‌تر را فراهم می‌کند.
تاخیر GPU در مقابل دقت در شکل ۸ نشان داده شده است. مدل CvT-21 دارای تاخیر GPU بالایی است ( ۱۸٫۴۸ ms) اما دقت نسبتا پایین ( ۸۹ % ). این رفتار معمولی نیست، زیرا تاخیر بالاتر معمولاً با پارامترهای بیشتر و عملکرد بهتر به دلیل محاسبات پیچیده تر مرتبط است. با این حال، دقت پایین‌تر CvT-21 نشان‌دهنده ناکارآمدی و تطبیق بیش از حد احتمالی است، جایی که پیچیدگی مدل به بهبود کیفیت پیش‌بینی ترجمه نمی‌شود. از سوی دیگر، Vgg-13-bn تأخیر پایین GPU را نشان می دهد ( ۱٫۰۸ ms) با دستیابی به دقت بالا ( ۹۵٫۲۷ % ). عملکرد آن نشان‌دهنده بهینه‌سازی استثنایی در طراحی آن است که به طور موثر بازده محاسباتی را با دقت پیش‌بینی بالا متعادل می‌کند.
در رابطه بین حافظه آموزشی و دقت، همانطور که در شکل ۹ نشان داده شده است، مدل های با پارامترهای بیشتر به طور کلی به حافظه آموزشی بیشتری نیاز دارند و اغلب به دلیل افزایش ظرفیت آنها برای یادگیری الگوهای پیچیده، به دقت بالاتری دست می یابند. با این حال، در تجزیه و تحلیل ما، مدل NFNet-F0 استفاده از حافظه آموزشی بالایی را نشان می دهد ( ۱٫۶۹ گیگابایت) اما دقت نسبتاً کمتری ( ۹۰٫۶۴ % ). این ناهماهنگی ناشی از برازش بیش از حد و ناکارآمدی در معماری مدل است. از سوی دیگر، ShuffleNetV2-x0-5 با استفاده کم از حافظه آموزشی متمایز است ( ۰٫۰۲ GB) در حالی که به دقت نسبتاً بالایی ( ۹۲٫۸۶ % ).
تجزیه و تحلیل رابطه بین حافظه استنتاج، دقت و تعداد پارامترها بینش جالبی را از داده ها نشان می دهد. شکل ۱۰ نمودار حافظه استنتاج در مقابل دقت را نشان می دهد. به طور معمول، مدل‌هایی که پارامترها و حافظه استنتاج بیشتری دارند، به دلیل ظرفیت یادگیری ویژگی‌های پیچیده، دقت بالاتری دارند. روند مشابه نمودار حافظه آموزشی در مقابل دقت است، اما در مقیاس کوچکتر، به جز TNT-Base. TNT-Base حافظه استنتاج بالایی دارد ( ۲۴۷٫۲۳ مگابایت) اما دقت نسبتاً کمتری ( ۸۹٫۴ % ) ناکارآمدی و بیش از حد برازش را با وجود ظرفیت آن نشان می دهد.
شکل ۱۱ زمان آموزش در مقابل دقت را نشان می دهد. ViT-Small-patch8 نمونه ای از زمان تمرین بالا با دقت کم است. این یک زمان آموزش در هر دوره از ۱۸۴٫۶۷ s، در عین حال به دقت کمی از ۸۸٫۴ % . از سوی دیگر، GoogLeNet یک مورد جالب از زمان کم آموزش با دقت نسبتا بالا ارائه می دهد. فقط زمان آموزش در هر دوره دارد ۱۷٫۲۲ s و به دقتی از ۹۴٫۹۴ % . به طور معمول، مدل هایی با چنین زمان های آموزشی سریع به دلیل معماری ساده و پارامترهای کمتر، به دقت بالایی دست نمی یابند. این استثنائات نشان می‌دهد که کارایی مدل و بهینه‌سازی معماری نقش‌های حیاتی ایفا می‌کنند، گاهی اوقات به مدل‌هایی با پارامترهای کمتر و زمان‌های آموزش سریع‌تر اجازه می‌دهند تا عملکرد فوق‌العاده‌ای داشته باشند یا باعث می‌شوند مدل‌هایی با نیازهای محاسباتی بالا به دلیل ناکارآمدی، عملکرد ضعیف‌تری داشته باشند.
در بررسی رابطه بین MCC، دوره، و تعداد پارامترها از شکل ۱۲، ما افراط های جالبی را از داده های داده شده مشاهده کردیم. به طور معمول، MCC بالاتر با دوره های بیشتر و تعداد قابل توجهی از پارامترها به دلیل افزایش پیچیدگی و مدت زمان آموزش که عملکرد مدل را بهبود می بخشد، مرتبط است. با این حال، مدل AlexNet یک مورد استثنایی از MCC بالا (نشان دهنده دقت بالا و پیش‌بینی کلاس متعادل) را نشان می‌دهد که در دوره‌های نسبتا کمی (۱۹) و با تعداد متوسطی از پارامترها (۵۷ میلیون) به دست آمده است. برعکس، مدل SqueezeNet-1-1، با پارامترهای کمتر ( ۰٫۷۲ میلیون) و MCC پایین تر، برای همگرایی به دوره های زیادی (۴۴۳) نیاز دارد. این ناهنجاری ها نشان می دهد که AlexNet فوق العاده کارآمد است و معماری خود را برای دستیابی سریع به عملکرد بالا بهینه می کند، در حالی که آموزش طولانی SqueezeNet-1-1 نشان دهنده مشکلات در یادگیری مؤثر مجموعه داده است.
همبستگی بین دقت، دوره و تعداد پارامترها در مدل‌های یادگیری عمیق از روندی پیروی می‌کند که در آن مدل‌هایی با پارامترهای بیشتر اغلب به دقت بالاتری دست می‌یابند اما برای همگرایی به دوره‌های بیشتری نیاز دارند. این رفتار نشان می‌دهد که مدل‌های بزرگ‌تر می‌توانند الگوهای پیچیده‌تری را در داده‌ها ثبت کنند، اما همچنین به آموزش بیشتری برای بهینه‌سازی تمام پارامترهایشان به طور موثر نیاز دارند. شکل ۱۳ دقت را در مقابل دوره نشان می دهد. با این حال، از طریق تجزیه و تحلیل، CCT-14-سینوس، داشتن ۲۱٫۹۱ میلیون پارامتر، پس از ۱۸ دوره به دقت نسبتاً بالاتری دست می یابد. یکی دیگر از موارد شدید مدل MNASnet-05 است که دارد ۰٫۹۴ میلیون پارامتر و پس از ۴۸۷ دوره به دقت بالایی می رسد. این انحرافات ناشی از تفاوت های معماری آنهاست.
شکل ۱۴ فراخوان در مقابل دوره را نشان می دهد. مدل RegNet-y-16gf به فراخوان بالایی دست می یابد ۰٫۹۳ این نتیجه نشان می دهد که RegNet-y-16gf به سرعت در طول تمرین همگرا می شود و به سرعت به عملکرد بالایی می رسد، که با توجه به تعداد نسبتاً بالای پارامترهای آن قابل توجه است. ۸۰٫۵۷ میلیون). از سوی دیگر، MNASnet-05، با فراخوانی نسبتاً کمتری از ۹۲ % و تعداد بالای دوره ۴۹۹، علیرغم داشتن تعداد کمی از پارامترها، به طور قابل توجهی بیشتر طول می کشد تا همگرا شوند. ۰٫۹۴ میلیون). به طور معمول، مدل‌های با پارامترهای کمتر به دلیل کاهش پیچیدگی محاسباتی باید سریع‌تر آموزش ببینند، و مدل‌های با پارامترهای بالاتر اغلب به دوره‌های بیشتری نیاز دارند تا از برازش بیش از حد جلوگیری کنند. این افراط‌های مشاهده‌شده نشان می‌دهد که RegNet-y-16gf بسیار کارآمد و بهینه‌سازی شده است، در حالی که آموزش طولانی‌مدت MNASnet-05 به دلیل پویایی آموزش کمتر از حد مطلوب است، که هر دو از رفتار مورد انتظار مدل‌های یادگیری عمیق منحرف می‌شوند.
شکل ۱۵ تأخیر CPU را در مقابل MAC ها نشان می دهد. در تجزیه و تحلیل رابطه بین تاخیر CPU، MACها و تعداد پارامترها، دو مورد شدید رفتارهای غیرعادی را در مدل‌های یادگیری عمیق نشان می‌دهند. مدل NFNet-F0 تأخیر بالایی را نشان می دهد ( ۱۰۵٫۷۲ ms) با وجود داشتن MAC کم ( ۲۲٫۲ میلیون) و تعداد متوسطی از پارامترها ( ۲۱٫۸۵ میلیون). علیرغم سادگی محاسباتی آن، این تأخیر بالا نشان دهنده ناکارآمدی بالقوه در نحوه پردازش داده ها یا ساختار عملیات مدل است. از سوی دیگر، Vgg-13-bn تأخیر نسبتاً کمی را نشان می دهد ( ۵۰٫۹۸ ms) با وجود داشتن MAC نسبتاً بالا ( ۱۱٫۳۵ میلیارد) و تعداد قابل توجهی از پارامترها ( ۰٫۱۲ میلیارد). به طور معمول، مدل هایی با MAC های بالاتر به دلیل افزایش بار محاسباتی، تأخیر بیشتری دارند.
شکل ۱۶ تاخیر GPU را در مقابل MAC ها نشان می دهد که در آن اکثر مدل های با MAC های بالاتر و پارامترهای بیشتر به دلیل افزایش پیچیدگی محاسباتی تاخیر GPU بالاتری را نشان می دهند. MobileFormer-508M، با تاخیر GPU بالا ۱۵٫۸۵ ms اما MAC کم ( ۰٫۵ میلیارد) و تعداد متوسطی از پارامترها ( ۱۲٫۰۶ میلیون)، ناکارآمدی را نشان می دهد که احتمالاً به دلیل استفاده نابهینه از منابع GPU یا تنگناهای معماری است. از سوی دیگر، DenseNet-161، با تاخیر GPU کم ( ۱۴٫۴ ms)، اما MAC های بالا ( ۷٫۸۴ میلیارد) و تعداد قابل توجهی از پارامترها ( ۲۶٫۴۸ میلیون)، نشان‌دهنده یک معماری کارآمد و بهینه‌سازی عالی GPU است که با وجود پیچیدگی، محاسبات سریع‌تر را در پی دارد.
شکل ۱۷ زمان آموزش در مقابل MAC را نشان می دهد. مدل FocalTransformer-Tiny زمان تمرین بالایی را در هر دوره نشان می دهد ( ۱۴۶٫۱۵ s) با وجود داشتن MAC کم ( ۴٫۶۶ میلیارد) و تعداد نسبتاً کمی از پارامترها ( ۲۹٫۴۴ میلیون). این رفتار غیرمعمول به دلیل موازی سازی ناکارآمد و تنگناها در خط لوله داده است که باعث می شود روند آموزش به دلیل پیچیدگی محاسباتی آن کندتر از حد انتظار باشد. از سوی دیگر، Vgg-13-bn زمان تمرین کم در هر دوره را نشان می دهد ( ۳۹٫۶۱ s) اما MAC های بالایی دارد ( ۱۱٫۳۵ میلیارد) و تعداد زیادی پارامتر ( ۱۲۸٫۹۷ میلیون). این یافته جالب است زیرا مدل‌هایی با MAC و تعداد پارامترهای بالاتر معمولاً به منابع محاسباتی و زمان بیشتری برای آموزش نیاز دارند. زمان آموزش کارآمد برای Vgg-13-bn پیاده سازی های بسیار بهینه ای را پیشنهاد می کند که بار محاسباتی مورد انتظار را به حداقل می رساند.
در تجزیه و تحلیل رابطه بین حافظه آموزشی و MACها از شکل ۱۸، ما دو مورد شدید را مشاهده کردیم که انتظارات معمولی را نادیده می گرفتند. مدل NFNet-F0 استفاده از حافظه آموزشی بالایی دارد ۱٫۶۹ گیگابایت اما MACهای نسبتاً کم در ۲۲٫۲ میلیارد. به طور کلی، یک حافظه آموزشی بالا با تعداد زیادی از MAC ها و پارامترها مرتبط است که نشان دهنده پیچیدگی مدل است. رفتار NFNet-F0 نشان می‌دهد که بدون بازده محاسباتی نسبتاً پارامتر فشرده است. از سوی دیگر، ViT-Small-patch8 استفاده کم حافظه آموزشی را نشان می دهد ( ۰٫۵۵ GB) اما MAC های بالا در ۱۶٫۷۵ میلیارد. این نتیجه نشان می دهد که ViT-Small-patch8 به گونه ای طراحی شده است که علیرغم پیچیدگی محاسباتی، از نظر حافظه کارآمد باشد و از استراتژی های معماری پیشرفته برای بهینه سازی استفاده از حافظه در طول آموزش استفاده کند. روند از استنباط حافظه در مقابل MAC ها پیروی می کند، با این تفاوت که اندازه حافظه کوچک شده است، همانطور که در شکل ۱۹ نشان داده شده است.
شکل ۲۰ زمان آموزش در مقابل تاخیر CPU را نشان می دهد. مدل Vgg-13-bn زمان آموزش کمتری را در هر دوره نشان می دهد ( ۳۹٫۶۱ s) با تأخیر نسبتاً کم CPU ( ۵۰٫۹۸ ms) با وجود داشتن تعداد قابل توجهی از پارامترها ( ۱۲۸٫۹۷ میلیون). به طور معمول، یک مدل پیچیده زمان آموزش بالایی دارد و به دلیل نیازهای محاسباتی در طول استنتاج، تمایل به تأخیر بالاتری دارد. مدل NFNet-F0 زمان آموزش کم در هر دوره را نشان می دهد ( ۳۸٫۲۶ s)، با این حال تاخیر CPU بالا ( ۱۰۵٫۷۲ ms)، با وجود داشتن حداقل تعداد پارامتر ( ۲۱٫۸۵ میلیون). معمولاً مدلی با پارامترهای کمتر و زمان آموزشی کوتاه باید تأخیر کمتری نیز داشته باشد، زیرا مدل‌های ساده‌تر معمولاً به منابع محاسباتی کمتری نیاز دارند. این انحرافات نشان می دهد که Vgg-13-bn علیرغم پیچیدگی آن برای استنتاج بسیار بهینه شده است، در حالی که NFNet-F0 از ناکارآمدی در اجرای آن رنج می برد که علیرغم سادگی آن تاخیر را افزایش می دهد.
شکل ۲۱ زمان آموزش در مقابل تأخیر GPU را نشان می دهد. مدل ViT-Small-patch8 یک سناریوی غیرعادی را با زمان آموزش بالا ارائه می‌کند. ۱۸۴٫۶۷ ثانیه در هر دوره) اما تاخیر GPU نسبتا کم ( ۴٫۸۰ ام‌اس). معمولاً مدل‌هایی با زمان‌های آموزشی طولانی‌تر نیز به دلیل پیچیدگی، تأخیر بیشتری را نشان می‌دهند. با این حال، معماری ViT-Small-patch8 دارای مکانیسم های کارآمد برای استنتاج است که منجر به تأخیر کمتر آن علیرغم آموزش طولانی مدت می شود. از سوی دیگر، MobileFormer-508M زمان آموزش کم را نشان می دهد ( ۲۹٫۶۹ ثانیه در هر دوره) اما تاخیر GPU بالاتر ( ۱۵٫۸۴ ام‌اس). این رفتار همچنین غیر معمول است، زیرا مدل‌هایی با زمان‌های آموزشی کوتاه‌تر معمولاً معماری‌های ساده‌تری دارند که باید به تأخیر کمتری منجر شود. تأخیر بالاتر MobileFormer-508M از اجزای معماری خاصی ناشی می شود که در عین کاهش زمان آموزش، سرعت استنتاج را به طور موثر بهینه نمی کنند.
تجزیه و تحلیل زمان تمرین در مقابل حافظه تمرینی از شکل ۲۲ نشان می دهد که مدل ViT-Small-patch8 دارای زمان تمرین بالایی در هر دوره است. ۱۸۴٫۶۷ s) اما استفاده از حافظه آموزشی نسبتاً کم ( ۰٫۵۵ GB)، که غیر معمول است زیرا زمان های تمرین بالا معمولاً به دلیل پیچیدگی عملیات درگیر با استفاده از حافظه بالاتر مرتبط است. Vgg-13-bn زمان تمرین کم در هر دوره را نشان می دهد ( ۳۹٫۶۱ ) در عین حال استفاده از حافظه آموزشی بالا ( ۲٫۰۳ گیگابایت). این رفتار همچنین غیرعادی است زیرا مدل‌هایی با استفاده از حافظه بالا معمولاً شامل محاسبات گسترده و در نتیجه زمان‌های آموزشی طولانی‌تر می‌شوند. یک الگوی مشابه برای زمان آموزش در مقابل حافظه استنتاج مشاهده می شود. همانطور که در شکل ۲۳ نشان داده شده است، اندازه حافظه نیز کوچک شده است.
شکل ۲۴ حافظه آموزشی در مقابل تأخیر GPU را نشان می دهد، که در آن مدل هایی با پارامترهای بیشتر تمایل به استفاده از حافظه آموزشی و تأخیر GPU بالاتری دارند. MobileFormer-508M تاخیر GPU بالایی دارد ( ۱۵٫۸۵ ms) اما استفاده از حافظه آموزشی نسبتاً کم ( ۰٫۲۸ گیگابایت). دلیل این امر این است که معماری MobileFormer-508M دارای عملیات پیچیده ای است که علیرغم ردپای حافظه کارآمد آن باعث تأخیر می شود. Vgg-13-bn تأخیر GPU کم را نشان می دهد ( ۱٫۲۶ ms) اما استفاده از حافظه آموزشی بالا ( ۲٫۰۳ GB)، نشان می دهد که Vgg-13-bn برای اجرای سریع به قیمت افزایش مصرف حافظه بهینه شده است.
به طور کلی، استنباط و حافظه آموزشی یک مدل تحت تأثیر تعداد پارامترهای آن است. شکل ۲۵ حافظه آموزشی در مقابل حافظه استنتاج را نشان می دهد که در آن مدل هایی با پارامترهای بیشتر در طول آموزش و استنتاج به حافظه بیشتری نیاز دارند. با این حال، NFNet-F0 و AlexNet با داشتن حافظه های استنتاج کمتر و بالاتر در مقایسه با حافظه های آموزشی خود، اندکی از این رابطه تقریبا خطی منحرف می شوند.
جدول ۴ نتایج عملکرد برخی از CNN ها و ViTs با دقت بالا را برای تشخیص COVID-19 در میان تمام مدل های آموزش دیده دیگر ارائه می دهد. مدل‌ها بر اساس دقت، یادآوری و از دست دادن بالای ۱ ارزیابی شدند، با دوره‌های متناظر که بهترین عملکرد را برای هر متریک نشان می‌دهند. DenseNet-161 بالاترین دقت بالای ۱ را به دست می آورد ۹۵٫۶۱ % با یادآوری از ۰٫۹۶ ، استحکام خود را برای تشخیص های پزشکی با دقت بالا نشان می دهد، البته با افزایش پیچیدگی محاسباتی. مدل هایی مانند Vgg-13-bn و MaxVit-tiny نیز عملکرد خوبی دارند و دقت و نیازهای محاسباتی را به طور موثر متعادل می کنند.
جدول ۵ تجزیه و تحلیل دقیقی از کارایی محاسباتی CNN ها و ViTs با دقت بالا که برای تشخیص COVID-19 در میان تمام مدل های آموزش دیده دیگر استفاده می شود را ارائه می دهد. معیارهای کلیدی مانند تعداد پارامترها، عملیات انباشت چند برابر (MAC)، عملیات ممیز شناور (FLOP)، زمان آموزش در هر دوره، تأخیر CPU و GPU، و استفاده از حافظه در طول آموزش و استنتاج در بین مدل‌ها مقایسه می‌شوند. یافته‌ها بر مبادلات بین دقت و کارایی محاسباتی تأکید می‌کنند و انتخاب مدل‌های مناسب را بر اساس الزامات کاربردی خاص هدایت می‌کنند. به عنوان مثال، DenseNet-161 عملکرد قوی را برای تشخیص با دقت بالا ارائه می دهد، در حالی که مدل هایی مانند MaxVit-tiny و MobileFormer-96M به دلیل نیازهای محاسباتی کمتر، برای استقرار در زمان واقعی مناسب تر هستند. این تجزیه و تحلیل بر اهمیت در نظر گرفتن دقت و کارایی هنگام انتخاب مدل‌ها برای استقرار در طبقه‌بندی تصاویر پزشکی و سایر کارهای محاسباتی فشرده تأکید می‌کند.

نتایج نشان می‌دهد که مدل‌های با دقت بالا (دقت > ۹۰%) دارای حداقل تغییرات در معیارهای عملکرد هستند: امتیازات F1 از ۰٫۹۴ به ۰٫۹۸ یادآوری از ۰٫۹۰ به ۰٫۹۶ دقت تقریباً ثابت می ماند ۰٫۹۹ و MCC کمی متفاوت است ۰٫۰۴ به ۰٫۰۶ . این سازگاری به دلیل استحکام، بهینه‌سازی و مجموعه داده آموزشی بزرگ مدل‌ها است.

مدل‌های CNN مانند AlexNet، GoogLeNet و EfficientNet برای استخراج ویژگی به لایه‌های کانولوشنال متکی هستند. عواملی مانند عمق، عرض و اتصالات پرش (ResNet) بر عملکرد آنها تأثیر می گذارد. EfficientNet از مقیاس بندی ترکیبی برای متعادل کردن ابعاد شبکه استفاده می کند. DenseNet-161 بالاترین دقت را در ۹۵٫۶۱ % و امتیاز F1 از ۰٫۹۸ ، نشان دهنده تعادل فراخوان دقیق و قوی است که آن را برای طبقه بندی تصاویر پزشکی موثر می کند. با این حال، پیچیدگی محاسباتی بالای آن مستلزم بررسی دقیق استقرار است. در مقابل، MobileNetV2 با کمترین پارامترها (۲۲۲۷۷۱۵)، MAC و FLOP کم، حداقل زمان آموزش و تاخیر کم CPU و GPU کارآمد است و آن را برای برنامه های بلادرنگ در محیط های با منابع محدود ایده آل می کند.

یکی دیگر از مدل‌های CNN با کارایی بالا، RegNet-y-16gf، به دقت قابل ستایشی دست می‌یابد، اما تعداد پارامترها، MACها و FLOPهای آن به میزان قابل توجهی منجر به زمان‌های آموزشی طولانی‌تر و افزایش تأخیر می‌شود. این نتایج نشان می‌دهد که علی‌رغم دقت آن، این مدل ممکن است برای سناریوهایی که منابع محاسباتی یک عامل محدودکننده نیستند، مناسب‌تر باشد. مدل‌های کارآمد با حفظ عملکرد رقابتی، تقاضاهای محاسباتی نسبتاً کمتری را نشان می‌دهند.

مدل‌های ViT تصاویر ورودی را به تکه‌های با اندازه ثابت تقسیم می‌کنند، آنها را به صورت خطی جاسازی می‌کنند و با لایه‌های Transformer پردازش می‌کنند. عواملی مانند تعداد لایه ها، سرهای توجه و استراتژی توکن سازی بر عملکرد ViT تاثیر می گذارد. Max-ViT به دقت بالای ۱ دست می یابد ۹۵٫۰۲ % اما با پارامترهای بالاتر، MAC ها و FLOP ها، نشان دهنده یک مبادله بین دقت و هزینه محاسباتی است. MobileFormer، با دقت رقابتی ( ۹۴٫۱۵ % ) و پارامترهای کم، به یکی از کوتاه ترین زمان های تمرین در هر دوره دست می یابد ( ۱۷٫۶۱ s)، آن را برای برنامه های بلادرنگ ایده آل می کند.

با مقایسه عملکرد کلی مدل‌های CNN و ViT، یافته‌ها نشان می‌دهد که مدل‌های ViT به دلیل مکانیسم توجه به خود، که شامل پردازش کل توالی به طور همزمان است، زمان‌های آموزشی طولانی‌تری دارند. CNN ها، به خصوص آنهایی که کوچکتر هستند، سریعتر همگرا می شوند. با این حال، دقت مدل‌های ViT با پیکربندی مناسب می‌تواند با CNN‌ها قابل رقابت باشد. مدل‌های ViT می‌توانند زمینه جهانی را بیاموزند، و آنها را برای کارهایی مناسب می‌سازد که درک کل ورودی‌ها بسیار مهم است. در عین حال، CNN ها به دلیل استخراج ویژگی سلسله مراتبی خود شناخته می شوند که می تواند برای گرفتن الگوهای محلی مفید باشد.

مدل‌های ViT معمولاً MAC و FLOP بالاتری نسبت به CNN نشان می‌دهند، زیرا ViT کل تصویر را به‌عنوان دنباله‌ای از وصله‌ها پردازش می‌کند و نیازهای محاسباتی را افزایش می‌دهد. از سوی دیگر، CNN ها طراحی های کارآمدتری از نظر پارامتر را نشان می دهند و در مقایسه با برخی از مدل های ViT به عملکرد رقابتی با پارامترهای کمتر دست می یابند. علاوه بر این، CNN ها در طول استنتاج CPU و GPU نسبت به مدل های ViT تاخیر کمتری دارند، تا حدی به دلیل ماهیت پردازش متوالی ViT ها، که می تواند منجر به زنجیره های وابستگی طولانی تر شود. مدل‌های ViT اغلب نیاز به آموزش و حافظه استنباط بالاتری دارند زیرا وصله‌های تصویر را به طور مستقل پردازش می‌کنند و در نتیجه نمایش‌های میانی مهم‌تری را به همراه دارند.

این نتایج از تصمیم گیری در مورد اینکه کدام مدل ممکن است بر اساس نیازهای محاسباتی، مصرف حافظه و عملکرد مناسب موارد استفاده خاص باشد، پشتیبانی می کند. ساختار سلسله مراتبی و لایه‌ای CNN و مکانیسم خودتوجهی ViTs این مدل‌ها را قادر می‌سازد تا به عملکرد پیشرفته‌ای در وظایف طبقه‌بندی تصویر COVID-19 CXR دست یابند. با این حال، با رشد مجموعه داده‌ها و پیچیده‌تر شدن وظایف، محدودیت‌های رویکرد کانولوشنال سنتی و چالش‌های ادغام ترانسفورماتورها در بینایی رایانه باید از طریق تحقیق و توسعه مستمر برطرف شوند.


منبع: https://www.mdpi.com/2673-2688/5/3/56

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *