هوش مصنوعی | متن کامل رایگان | استفاده از تشخیص Yolo برای ردیابی وضعیت سه بعدی کاتترهای قلبی با استفاده از فلوروسکوپی Bi-Plane

۱٫ معرفی

بیماری های قلبی عروقی عامل اصلی مرگ و میر در سراسر جهان است [۱]. برای کاهش تهاجمی روش ها، روش های هدایت تصویری در زمینه های مختلف از جمله مداخلات قلبی عروقی پیشنهاد شده است. [۲]. کاتتریزاسیون قلبی در بزرگسالان، نوعی از جراحی کم تهاجمی (MIS)، به ردیابی دقیق و ارزیابی موقعیت مکانی کاتترهای زایمان و دستگاه‌های قلبی بستگی دارد. این می تواند بر تعداد بیماران قلبی و پیامدهای نامطلوب احتمالی در این نوع MIS یا مداخلات تأثیر بگذارد [۳]. برای این منظور، فناوری‌های واقعیت افزوده و ترکیبی در روش‌های هدایت‌شده با فلوروسکوپی به کار گرفته شده‌اند تا به پزشکان در تشخیص و ردیابی کاتتر کمک کنند. [۴].

ورنر فورسمن یکی از اولین کسانی بود که ردیابی کاتتر را معرفی کرد که در اصل بخشی از رادیولوژی مداخله ای بود. از آن زمان، مداخلات قلبی از تجسم مستقیم کاتترها در مانیتورهای دو بعدی برای درک و پیش‌بینی موقعیت کاتتر در بدن بیمار استفاده کرده‌اند. با این حال، با توجه به این واقعیت که فلوروسکوپی فقط یک تصویر دو بعدی از موقعیت کاتتر را ارائه می دهد، لازم است پزشک از زوایای مختلف کاتتر را مشاهده کند تا موقعیت سه بعدی آن را به طور کامل تفسیر کند. این محدودیت منجر به استفاده از راهنمایی اولتراسوند برای تجسم مستقیم بافت قلبی نسبی کاتتر شده است که در فلوروسکوپی قابل مشاهده نیست.

تحقیقات اخیر جهت جدیدی را بر اساس تکنیک های کلاسیک و یادگیری عمیق برای تشخیص شکل سه بعدی کاتترها در تصاویر اولتراسوند ارائه کرده است. یک رویکرد یک معماری UNet-3D با توانایی محلی سازی مرکز کاتتر در هر فریم را پیشنهاد می کند. با این حال، این روش به مجموعه آموزشی متنوعی بستگی دارد [۵]. در مطالعه دیگری که بر اساس کاتتریزاسیون قلبی با هدایت تشدید مغناطیسی قلبی عروقی (CMR) انجام شد، محققان از تکنیک T1-overlay برای بهبود تجسم کاتتر استفاده کردند. این خود منجر به رتبه بندی خون/بالون بالاتر، تجسم آناتومی و بهبود هدایت iCMR متخصصان قلب شد. [۶]. محققان همچنین یک شبکه عصبی عمیق کانولوشن برای تشخیص ناحیه مورد علاقه حاوی نوک کاتتر و سپس یک تکنیک تشخیص تفاوت شدت رنگ برای تشخیص کاتتر طراحی کردند. این روش در ۹۴ درصد از پیش بینی های محور بلند موفقیت آمیز بود. با این حال، تنها ۵۷٪ موفقیت در برآمدگی های محور کوتاه داشت که نیاز به شناسایی دستی موقعیت اولیه کاتتر داشت. [۷]. علاوه بر این، در مطالعه ای که بر روی بهبود وضوح فضایی ضعیف در تصاویر اولتراسوند برای مداخلات قلبی انجام شد، محققان از یک مدل UNet-3D برای تخمین شکل سه بعدی کاتتر استفاده کردند. از یک فیلتر کالمن تطبیقی استفاده شد و نقاط مربوط به سیستم مختصات سه بعدی ترکیب شدند. علیرغم ادعای نویسندگان در مورد دقت رویکرد خود، آنها همچنین اظهار داشتند که نتایج آنها می تواند از خروجی های متعدد ارائه شده توسط مدل و استفاده از مجموعه داده های متنوع تر بهره مند شود. [۶].

از نظر ردیابی کاتتر یا سیم راهنما برای تصاویر فلوروسکوپی [۵,۸,۹,۱۰,۱۱,۱۲,۱۳,۱۴]، ورنیکوسکایا و همکاران یک شبکه عصبی کانولوشن (CNN) با دو کانال طراحی کرد که برای ردیابی سرعت نوک کاتتر استفاده شد و یک روش ردیابی تک نقطه ای در نظر گرفته شد. [۱۳]. حرکت بر اساس تطبیق الگوی تصاویر فلوروسکوپی دوبعدی شناسایی شد. داده های آموزشی با ردیابی نوک کاتتر با سرعت سریع تولید شد. با این حال، نمودارهای نقشه حرارتی نشان داد که نوک کاتتر مورد توجه نیست، و توجه CNN را بر روی دیافراگم گسترش داد. [۱۳]. در مطالعه دیگری، محققان نیروی خارجی اعمال شده بر نوک یک کاتتر مسطح را از طریق الگوریتم های پردازش تصویر بر اساس برش و تشخیص لبه و به دنبال آن یک نمایش کاتتر ریاضی تخمین زدند. جنگل تصادفی و شبکه های عصبی عمیق (DNN) برای تخمین نیرو استفاده شد. علیرغم ارائه نتایج امیدوارکننده، نویسندگان نیاز به مجموعه داده گسترده تر را به دلیل وجود آثار نادرستی در مجموعه اعتبار سنجی ذکر کردند. [۸].

تحقیقات ما نشان می‌دهد که چگونه بینایی رایانه و تکنیک‌های اخیر یادگیری ماشین بر تشخیص و ردیابی تصاویر پزشکی تأثیر گذاشته‌اند. در رگرسیون مختصات، جایی که هدف پیش‌بینی تعداد ثابتی از مختصات مکان مربوط به نقاط مورد علاقه در یک تصویر ورودی است، نتایج امیدوارکننده مختلفی ارائه شده‌اند. این در ارتباط با واقعیت افزوده، سیستم‌های هدایت تصویر و MIS برای مداخلات قلبی آشکارتر است. [۱۵]. دو مطالعه منتشر شده در سال ۲۰۲۳ [۱۶] و ۲۰۲۱ [۱۷] تمرکز بر روی استفاده از راه حل های یادگیری عمیق برای تشخیص موقعیت نوک کاتتر که از تصاویر فلوروسکوپی دو صفحه ردیابی می شود. تورابینیا و همکاران یک مدل U-Net طراحی کرد که بر روی ماسک هایی از نشانگر رادیویی مات نوک کاتتر آموزش دیده بود. ماسک کردن یک تکنیک پردازش تصویر برای پنهان کردن قسمتی از یا کامل تصویر است. سپس این منطقه با بخش های حقیقت زمین مقایسه می شود، که در این مورد منجر به تقاطع ۸۳٫۶۷٪ بر روی اتحادیه (IOU)، تاس، یا ۰٫۸۴۵۷ شد. [۱۷]. در سال ۲۰۲۲ [۱۸]مطالعه دیگری در مورد مکان یابی کاتتر و تشخیص نوک با استفاده از مدل U-Net انجام شد. بیان شد که اگرچه دقت بازسازی ۸۰٪ به دست آمد، اما مواردی وجود داشت که نوک تشخیص داده نمی شد و در نتیجه نیاز به برون یابی وجود داشت. به دنبال این مطالعه، ر. [۱۶] منتشر شد که یک شبکه عصبی VGG آبشاری عمیق را برای تشخیص نوک کاتتر با ابتدا یادگیری و مکان یابی نوک در یک شبکه و سپس شناسایی مختصات نوک محلی و جهانی اعمال کرد. [۱۶]. محققان بیان کردند که اگر مناطق انتخاب نادرست حذف شوند، مدل می تواند میانگین خطای ۷٫۳۶ پیکسلی را ارائه دهد.

در شناسایی وضعیت کاتتر، یکی دیگر از جنبه‌های روش‌شناسی ما، پیشرفت‌های مبتنی بر یادگیری عمیق وجود دارد. تخمین پوس، مکان‌یابی نقاط عطف متعددی را که در رابطه با حالت انسان شناسایی می‌شوند، امکان‌پذیر می‌سازد. تشخیص وضعیت بدن را در یک تصویر فراهم می کند و امکان تشخیص و ردیابی عملکرد انسان را فراهم می کند. برای شناسایی ژست، نقاط شاخص شناسایی شده و سپس گروه بندی می شوند تا یک تخمین پوز معتبر ارائه شود. DeepPose یکی از اولین روش هایی بود که شامل تلاقی یادگیری عمیق و تخمین ژست انسان بود. متعاقبا، چندین شبکه ستون فقرات، مانند AlexNet [19] با برنامه های افزودنی شامل R-CNN، Fast-CNN، و FPN، و به دنبال آن VGG [20] و ResNet [21]و همچنین دیگر معماری های ستون فقرات با ResNet [21]نتایج دقیق تری ارائه کرده اند و توانسته اند بر چالش ناپدید شدن شیب ها غلبه کنند [۲۲]. برخی از آنها در مورد آرتروپلاستی زانو و استفاده از شبکه‌های عصبی کانولوشن برای محاسبات پوز در حسگرهای ناوبری انجام شده‌اند که اختلاف ریشه میانگین مربع کمتر از ۰٫۷ میلی‌متر و ۴ درجه برای نتایج آزمایش و ۰٫۸ میلی‌متر و ۱٫۷ درجه برای نتایج اعتبارسنجی گزارش شده است. [۲۳]. راویگوپال و همکاران شاخص ژاکارد (IOU) را در بخش بندی سیم راهنما گزارش کرد [۱۴]. ResNet-50 [21] قادر به ارائه ۰٫۶۵ IOU در شکل سیم راهنما بود، اگرچه نوک دارای IOU 0.51 بود که از ResNet-18 برتری داشت. [۲۱]فشار دادن [۲۴]MobileNetv2 [25]Inception-ResNetv2 [26]و FCN-2s [14]. الگوریتم ۰٫۹۹ IOU برای پس زمینه داشت. کمترین خطای نهایی آنها پس از پیمایش برای سکته تاندون ۰٫۲۳ میلی متر در آزمایش ۳، برای طول خمشی ۱٫۰۲ میلی متر و برای تغذیه مرحله ۰٫۱۸ میلی متر در آزمایش ۱ بود.

برای پرداختن به تمام محدودیت‌های موجود در مطالعات کنونی و ارائه مبنایی برای تشخیص و ردیابی کاتتر، ما یک ستون فقرات جعبه مرزی را پیشنهاد می‌کنیم. در سال‌های اخیر چندین روش جعبه‌بندی پیشرفته با عبارت «فقط یک بار نگاه می‌کنی» معرفی شده‌اند (Yolo) [27] الگوریتم در خط مقدم روش های تشخیص اشیا. این متدولوژی Darknet را به عنوان چارچوب ستون فقرات با چندین تنظیم به دست می‌آورد که تشخیص جعبه‌های حاشیه‌دار مبتنی بر شبکه را امکان‌پذیر می‌سازد. [۲۸]. این روش‌ها نتایج نمونه‌ای را برای تشخیص/دستگاه‌های طراحی به کمک رایانه (CAD) در زمینه پزشکی ارائه می‌دهند، از تشخیص ضایعات در ماموگرافی. [۲۸,۲۹]تشخیص ندول ریه در سی تی اسکن [۳۰]و تقسیم بندی تومور مغز در MRI [31] برای ردیابی سوزن های نامرئی در توالی اولتراسوند [۳۲] و تشخیص سنسورهای EMT در تصاویر اشعه ایکس [۳۳]. در مورد ماموگرافی، الگوریتم Yolo قادر به تشخیص و طبقه بندی ناهنجاری ها بود و به رادیولوژیست ها در تشخیص زودهنگام سرطان سینه کمک می کرد. در این راستا، محققان Yolo را روی تلفیقی از نمونه‌های واقعی و مصنوعی برای پیش‌بینی ناحیه مورد نظر ضایعه توده‌ای استفاده کردند. مدل آنها توانست حداکثر دقت ۹۳ درصد را در ماموگرافی با ضایعات توده ای، ۸۸ درصد با ضایعات کلسیفیکاسیون و ۹۵ درصد با ضایعات اعوجاج معماری را در ۰٫۶۲ ثانیه در حالت استنتاج به دست آورد. [۲۸]. کرومب و همکاران با استفاده از YoloV5 یک حسگر EMT را در اشعه ایکس به دلیل موفقیت گسترده آن در تقسیم بندی تصویر شناسایی کرد. از طریق آن، آنها مرکز جعبه مرزی را که حسگر بود، شناسایی کردند و با استفاده از یک شبکه از پیش آموزش دیده روی MSCOCO و اعمال آن در مجموعه ۲۱۴ نمونه ای خود، به ۰٫۹۵۵ mAP50 و ۰٫۵۱۲ mAP50-95 دست یافتند. [۳۳]. با توجه به کاربرد الگوریتم‌های Yolo، ما هیچ نشانه‌ای از هیچ مطالعه‌ای در مورد کاربرد رویکرد Yolo و ردیابی کاتتر در تصاویر فلوروسکوپی نیافتیم.

در این مقاله، ما یک روش مبتنی بر جعبه مرزی برای ردیابی کاتتر در تصاویر فلوروسکوپی معرفی می‌کنیم که چهار دسته از کاتتر را شناسایی می‌کند: نقطه ورود، خم، نشانگر رادیویی مات، و نوک. برای این منظور، ما از Yolo به عنوان یک روش جعبه محدود کننده پیشرفته برای شناسایی مناطق شاخصی که مجموعه پوز جهت گیری کاتتر را تشکیل می دهند، استفاده می کنیم. پس از یافتن، سانتروئیدهای جعبه مرزی شناسایی می شوند تا درک موقعیت کاتتر در رابطه با سیستم مختصات تصویر را امکان پذیر کنند. به طور خلاصه، مشارکت های ما به شرح زیر است:

بهبود دقت با استفاده از معماری Yolo برای تشخیص اشیا.
جعبه مرزی مبتنی بر یادگیری عمیق، تخمین کاتتر، شامل چهار دسته از ویژگی های برجسته، یعنی نوک کاتتر، نشانگر رادیویی مات، خم شدن، و ورودی، برای استفاده در آینده در سیستم های ردیابی کاتتر را نشان می دهد.
مجموعه داده‌های متنوع کاتتر با کادر کامل و حاشیه‌نویسی پیکسلی نماینده.

۲٫ مواد و روشها

در این بخش، یک روش گام به گام را توضیح می دهیم (با یک نمای شماتیک ارائه شده در شکل ۱ برای تشخیص ۴ نقطه برجسته کاتتر با استفاده از جعبه های محدود کننده برای استخراج حالت سه بعدی کاتتر). در این بخش جمع‌آوری داده‌ها، پیش‌پردازش، شبکه عصبی عمیق Yolov5 برای تشخیص جعبه مرزی و پس‌پردازش برای تشخیص حالت سه‌بعدی بحث می‌شود.

جمع‌آوری داده‌ها: داده‌های تصویر کاتتر در دو جلسه تحت نظارت پزشک، با تنظیمات عملیاتی مختلف از نظر هندلینگ، مانور و موقعیت در آزمایش‌ها جمع‌آوری شد و شامل دو مجموعه داده بود. یک مجموعه داده شامل ۵۲۹ نمونه فلوروسکوپی بود که قبلا جمع آوری شده بود [۱۶] با قلب سفارشی ساخته شده با پرینت سه بعدی و ستون فقرات فلزی رنگ آمیزی شده با اسپری برای ایجاد دید در زیر اشعه ایکس، که در طی یک روش ساختگی در آزمایشگاه کاتتریزاسیون جمع آوری شده است. لازم به ذکر است که قلب پرینت سه بعدی، ستون فقرات فلزی رنگ آمیزی شده با اسپری و کاتتر در یک جعبه اکریلیک قرار داشتند، بنابراین مصنوعات اضافی در تصویر ایجاد می شود که در تصاویر بالینی وجود ندارد.

مجموعه داده دوم شامل ۹۰۰ تصویر فلوروسکوپی بدون قلب پرینت سه بعدی و ستون فقرات فلزی رنگ آمیزی شده با اسپری است که برای امکان ارزیابی تولید مختصات سه بعدی کاتتر و تعمیم مجموعه داده ایجاد شده است و تصاویر متنوعی تولید می کند، زیرا این ویژگی ها ممکن است یا ممکن است در تصاویر بالینی وجود نداشته باشد. این مجموعه نمونه با استفاده از تنظیمات سفارشی ساخته شده در شکل ۲ جمع آوری شده است.

این مجموعه داده شامل نمونه های جفت شده، شامل ۴۵۰ تصویر فلوروسکوپی از نمای LAO90 و ۴۵۰ تصویر فلوروسکوپی از نمای AP بود. دو نمای متناظر از نمونه ها در مجموعه داده دوم در کنار مجموعه داده اول در شکل ۳ ارائه شده است.

تصاویر از هر دو مجموعه داده دارای وضوح ۵۱۲ × ۵۱۲ بودند. نوک کاتتر، نشانگر مات رادیویی، ورودی، و خم به وضوح در تمام تصاویر هر دو مجموعه داده قابل مشاهده بود، با کاتتر که در تمام محدوده تصویر حرکت می کند.

پیش پردازش: در مرحله پیش پردازش، مجموعه با ۵۲۹ نمونه حذف شد و همانطور که در مرحله حاشیه نویسی و پردازش است استفاده شد. با این حال، در مجموعه ۹۰۰ نمونه، LAO90 و AP، همانطور که در شکل ۴ نشان داده شده است، بریده شدند تا کره های مورد استفاده برای تراز کردن قاب ها (که در کاربردهای بالینی استفاده نمی شوند) حذف شوند. نتایج و تبدیل مختصات به تنظیمات اصلی در بخش پس پردازش مورد بررسی قرار می گیرد، جایی که مختصات دو صفحه را تجزیه و تحلیل می کنیم تا خروجی سه بعدی نهایی را هم در پیکسل و هم در میلی متر مشخص کنیم.

پردازش تصویر Yolo: روش ما از روش جعبه مرزی مبتنی بر یادگیری عمیق به نام Yolov5 استفاده می کند. این الگوریتم از طریق کتابخانه PyTorch پیاده‌سازی شد و داده‌ها از طریق بارگذارهای داده در ۶۴ دسته بر روی یک سرور GPU بدون هیچ‌گونه پیش‌آموزشی آموزش داده شدند. یولو [۲۷] معماری برای اولین بار در سال ۲۰۱۶ به عنوان یک رویکرد جدید در تشخیص اشیا طراحی و معرفی شد. اندازه تصاویر را به ۴۴۸ × ۴۴۸ تغییر می‌دهد و سپس یک شبکه کانولوشنیک مختصات را از جعبه‌های مرزی متعدد و احتمال کلاس آنها را پیش‌بینی می‌کند و بر روی کل تصویر در زمان واقعی تمرکز می‌کند. مختصات بر اساس بعد تصویر اصلی به محل اصلی خود تبدیل می شوند. شبکه تصویر را به شبکه‌هایی تقسیم می‌کند و اگر مرکز شی در سلول شبکه قرار گیرد، آن سلول به عنوان منطقه شی شناسایی می‌شود. معماری Yolo شامل استفاده از معماری DarkNet متصل به شبکه‌های عصبی کاملاً متصل (FCNN) است. هر تصویر به شبکه‌های n به n تقسیم شد و کادرهای محدودکننده برای هر شبکه بر اساس یادگیری شبکه برگردانده شد.

ستون فقرات شبکه ما شامل ۱۸۲ لایه و ۷۲۵۴۶۰۹ پارامتر است. همه مجموعه داده ها به ترتیب به سه گروه آموزش، اعتبار سنجی و مجموعه آزمون با ۶۵ درصد، ۱۸ درصد و ۱۷ درصد تقسیم شدند. این شبکه در Python 3.10، Torch 2.0.1 و بر روی یک GPU در Google's Colab پیاده سازی شده است. استنتاج نیازی به استفاده از GPU نداشت و شبکه را می‌توان بر روی CPU اجرا کرد، اما در صورت استفاده، زمان استنتاج را کاهش می‌داد. قبل از آموزش یا آزمایش، تمام نمونه‌های آموزشی، اعتبارسنجی و آزمون به وضوح ۴۱۶ × ۴۱۶ تغییر اندازه داده شدند و سپس در پایان به اندازه اصلی خود تبدیل شدند. برای مجموعه داده ترکیبی، که بزرگترین مجموعه بود، مدل را با ۳۲ دسته در ۳۰۰ دوره در ۵۵ دقیقه و ۳۷٫۵ ثانیه آموزش دادیم. با این حال، زمان استنتاج ۰٫۲۵۶ ثانیه بود.

ما سه آزمایش را روی سه مجموعه آموزشی، اعتبار سنجی و آزمایش انجام دادیم. در اولین آزمایش خود، ما فقط از ۹۰۰ مجموعه نمونه جفت استفاده کردیم. در آزمایش‌های دوم و سوم، ما از مجموعه داده‌های نمونه جفتی ۹۰۰ متشکل از صفحات AP و LAO90 در ترکیب با ۵۲۹ مجموعه نمونه جفت‌نشده استفاده کردیم و مدل را روی نمونه‌های ترکیبی و زوجی آزمایش کردیم. این برای ارائه ورودی متنوع تری به الگوریتم یادگیری مدل در نظر گرفته شد. برای استنباط آزمایش سوم، ۱۳۴ نمونه را وارد کردیم که از مجموعه داده های جفت شده به وضوح ۴۱۶ × ۴۱۶ تغییر اندازه دادیم و آن را در مدل بر اساس وزن های ذخیره شده در بهترین نقطه بازرسی (ایست بازرسی محترم که در طول تمرین بر اساس بهبود تناسب اندام مدل به روز شد) اجرا کردیم. ). پس از آن، ما بالاترین اطمینان را برای ذخیره در فرهنگ لغت نتایج تعیین کردیم. ما یک آستانه اطمینان برای هر کلاس (نوک، نشانگر رادیو مات، خم، و ورودی) شناسایی کردیم که به ترتیب ۱۲۷، ۱۲۹، ۱۰۵ و ۱۱۳ نمونه به دست آمد.

پس پردازش: در مرحله آخر، از همه برچسب های پیش بینی و حقیقت زمین برای شناسایی مرکز جعبه های مرزی، محاسبه میانگین و انحراف استاندارد پیش بینی در مقابل حقیقت زمین، و تولید مختصات سه بعدی LAO90 و AP bi- جفت شده استفاده کردیم. نمونه های صفحه در هر دو پیکسل و میلی متر (میلی متر). هماهنگی سه بعدی بر اساس محورهای XYZ با توجه به موقعیت نقاط روی دو صفحه AP و LAO90 از نقطه نظر هندسه محاسبه شد.

۳٫ نتایج و بحث

در این کار، ما نشان می‌دهیم که چگونه روش جعبه مرزی، بر اساس معماری Yolov5 بدون هیچ گونه یادگیری تقویت یا انتقال، می‌تواند دقت رگرسیون مختصات را برای تشخیص نقطه عطف یک کاتتر برای هر نمای فلوروسکوپی دو صفحه‌ای بهبود بخشد. این روش شامل یک شبکه عصبی عمیق منفرد و به دنبال یک تکنیک پس پردازش برای تشخیص مکان سه بعدی ورود، خم، نشانگر و نوک از صفحات LAO90 و AP، بر اساس جعبه‌های مرزی شناسایی‌شده است. در ادامه، نتایج هر سه آزمایش و هر کلاس و میانگین و انحراف معیار آن را علاوه بر دقت سه بعدی آن مورد بحث قرار خواهیم داد. در برخی از نمونه ها هیچ گونه خمشی مشخص نشد و به همین دلیل تصویر مذکور را از نتایج خم حذف کردیم.

۳٫۱٫ آزمایش ۱ – مجموعه داده AP LAO90 جفت شده

مجموعه داده جفت شده AP-LAO90 شامل ۹۰۰ نمونه بود که دو نما را نشان می داد: LAO90 و AP. هر نما شامل ۴۵۰ تصویر بود. تصاویر حاوی کاتتر بودند و در مرحله پیش پردازش برش داده شدند تا کره های موجود در تصویر حذف شوند. این مدل قادر به دستیابی به دقت ۰٫۹۶۱ و ۰٫۹۵۳ و فراخوانی برای همه کلاس ها با mAP50 0.95 و mAP50-95 از ۰٫۵۰۷ بود. کلاس با بالاترین mAP50 نشانگر با نرخ دقت ۱ برای مجموعه آموزشی، نرخ یادآوری ۰٫۹۷۹ و امتیاز mAP50 0.995 بود، در حالی که نتایج تمرین برای نوک کمترین دقت، یادآوری و maP50 را با ۰٫۹۲۷ ارائه کرد. ، به ترتیب ۰٫۹۱۱ و ۰٫۹۰۴ مقادیر. ورودی و نکته نتایج را به ترتیب با امتیاز ۰٫۹۶۹ و ۰٫۹۳۴ mAP50 در جایگاه دوم و سوم قرار دادند. برای کلاس نشانگر، ما تفاوت معنی‌داری بین نمونه‌های مبتنی بر آستانه و همه نمونه‌های آزمایشی پیدا نکردیم. میانگین فاصله اقلیدسی مبتنی بر پیکسل زوجی بین حقایق زمینی (GTs) و پیش‌بینی‌ها ۱٫۰۱۶ با انحراف استاندارد ۰٫۶۶۱ بود، با حداکثر فاصله تقریباً ۳ پیکسل در بین همه نمونه‌های آزمایشی. آستانه یک میانگین ۰٫۹۹۹ با انحراف استاندارد ۰٫۶۴۸ و همان تقریب حداکثر فاصله با آنچه در همه نمونه‌های آزمایشی یافت شد، ارائه کرد. با این حال، برای نوک، خم، و ورودی، اعداد بیشتر متفاوت است، با آستانه تاثیر بر میانگین فاصله، انحراف استاندارد، و حداکثر فاصله.

۳٫۲٫ آزمایش ۲ – مجموعه داده ترکیبی، آزمایش شده بر روی یک مجموعه آزمایش ترکیبی

در آزمایش دوم، از مجموعه داده ترکیبی متشکل از ۹۰۰ نمونه جفتی LAO90 و AP و ۵۲۹ نمونه ثبت شده با قلب و ستون فقرات با چاپ سه بعدی استفاده کردیم که به دقت ۰٫۹۲۷ و فراخوانی ۰٫۹۰۸ برای همه کلاس ها در طول آموزش دست یافتیم. mAP50 0.913 و mAP50-95 0.467 بود. کلاس با بالاترین mAP50 نشانگر بود، با نرخ دقت ۱ برای مجموعه تمرین و نرخ یادآوری ۰٫۹۸۴، در حالی که نتایج تمرین برای خم، کمترین دقت، یادآوری و maP50 را با مقادیر ۰٫۸۶۵ ارائه می‌دهد. به ترتیب ۰٫۸۰۱ و ۰٫۸۴۸٫

۳٫۳٫ آزمایش ۳ – مجموعه داده ترکیبی، فقط روی مجموعه داده های جفت شده آزمایش شده است

به عنوان یک آزمایش اضافی، ما از مدل فقط بر روی نمونه‌های جفت مشتق شده از نماهای جفت شده LAO90 و AP استفاده کردیم. ما خطا را برای آزمایش‌های ۲ و ۳ تجزیه و تحلیل کردیم. جعبه محدودکننده نشانگر بالاترین تشخیص را در بین همه جعبه‌ها داشت، و در نتیجه نمونه‌های بیشتری با مختصات نماینده جعبه مرزی مربوطه شناسایی شدند.

۳٫۴٫ تجزیه و تحلیل نتایج

همانطور که در جدول ۱ مشاهده می شود، نتایج برای هر جعبه مرزی بر اساس سه آزمایش ذکر شده در بخش ۳٫۱، بخش ۳٫۲ و بخش ۳٫۳، بر اساس آستانه انتخاب شده برای هر کلاس ارائه شده است.

در آزمایش ۱، ورودی کمترین فاصله متوسط اقلیدسی را داشت (۰٫۲۳۵ میلی متر در مرحله تشخیص سه بعدی) و به دنبال آن نشانگر، نوک و در نهایت کلاس خمش قرار داشت. لازم به ذکر است که در حین تمرین، تشخیص نشانگر بیشترین دقت را داشت و به دنبال آن ورودی، خم شدن و نوک قرار گرفتند.

در آزمایش ۲، ما هر دو مجموعه داده را ترکیب کردیم و مدل را بر روی داده‌های دو صفحه‌ای جفت‌نشده تحلیل کردیم. در این آزمایش، کلاس نشانگر با فاصله اقلیدسی ۱٫۰۰۹ پیکسلی بین پیش‌بینی و حقیقت زمین (GT) از همه کلاس‌های دیگر بهتر عمل کرد. ما معتقدیم که این اتفاق به دلیل دریافت الگوریتم برای یافتن شبکه‌هایی است که به بهترین شکل آن کلاس را نشان می‌دهند، و در برخی موارد، از آنجایی که خم قبل از ورود رخ داده است، الگوریتم سعی کرد نشانه‌هایی از خمش را در نمونه پیدا کند. هنگامی که خم وجود نداشت، به طور قابل اعتمادی تشخیص داده نشد، که نشان دهنده ویژگی مدل است. علاوه بر این، الگوریتم در تشخیص خمیدگی در تصاویری که زاویه خمش کوچک بود، موفق بود که نشانگر دیگری از دقت مدل است. ورودی بالاترین دقت را داشت زیرا کاتتر از طرفین وارد تصویر می شد، که یادگیری آن را برای مدل کمتر چالش برانگیز می کرد.

در آزمایش ۳، ما از مدل آموزش داده شده در هر دو مجموعه داده استفاده کردیم و آن را فقط بر روی نمونه های جفت شده آزمایش کردیم. نتایج نشان می‌دهد که ورودی کمترین فاصله را داشته و به دنبال آن نشانگر و نوک قرار دارد. مشخص شد که خم پیش بینی بالاتری از فاصله GT دارد. لازم به ذکر است که گریدها بر اساس رابطه آنها با سایر شبکه ها، شناسایی همسایگان موثر احتمالی و تمایز بین کلاس هدف و سایر طبقات مورد تجزیه و تحلیل قرار گرفتند. با مقایسه نتایج آزمایش‌های ۱ و ۳ در جدول ۱، می‌توان استنباط کرد که همه کلاس‌ها، به جز کلاس خم، از افزایش تعداد و تنوع مجموعه داده‌ها بهره‌مند شده‌اند. دو نمایش سه بعدی از نماهای LAO90 و AP در شکل ۵ ارائه شده است که ورودی، خم، نشانگر و نوک به ترتیب در جعبه های مرزی قرمز، سبز، آبی و بنفش ارائه شده اند.

به عنوان بخشی از تحلیل تطبیقی خود، روش پیشنهادی آقاسی زاده و همکاران را آزمایش کردیم. [۱۶] بر اساس همان مجموعه داده جفت شده. نتایج در جدول ۲ نشان داده شده است. همانطور که برای هر چهار کلاس مشاهده می شود، روش ما از معماری آبشاری VGG ارائه شده توسط آقاسی زاده و همکاران بهتر عمل می کند. [۱۶] در هر دو میانگین و انحراف استاندارد دقت، با توجه به فاصله اقلیدسی سه بعدی بین پیش‌بینی‌ها و برچسب‌ها. به غیر از یافته‌های فوق، روش ما می‌تواند پیش‌بینی دقیقی با خطای کمتر از ۰٫۳ (میلی‌متر) برای نوک، نشانگر و ویژگی‌های نقطه عطف ورودی و تقریباً ۰٫۴۲ (میلی‌متر) خطا برای خمیدگی ارائه دهد. منجر به چهار مختصات سه بعدی مجزا برای تشخیص و ردیابی وضعیت کاتتر می شود.

۳٫۵٫ محدودیت ها

فراتر از بهبود جهت گیری سه بعدی کاتتر، محدودیت هایی وجود دارد که باید در کارهای آینده و تنظیمات دنیای واقعی مورد توجه قرار گیرند. اول و مهمتر از همه، مجموعه داده های به دست آمده بر اساس مدل های چاپ سه بعدی و تنظیمات آزمایشی در آزمایشگاه هستند و پیشینه بالینی واقعی ندارند. این رویکرد اولین رویکرد پایه برای تشخیص و ردیابی کاتتر را ارائه می دهد. مجموعه داده های متنوع تری شامل تنظیمات واقعی در یک روش کاتتریزاسیون با تمام نماهای تصویربرداری و تعاملات کاتتر با بافت برای تایید کامل عملکرد مدل مورد نیاز است، اما ما انتظار داریم که این رویکرد سازگار باشد زیرا نماهای تصویربرداری و حالت های مختلف انتظار نمی رود. به طور قابل توجهی با موارد موجود در مجموعه داده فعلی متفاوت است. دوم، مدل فعلی باید برای انواع دیگر کاتترها نیز اعمال شود و همچنین با سایر روش‌های تصویربرداری مانند CT و اولتراسوند ترکیب شود تا اطمینان حاصل شود که آیا نیاز به تنوع بیشتری در مجموعه داده‌ها وجود دارد یا خیر، و در نتیجه کاربرد این تحقیق بر روی مجموعه داده های متنوع تر و تجزیه و تحلیل آن در زمان واقعی. ثالثاً، نمونه‌هایی وجود دارند که در آنها تصویر دارای خمیدگی نیست، چه به دلیل حالت مستقیم در کاتتر یا به دلیل عدم وجود خم در تصویر. در این موارد، به سادگی می توان نقطه میانی بین نشانگر و ورودی را به صورت تحلیلی محاسبه کرد و تقریبی برای خمیدگی در نظر گرفت تا کلاس از دست رفته برای تشخیص پوس برآورده شود. در نهایت، در صورت نیاز به دقت بالاتر، آزمایش‌ها ممکن است از کاربرد یادگیری انتقال و برنامه‌نویسی موازی بر روی تصاویر پزشکی برای تجزیه و تحلیل و مقایسه بیشتر، علاوه بر استفاده از تکنیک‌های تقویت داده‌ها بهره ببرند. این مدل همچنین می تواند در معرض مجموعه پیچیده تری از تصاویر با نرخ مصنوعات بالاتر قرار گیرد تا قابلیت تعمیم آن بهبود یابد.

منبع: https://www.mdpi.com/2673-2688/5/2/44