۳٫۱٫ استراتژی تحقیق
پس از تولید پیشبینیها توسط مدلها، هر پاسخ به طور سیستماتیک با تشخیصهای واقعی مرتبط با توضیحات علائم ارائهشده مقایسه شد. این ارزیابی با استفاده از یک رویکرد تشخیصی صفر شات انجام شد، که در آن مدلها پیشبینیهایی را بدون تنظیم دقیق قبلی یا سفارشیسازی دامنه خاص انجام دادند. عملکرد با استفاده از معیارهای کلیدی، از جمله دقت، یادآوری، و امتیازات F1 ارزیابی شد که امکان ارزیابی جامع دقت تشخیصی را فراهم میکرد. رویکرد سیستماتیک نه تنها امکان شناسایی نقاط قوت و محدودیتهای مدل فردی را فراهم کرد، بلکه یک چارچوب قوی برای ارزیابی قابلیت اطمینان و کاربرد کلی LLM در مراقبتهای بهداشتی ایجاد کرد. سازگاری این روش شناسی سوگیری ها و عوامل مخدوش کننده خارجی را به حداقل می رساند و ارزیابی منصفانه و شفاف از قابلیت های هر مدل را تضمین می کند. این یافته ها به پیشرفت درک کاربردهای بالقوه LLM در تشخیص پزشکی کمک می کند و پایه ای برای تحقیقات آینده برای رسیدگی به سناریوهای بالینی پیچیده تر و ادغام داده های چندوجهی فراهم می کند.
۳٫۲٫ شرح LLM های ارزیابی شده
۳٫۳٫ روش های جمع آوری داده ها
در حالی که مجموعه داده شامل برخی از تنوع در ارائه علائم بود، اما تنوع جمعیت شناختی گسترده ای مانند سن، جنسیت یا قومیت را شامل نمی شد، زیرا مطالعه در درجه اول بر روی خود شرایط متمرکز بود تا تغییرات خاص بیمار. مجموعه داده فعلی امکان کاوش اولیه LLM ها را در تشخیص پزشکی فراهم می کند، اما مطالعات آینده به دنبال گسترش این مجموعه داده خواهد بود تا طیف وسیع تری از بیماری ها را در بر گیرد و جمعیت شناسی بیماران متنوع تری را در خود جای دهد، که به ارزیابی قابلیت تعمیم مدل ها در جمعیت های مختلف کمک می کند.
روش تشخیصی: برای هر بیماری منتخب، فهرست جامعی از علائم تهیه شد که مبنایی برای اعلانهای تشخیصی است. این اعلانها از LLMها میخواستند بیماری را بر اساس علائم پیشبینی کنند و برای هر پیشبینی نمره اطمینان ارائه کنند. برای اطمینان از سازگاری و مقایسه، همان دستورات به طور یکنواخت در همه مدل ها اعمال شد. پس از دریافت پیشبینیهای مدلها، نتایج بهصورت دستی تأیید شد تا صحت و قابلیت اطمینان تشخیصها را ارزیابی کند و پایه و اساس یافتههای مطالعه را فراهم کند.
این روش بر هدف مطالعه برای بررسی پتانسیل LLMها به عنوان ابزاری برای شناخت شرایط سلامت رایج تاکید می کند. هدف این تحقیق با تمرکز بر بیماریهایی است که اغلب با آنها مواجه میشوند، بینشهای ارزشمندی را در مورد قابلیتها و محدودیتهای فناوریهای هوش مصنوعی در برنامههای بهداشتی روزمره ارائه دهد، در حالی که زمینه را برای مطالعات آینده شامل موارد پیچیدهتر و متنوعتر فراهم میکند.
در این مطالعه، هر مدل با ۲۵۰ پیام فردی (یکی برای هر ترکیبی از ۵۰ بیماری و ۵ LLM) ارائه شد که در مجموع ۲۵۰ تکرار سریع را شامل میشود. هر اعلان لیستی از علائم را به مدل ارائه کرد و بدون نیاز به توضیح اضافی، تشخیص تک کلمه ای با سطح اطمینان را درخواست کرد. طراحی سریع مطابق با رویکرد صفر شات است، که در آن مدلها باید پیشبینیهای تشخیصی را صرفاً بر اساس علائم ارائهشده بدون هیچ مثال قبلی یا استدلال گامبهگام انجام دهند. این تنظیم توانایی ذاتی هر مدل را برای تفسیر علائم و شناسایی محتملترین بیماری به طور مستقل ارزیابی کرد و یک کار تشخیصی ساده را که در محیطهای بالینی معمول است، شبیهسازی کرد که حداقل زمینه اضافی ارائه میشود.
درخواست برای مدل ها:
گفتگوی زیر دستوری را ارائه می دهد که برای آزمایش قابلیت های تشخیصی مدل های مختلف زبان استفاده می شود.
۳٫۴٫ معیارهای ارزیابی برای تشخیص بیماری ها از طریق LLM
اثربخشی مدلهای یادگیری زبان (LLM) در تشخیص بیماریها از روی توصیف علائم پزشکی با استفاده از یک فرآیند دقیق و چند مرحلهای ارزیابی شد. این رویکرد استفاده از دقت، یادآوری و امتیاز F1 را شامل میشود – معیارهایی که به دلیل توانایی آنها در ارائه چشماندازی گرد در مورد دقت مدلهای پیشبینی در شناسایی تشخیصهای صحیح و برجسته کردن حذف تشخیصهای مرتبط مشهور هستند.
در مطالعه خود، خروجی های LLMs را برای هر ورودی مجموعه داده ارزیابی کردیم و به طور سیستماتیک هر پاسخ را بر اساس دقت تشخیصی آن طبقه بندی کردیم. طبقه بندی ها به شرح زیر بود:
-
مثبت واقعی (TP): مواردی که LLM به درستی بیماری را شناسایی کرده و توانایی مدل را در مطابقت دقیق توصیف علائم با تشخیص صحیح بیماری نشان می دهد.
-
مثبت کاذب (FP): مواردی که LLM به اشتباه یک بیماری را شناسایی کرده و شرایطی را به توصیف علائم نسبت می دهد که با بیماری واقعی موجود همخوانی ندارد و در نتیجه دقت تشخیصی مدل را بیش از حد برآورد می کند.
-
منفی کاذب (FN): مواردی که LLM یا بر اساس توصیف علائم بیماری متفاوتی را نسبت به بیماری واقعی نسبت داد یا به طور کلی وجود بیماری را تشخیص نداد و در نتیجه حساسیت تشخیصی مدل را دست کم گرفت.
سپس بر اساس امتیازهای اختصاص داده شده به هر پیش بینی اقدام به محاسبه معیارهای زیر کردیم. اگر پیشبینی مدل با بیماری واقعی مطابقت داشت، ۱ امتیاز در مثبت واقعی به آن اختصاص داده شد TP دسته بندی اگر مدل بیماری را پیشبینی میکرد که با بیماری واقعی مطابقت نداشت (پیشبینی نادرست)، ۱ امتیاز در مثبت کاذب به آن اختصاص میداد.FP) دسته بندی در نهایت، اگر مدل نتواند بیماری صحیح را پیشبینی کند، چه با پیشبینی یک بیماری نادرست و چه با پیشبینی نادرست بیماری، ۱ امتیاز منفی کاذب به آن اختصاص داده میشود.FN) دسته بندی پس از اینکه ارزیابی برای هر مدل تکمیل شد، ما مجموع آن را جمع آوری کردیم TP، FPو FN امتیاز، و این مجموع در معادلات زیر برای محاسبه دقت، یادآوری و امتیاز F1 استفاده شد.
-
دقت: این معیار دقت پیشبینیهای مثبت مدل را ارزیابی میکند (یعنی نسبت مشاهدات TP در بین تمام تشخیصهای مثبتی که توسط مدل ایجاد میشود)، بینشی در مورد دقت شناسایی بیماری مدل ارائه میدهد.
-
به یاد بیاورید: این متریک توانایی مدل را برای شناسایی همه موارد مربوط (یعنی نسبت مشاهدات TP به همه موارد مثبت واقعی در مجموعه داده) ارزیابی می کند، که معیاری از جامعیت مدل در تشخیص بیماری ارائه می دهد.
-
امتیاز F1: این متریک به عنوان یک معیار متعادل برای دقت و یادآوری عمل می کند، به ویژه زمانی که سهم هر دو معیار از اهمیت یکسانی برخوردار باشد. بهعنوان میانگین هارمونیک دقت و یادآوری محاسبه میشود که معیاری منحصر به فرد از عملکرد کلی تشخیصی مدل ارائه میکند.
استفاده از این معیارها، ارزیابی جامعی از قابلیتهای تشخیصی LLMها را امکانپذیر کرد، و بینشهای ظریفی را در مورد دقت تشخیصهای صحیح و کارایی کلی مدلها در شناسایی بیماری ارائه داد.
منبع: https://www.mdpi.com/2673-2688/6/1/13