پتانسیل مدل های زبان بزرگ در شناخت علائم بیماری های رایج

۳٫۱٫ استراتژی تحقیق

این مطالعه از یک چارچوب ساختاریافته برای ارزیابی قابلیت‌های تشخیصی مدل‌های زبان بزرگ (LLM) با استفاده از اعلان‌های مبتنی بر علائم مشتق‌شده از مجموعه داده‌ای با دقت انتخاب شده استفاده کرد (شکل ۱). هر LLM با دنباله‌ای یکسان از اعلان‌ها ارائه شد تا اطمینان حاصل شود که تفاوت‌های مشاهده‌شده در پاسخ‌ها صرفاً به قابلیت‌های تفسیری منحصربه‌فرد مدل‌ها نسبت داده می‌شود. این روش استاندارد، مقایسه‌های ثابت در بین مدل‌ها را تسهیل می‌کند، یکنواختی را در ارائه سریع و ضبط پاسخ حفظ می‌کند، در حالی که تنوع معرفی شده توسط فرمت‌های ورودی مختلف یا پروتکل‌های ارزیابی را کاهش می‌دهد. مجموعه داده انتخاب‌شده از منابع پزشکی معتبر، از جمله دستورالعمل‌های بالینی در دسترس عموم و نگاشت تأیید شده بیماری‌ها به علائم، ساخته شده است. هر اعلان برای تکرار سناریوهای تشخیصی در دنیای واقعی با ترکیب ترکیبات رایج علائم گزارش شده، مانند “سرفه، سردرد خفیف، عطسه” طراحی شده است. گنجاندن پروفایل‌های علائم متنوع تضمین می‌کند که مدل‌ها در طیف گسترده‌ای از پیچیدگی‌های تشخیصی ارزیابی می‌شوند.

پس از تولید پیش‌بینی‌ها توسط مدل‌ها، هر پاسخ به طور سیستماتیک با تشخیص‌های واقعی مرتبط با توضیحات علائم ارائه‌شده مقایسه شد. این ارزیابی با استفاده از یک رویکرد تشخیصی صفر شات انجام شد، که در آن مدل‌ها پیش‌بینی‌هایی را بدون تنظیم دقیق قبلی یا سفارشی‌سازی دامنه خاص انجام دادند. عملکرد با استفاده از معیارهای کلیدی، از جمله دقت، یادآوری، و امتیازات F1 ارزیابی شد که امکان ارزیابی جامع دقت تشخیصی را فراهم می‌کرد. رویکرد سیستماتیک نه تنها امکان شناسایی نقاط قوت و محدودیت‌های مدل فردی را فراهم کرد، بلکه یک چارچوب قوی برای ارزیابی قابلیت اطمینان و کاربرد کلی LLM در مراقبت‌های بهداشتی ایجاد کرد. سازگاری این روش شناسی سوگیری ها و عوامل مخدوش کننده خارجی را به حداقل می رساند و ارزیابی منصفانه و شفاف از قابلیت های هر مدل را تضمین می کند. این یافته ها به پیشرفت درک کاربردهای بالقوه LLM در تشخیص پزشکی کمک می کند و پایه ای برای تحقیقات آینده برای رسیدگی به سناریوهای بالینی پیچیده تر و ادغام داده های چندوجهی فراهم می کند.

۳٫۲٫ شرح LLM های ارزیابی شده

این بخش هر یک از مدل‌های زبان بزرگ (LLM) مورد استفاده در مطالعه را معرفی می‌کند – Gemini، GPT-3.5، GPT-4، O1 Preview و GPT-4o. هر مدل نقاط قوت را در تولید اطلاعات مرتبط بالینی و انجام وظایفی مانند پیش‌بینی بالینی، تشخیص، و ارائه بینش‌های مبتنی بر داده برای حمایت از حفظ سلامت و بازیابی نشان می‌دهد. این LLM ها به طور گسترده در دسترس هستند، معمولاً توسط عموم مردم استفاده می شود و برای ارزیابی سریع برای تعیین مناسب بودن و اثربخشی آنها در کاربردهای بالینی و تحقیقات مراقبت های بهداشتی ضروری هستند. هر مدل دارای نقاط قوت محاسباتی منحصر به فردی برای کار با مجموعه داده های بالینی است که به افزایش قابلیت اطمینان تشخیصی در تنظیمات مراقبت های بهداشتی کمک می کند. [۱۲].
Gemini: Gemini پیشرفت قابل توجهی را در فناوری LLM نشان می دهد، به ویژه با طراحی تخصصی آن برای کاربردهای خاص دامنه، از جمله مراقبت های بهداشتی. معماری Gemini به گونه‌ای ساخته شده است که درک دقیق و تولید پاسخ در زمینه‌های تخصصی را امکان‌پذیر می‌کند، و آن را به ابزاری ارزشمند برای کارهایی مانند تشخیص‌های پزشکی و تحقیقات مراقبت‌های بهداشتی تبدیل می‌کند، جایی که دقت و صحت بسیار مهم است. توانایی Gemini برای یکپارچه‌سازی و استدلال در میان ورودی‌های چندوجهی، بر پتانسیل آن برای تغییر نحوه پردازش اطلاعات پزشکی تاکید می‌کند و استاندارد جدیدی برای هوش مصنوعی در مراقبت‌های بهداشتی ایجاد می‌کند. [۷].
GPT-3.5: به عنوان یک مدل پایه، GPT-3.5، سلف GPT-4، قابلیت‌های قوی در درک و تولید زبان ارائه می‌دهد، اگرچه با مهارت کمی در مقایسه با جانشین خود. GPT-3.5 به عنوان یک معیار مقایسه ای برای اندازه گیری پیشرفت در LLM ها و کاربرد آنها در تشخیص پزشکی عمل می کند. علیرغم وضعیت قبلی، GPT-3.5 به میزان دقت قابل توجه ۵۳ درصد در برنامه خودارزیابی دانش پزشکی دست یافت، که توانایی خود را در درک و پاسخگویی به سوالات بالینی و مرتبط با مراقبت های بهداشتی نشان می دهد، و ارزش آن را در وظایف تشخیصی نشان می دهد. [۵].
GPT-4: توسعه یافته توسط OpenAI، GPT-4 در خط مقدم درک زبان و قابلیت های تولید قرار می گیرد و برای تفسیر پرس و جوهای پیچیده طراحی شده است. معماری آن به طور خاص برای ارزیابی دقت تشخیصی بر اساس توصیف علائم هماهنگ شده است. GPT-4 به نرخ دقت ۷۵ درصدی در برنامه خودارزیابی دانش پزشکی دست یافت و درک پیشرفته آن از سؤالات پیچیده پزشکی را برجسته کرد و بر نقش آن در اصلاح دقت تشخیصی از روایت علائم تأکید کرد. [۵].
o1 Preview: به عنوان یک تکرار در سری GPT، O1 Preview دقت تشخیصی بالا را در کنار عملکرد بلادرنگ برای کاربردهای پزشکی در اولویت قرار می دهد. معماری آن برای رسیدگی کارآمد به سوالات پیچیده بهینه شده است، و آن را به ویژه در تنظیماتی که نیاز به پشتیبانی تشخیصی به موقع دارند مفید می کند. O1 Preview که بر اساس نقاط قوت معماری GPT-4 ساخته شده است، برای ادغام یکپارچه در محیط های مراقبت های بهداشتی سریع طراحی شده است، و از پزشکان در تصمیم گیری های تشخیصی سریع و دقیق حمایت می کند، که آن را به عنوان یک ابزار کاربردی در عمل پزشکی مدرن قرار می دهد. [۵].
GPT-4o: طراحی شده به عنوان یک نوع تخصصی از GPT-4، GPT-4o بر عملکرد تشخیصی متعادل و در زمان واقعی، به ویژه در تنظیمات بالینی تأکید دارد. این مدل بر اساس قابلیت‌های GPT-4 ساخته می‌شود و آن‌ها را با جریان‌های کاری که نیاز به تجزیه و تحلیل سریع و دقیق علائم بیمار دارند، تطبیق می‌دهد. OpenAI GPT-4o را با تمرکز بر دقت تشخیصی توسعه داد و در عین حال از ادغام روان در سیستم های مراقبت های بهداشتی که نیاز به تصمیم گیری سریع دارند اطمینان حاصل کرد. با اولویت‌بندی کاربرد بلادرنگ، GPT-4o به متخصصان مراقبت‌های بهداشتی کمک می‌کند تا تشخیص‌های آگاهانه را به‌طور کارآمد و مؤثر انجام دهند. [۵].

۳٫۳٫ روش های جمع آوری داده ها

مجموعه داده برای این مطالعه با استفاده از ۵۰ بیماری متمایز ساخته شد که هر کدام توسط مدل‌های زبان بزرگ (LLMs) ارزیابی شدند: مدل پیش‌نمایش جمینی، GPT-3.5، GPT-4، GPT-4o، و o1. این رویکرد منجر به مجموع ۲۵۰ ارزیابی فردی (۵۰ بیماری × ۵ مدل) همانطور که در جدول ۱ نشان داده شده است.
منبع و انتخاب بیماری ها: داده های علائم بیماری های منتخب از منابع پزشکی معتبر از جمله مرکز کنترل و پیشگیری از بیماری (CDC) جمع آوری شده است. [۳۹]سازمان بهداشت جهانی (WHO) [40]کلینیک مایو [۴۱]کلینیک کلیولند [۴۲]و بیمارستان جانز هاپکینز [۴۳]. برای هر بیماری، فهرست دقیقی از علائم تهیه شد که پایه و اساس ایجاد اعلان های تشخیصی را تشکیل داد.
مجموعه داده ها و انتخاب بیماری: مجموعه داده شامل ۵۰ بیماری رایج است (شکل ۲)، مانند آلرژی های فصلی، سرماخوردگی و بیماری های مرتبط با غذا، که اغلب در عمل پزشکی روزمره با آنها مواجه می شوند. هر بیماری در برابر همه مدل‌ها (جمینی، GPT-3.5، GPT-4، O1 Preview و GPT-4o) مورد آزمایش قرار گرفت، که از ثبات در مقایسه مدل اطمینان حاصل کرد و ۲۵۰ نقطه داده کل را برای تجزیه و تحلیل به دست آورد. این مجموعه داده بر روی علائم به طور گسترده شناخته شده برای ارزیابی توانایی مدل ها برای ارائه بینش های تشخیصی دقیق متمرکز شده است. در GitHub می توان به مجموعه داده دسترسی داشت: https://github.com/gkgupta11k/Health_LLM_Research_Dataset (در ۱۳ ژانویه ۲۰۲۵ قابل دسترسی است).

در حالی که مجموعه داده شامل برخی از تنوع در ارائه علائم بود، اما تنوع جمعیت شناختی گسترده ای مانند سن، جنسیت یا قومیت را شامل نمی شد، زیرا مطالعه در درجه اول بر روی خود شرایط متمرکز بود تا تغییرات خاص بیمار. مجموعه داده فعلی امکان کاوش اولیه LLM ها را در تشخیص پزشکی فراهم می کند، اما مطالعات آینده به دنبال گسترش این مجموعه داده خواهد بود تا طیف وسیع تری از بیماری ها را در بر گیرد و جمعیت شناسی بیماران متنوع تری را در خود جای دهد، که به ارزیابی قابلیت تعمیم مدل ها در جمعیت های مختلف کمک می کند.

روش تشخیصی: برای هر بیماری منتخب، فهرست جامعی از علائم تهیه شد که مبنایی برای اعلان‌های تشخیصی است. این اعلان‌ها از LLMها می‌خواستند بیماری را بر اساس علائم پیش‌بینی کنند و برای هر پیش‌بینی نمره اطمینان ارائه کنند. برای اطمینان از سازگاری و مقایسه، همان دستورات به طور یکنواخت در همه مدل ها اعمال شد. پس از دریافت پیش‌بینی‌های مدل‌ها، نتایج به‌صورت دستی تأیید شد تا صحت و قابلیت اطمینان تشخیص‌ها را ارزیابی کند و پایه و اساس یافته‌های مطالعه را فراهم کند.

این روش بر هدف مطالعه برای بررسی پتانسیل LLMها به عنوان ابزاری برای شناخت شرایط سلامت رایج تاکید می کند. هدف این تحقیق با تمرکز بر بیماری‌هایی است که اغلب با آن‌ها مواجه می‌شوند، بینش‌های ارزشمندی را در مورد قابلیت‌ها و محدودیت‌های فناوری‌های هوش مصنوعی در برنامه‌های بهداشتی روزمره ارائه دهد، در حالی که زمینه را برای مطالعات آینده شامل موارد پیچیده‌تر و متنوع‌تر فراهم می‌کند.

در این مطالعه، هر مدل با ۲۵۰ پیام فردی (یکی برای هر ترکیبی از ۵۰ بیماری و ۵ LLM) ارائه شد که در مجموع ۲۵۰ تکرار سریع را شامل می‌شود. هر اعلان لیستی از علائم را به مدل ارائه کرد و بدون نیاز به توضیح اضافی، تشخیص تک کلمه ای با سطح اطمینان را درخواست کرد. طراحی سریع مطابق با رویکرد صفر شات است، که در آن مدل‌ها باید پیش‌بینی‌های تشخیصی را صرفاً بر اساس علائم ارائه‌شده بدون هیچ مثال قبلی یا استدلال گام‌به‌گام انجام دهند. این تنظیم توانایی ذاتی هر مدل را برای تفسیر علائم و شناسایی محتمل‌ترین بیماری به طور مستقل ارزیابی کرد و یک کار تشخیصی ساده را که در محیط‌های بالینی معمول است، شبیه‌سازی کرد که حداقل زمینه اضافی ارائه می‌شود.

درخواست برای مدل ها:

گفتگوی زیر دستوری را ارائه می دهد که برای آزمایش قابلیت های تشخیصی مدل های مختلف زبان استفاده می شود.

۳٫۴٫ معیارهای ارزیابی برای تشخیص بیماری ها از طریق LLM

اثربخشی مدل‌های یادگیری زبان (LLM) در تشخیص بیماری‌ها از روی توصیف علائم پزشکی با استفاده از یک فرآیند دقیق و چند مرحله‌ای ارزیابی شد. این رویکرد استفاده از دقت، یادآوری و امتیاز F1 را شامل می‌شود – معیارهایی که به دلیل توانایی آنها در ارائه چشم‌اندازی گرد در مورد دقت مدل‌های پیش‌بینی در شناسایی تشخیص‌های صحیح و برجسته کردن حذف تشخیص‌های مرتبط مشهور هستند.

در مطالعه خود، خروجی های LLMs را برای هر ورودی مجموعه داده ارزیابی کردیم و به طور سیستماتیک هر پاسخ را بر اساس دقت تشخیصی آن طبقه بندی کردیم. طبقه بندی ها به شرح زیر بود:

  • مثبت واقعی (TP): مواردی که LLM به درستی بیماری را شناسایی کرده و توانایی مدل را در مطابقت دقیق توصیف علائم با تشخیص صحیح بیماری نشان می دهد.

  • مثبت کاذب (FP): مواردی که LLM به اشتباه یک بیماری را شناسایی کرده و شرایطی را به توصیف علائم نسبت می دهد که با بیماری واقعی موجود همخوانی ندارد و در نتیجه دقت تشخیصی مدل را بیش از حد برآورد می کند.

  • منفی کاذب (FN): مواردی که LLM یا بر اساس توصیف علائم بیماری متفاوتی را نسبت به بیماری واقعی نسبت داد یا به طور کلی وجود بیماری را تشخیص نداد و در نتیجه حساسیت تشخیصی مدل را دست کم گرفت.

سپس بر اساس امتیازهای اختصاص داده شده به هر پیش بینی اقدام به محاسبه معیارهای زیر کردیم. اگر پیش‌بینی مدل با بیماری واقعی مطابقت داشت، ۱ امتیاز در مثبت واقعی به آن اختصاص داده شد TP دسته بندی اگر مدل بیماری را پیش‌بینی می‌کرد که با بیماری واقعی مطابقت نداشت (پیش‌بینی نادرست)، ۱ امتیاز در مثبت کاذب به آن اختصاص می‌داد.FP) دسته بندی در نهایت، اگر مدل نتواند بیماری صحیح را پیش‌بینی کند، چه با پیش‌بینی یک بیماری نادرست و چه با پیش‌بینی نادرست بیماری، ۱ امتیاز منفی کاذب به آن اختصاص داده می‌شود.FN) دسته بندی پس از اینکه ارزیابی برای هر مدل تکمیل شد، ما مجموع آن را جمع آوری کردیم TP، FPو FN امتیاز، و این مجموع در معادلات زیر برای محاسبه دقت، یادآوری و امتیاز F1 استفاده شد.

  • دقت: این معیار دقت پیش‌بینی‌های مثبت مدل را ارزیابی می‌کند (یعنی نسبت مشاهدات TP در بین تمام تشخیص‌های مثبتی که توسط مدل ایجاد می‌شود)، بینشی در مورد دقت شناسایی بیماری مدل ارائه می‌دهد.

    دقت = تی پ تی پ + اف پ

  • به یاد بیاورید: این متریک توانایی مدل را برای شناسایی همه موارد مربوط (یعنی نسبت مشاهدات TP به همه موارد مثبت واقعی در مجموعه داده) ارزیابی می کند، که معیاری از جامعیت مدل در تشخیص بیماری ارائه می دهد.

    به یاد بیاورید = تی پ تی پ + اف ن

  • امتیاز F1: این متریک به عنوان یک معیار متعادل برای دقت و یادآوری عمل می کند، به ویژه زمانی که سهم هر دو معیار از اهمیت یکسانی برخوردار باشد. به‌عنوان میانگین هارمونیک دقت و یادآوری محاسبه می‌شود که معیاری منحصر به فرد از عملکرد کلی تشخیصی مدل ارائه می‌کند.

    اف ۱ امتیاز = ۲ · دقت · به یاد بیاورید دقت + به یاد بیاورید

استفاده از این معیارها، ارزیابی جامعی از قابلیت‌های تشخیصی LLMها را امکان‌پذیر کرد، و بینش‌های ظریفی را در مورد دقت تشخیص‌های صحیح و کارایی کلی مدل‌ها در شناسایی بیماری ارائه داد.


منبع: https://www.mdpi.com/2673-2688/6/1/13

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *