۱٫ مقدمه
زبان تأثیر عمیقی بر تکامل انسانها، رشد مغز و گسترش فرهنگی داشته است. زبان گفتاری از ژستهای فیزیکی بهتر عمل میکند و انسان را قادر میسازد تا درک مشترکی از واقعیت ایجاد کند. [۱]. اعتقاد بر این است که زبان یکی از حیاتی ترین توانایی های انسان است. افراد را قادر به برقراری ارتباط و همکاری می کند و پتانسیل بسیار زیادی برای تکامل در طول عمر دارد. [۲]. پردازش زبان طبیعی یک رشته علمی است که بر توانایی کامپیوترها برای درک موثر زبان انسان متمرکز است. NLP در ترجمه ماشینی، خلاصهسازی، طبقهبندی متن و شناسایی موجودیت نامگذاری شده قابل استفاده است. [۳]. پردازش زبان طبیعی را می توان به دو گروه عمده تقسیم کرد: درک زبان طبیعی و تولید زبان طبیعی [۴]. مدلسازی زبان (LM) یکی از جنبههای ضروری پردازش زبان طبیعی (NLP) است که چارچوبی برای درک الگوهای زمینهای و آماری زبان فراهم میکند. محققان مدل سازی زبان را به عنوان یک ابزار قدرتمند برای توصیف توزیع احتمال زبان طبیعی توسعه داده اند [۵]. جدیدترین مرحله توسعه LM مدل های زبان بزرگ (LLMs) است. LLMها مدلهای زبانی از قبل آموزش دیده (PLM) با اندازه بزرگ هستند که در حل وظایف پیچیده در مقایسه با PLMهای اصلی موثرتر هستند. [۶]. مدل GPT (Generative Pretrained Transformer) اولین LLM بود که در سال ۲۰۱۸ منتشر شد. [۷]. توانایی های آن تولید متنی شبیه انسان و انجام کارهایی مانند ترجمه و خلاصه سازی بود [۸]. همزمان، Google Research BERT را معرفی کرد. یک سال بعد، این شرکت RoBERTa را با همکاری OpenAI و Facebook AI منتشر کرد [۹,۱۰]. از سال ۲۰۱۸ تا زمان نگارش این نشریه، چهار نسخه از GPT وجود داشته است. مدل GPT-1 بر روی ۱۱۷ میلیون پارامتر آموزش داده شد و هدف یادگیری آن یادگیری بدون نظارت بود. [۱۱]. برای نسل های بعدی GPT، تعداد پارامترهای مدل به ترتیب ۱٫۵ میلیارد و ۱۷۵ میلیارد برای GPT-2 و GPT-3 بود. [۱۲]. تعداد پارامترهای مدل برای GPT-4 منتشر نشده است. هدف یادگیری برای هر نسخه از GPT متفاوت است، از جمله یادگیری چند وظیفه ای برای GPT-2، یادگیری درون متنی برای GPT-3، و یادگیری چندوجهی برای GPT-4. [12,13].
ChatGPT یک ربات چت هوش مصنوعی است که از معماری مدل زبان GPT استفاده می کند. تعامل با ChatGPT از طریق دستورهایی که ورودی متن هستند انجام می شود. ویژگی اصلی ChatGPT این است که ورودیها و خروجیها زبان طبیعی را منعکس میکنند و کاربران را قادر میسازد تا گفتگو را به صورت مکالمه انجام دهند. ChatGPT یک ابزار قدرتمند است و ابزار آن به طور مداوم توسط شرکت ها، محققان و میلیون ها نفر در سراسر جهان کشف می شود. قابلیت دسترسی و ویژگی های چند زبانه ChatGPT فرصت های منحصر به فردی را در آموزش از جمله علوم پزشکی فراهم می کند [۱۴]. ChatGPT می تواند از تجزیه و تحلیل خودکار مقاله، ترجمه زبان، آموزش شخصی و یادگیری تطبیقی و تعاملی پشتیبانی کند. [۱۵]. ChatGPT این پتانسیل را دارد که نحوه اجرای آموزش پزشکی را تغییر دهد. در یک مطالعه اخیر، عملکرد ChatGPT در آزمون مجوز پزشکی ایالات متحده (USMLE) مورد آزمایش قرار گرفت و دقت به دست آمده ۶۴٫۴٪ در مجموعه داده NBME-Free-Step 1 بود. نتیجه را می توان متناسب با عملکرد یک دانشجوی سال سوم پزشکی ارزیابی کرد [۱۶]. محققان آلمانی ارزیابی کردند که آیا ChatGPT میتواند معاینات پزشکی دولتی (M1 و M2 – امتحانات دولتی اول و دوم) را به زبان مادری قبول کند. درصد پاسخ های صحیح برای M1 60.01 درصد و برای M2 66.7 درصد بود. بر اساس این نتایج به ChatGPT نمره قبولی داده شد [۱۷]. ChatGPT همچنین می تواند مزایای آموزشی را برای رشته های پزشکی که برای بیماران غیرقابل درک است به ارمغان بیاورد. به عنوان مثال، ChatGPT برای ساده کردن گزارش های رادیولوژی استفاده شد. نویسندگان دریافتند که گزارش های ساده شده عموماً صحیح بوده و محتوای مضری برای بیماران ارائه نمی دهند [۱۸].
هوش مصنوعی امروزه به طور فزاینده ای در پزشکی و دندانپزشکی حیاتی است و راه حل های همه کاره را در سناریوهای مختلف ارائه می دهد. [۱۹,۲۰,۲۱]. کاربرد آن شامل چندین رشته پزشکی مانند رادیولوژی، پاتومورفولوژی، انکولوژی، قلب و عروق، روانپزشکی، پزشکی هسته ای و غیره می شود. [۲۲,۲۳,۲۴]. کشف پیچیدگیهای سیستم عصبی که از طریق روشهای تحقیق مرسوم غیرقابل دسترس است، از طریق مدلهای کامپیوتری شبکههای عصبی قابل دستیابی است. [۲۴,۲۵,۲۶]. این روشهای سیلیکونی بهویژه در سرطان، بیماریهای خودایمنی و بیماریهای تخریبکننده عصبی استفاده گستردهای پیدا کردهاند که به کشف درمانهای دارویی پیشگامانه بالقوه کمک میکند. [۲۷,۲۸]. در دندانپزشکی، ChatGPT به طور بالقوه می تواند منبع دانش برای بیماران و متخصصان باشد. آلسید و همکاران کیفیت پاسخ های ChatGPT را در زمینه های جراحی دهان، آسیب شناسی دهان و دندانپزشکی پیشگیرانه بررسی کرد. در حالی که ChatGPT اطلاعات قابل اعتمادی را در زمینه دندانپزشکی پیشگیرانه ارائه میکرد، نتیجه در موضوعات باقیمانده کمتر دقیق بود. محققان پیشنهاد کردند که توصیه های پزشکی بازیابی شده از ChatGPT باید توسط مقامات پزشکی نظارت شود [۲۹]. پس از انتشار ChatGPT در سال ۲۰۲۲، تعداد مقالات تحقیقاتی دندانپزشکی با کمک هوش مصنوعی به طور قابل توجهی افزایش خواهد یافت. ChatGPT به عنوان یک دستیار در پردازش متن، خلاصه سازی داده ها و جستجوی اطلاعات علمی به طور موثر عمل می کند، اما فاقد تجزیه و تحلیل انتقادی است. [۳۰]. ChatGPT می تواند عملکرد علمی را افزایش دهد، اما همچنین می تواند منجر به ادغام سوگیری شود [۳۱].
با توجه به سطح بالای علاقه به ارزیابی قابلیتها و محدودیتهای ChatGPT، هنوز شاخههایی از پزشکی وجود دارند که به اندازه کافی مطالعه نشدهاند. یکی از آنها پریودنتولوژی است. پریودنتولوژی شاخه ای از دندانپزشکی است که بر بیماری پریودنتال (پریودنتیت) متمرکز است که تقریباً ۳٫۵ میلیارد نفر در سراسر جهان را تحت تأثیر قرار می دهد. [۳۲]. جنبه مشترک این بیماری آن را به یک موضوع اجتماعی حیاتی تبدیل می کند. ChatGPT یک نامزد طبیعی برای یکی از ارکان افزایش آگاهی در مورد سلامت دهان و دندان و درمان دهان است. ChatGPT در پاسخ به سوالات متداول مرتبط با بیماری پریودنتال کاربرد دارد. آلن و همکاران رتبه بندی کرد که پاسخ ChatGPT در مورد پریودنتیت “خوب” بود (طبق ابزار DISCERN). با این حال، عملکرد در “گزینه های درمانی” به طور قابل توجهی پایین تر بود. ChatGPT ممکن است بخش مهمی از آموزش بیمار باشد. با این حال، نمی تواند در موارد پیچیده تر مدیریت کند [۳۳]. ChatGPT ممکن است یک گزینه مفید برای پزشکان برای تسریع طبقه بندی پریودنتیت در بیماران باشد. طبق گفته Eroglu و همکاران، ChatGPT پارامترهای پریودنتیت (مرحله، درجه و وسعت) را به ترتیب در ۵۹٫۵٪، ۵۰٫۵٪ و ۸۴٫۰٪ موارد به درستی تعیین کرد. [۳۴].
آزمون گواهی تخصصی در پریودنتولوژی موضوعاتی از رشته های مختلف پزشکی را با هم ترکیب می کند. این معاینه مسائل علمی، اپیدمیولوژیک و همچنین کاملاً بالینی را پوشش می دهد. هدف این مقاله ارزیابی اثربخشی ChatGPT-3.5 و آخرین نسخه ChatGPT-4 در پاسخگویی به سؤالات به دست آمده از آزمون گواهی تخصصی در پریودنتولوژی است. نتایج به شناسایی سودمندی ChatGPT در حمایت از تحصیلات تکمیلی در سطح تخصصی و همچنین تأیید توانایی پردازش سوالات پیچیده چند گزینه ای کمک می کند.
۴٫ بحث
در مطالعه ما، متوجه شدیم که ChatGPT-3.5 و ChatGPT-4 گاهی اوقات پاسخ های مبهم ارائه می دهند (نامعتبر – مغایر با اصل انتخاب یک پاسخ). روش دو مرحله ای دریافت پاسخ معرفی شد: تلاش اول و تلاش دوم. تلاش دوم با یک سوال اصلاح شده خاص انجام شد و بر روی گروه خروجی های نامعتبر متمرکز بود. درصد سؤالاتی را که معتبر بودند (میزان سؤالاتی که در اولین تلاش و در نتیجه نهایی با موفقیت به دست آمد) ارزیابی کردیم. در نسخه لهستانی جلسات بهار ۲۰۲۳ و پاییز ۲۰۲۳، هیچ معناداری آماری بین نسخههای ChatGPT مشاهده نشد. با این حال، در نسخه انگلیسی، ChatGPT-4 در جلسه بهار ۲۰۲۳ نرخ قابل توجهی بالاتری از پاسخ های به دست آمده داشت، در حالی که ChatGPT-3.5 به طور قابل توجهی به سؤالات بیشتری در جلسه پاییز ۲۰۲۳ پاسخ داد. تعداد متنوعی از پاسخهای دریافتی در نسخه انگلیسی بین ChatGPT-3.5 و ChatGPT-4 میتواند به معماریهای مختلف، مهارت زبان و پایه دانش مربوط باشد.
حدنصاب قبولی در آزمون گواهی تخصصی پریودنتولوژی ۶۰ درصد پاسخ های صحیح است. ChatGPT-4 68.9% از پاسخ های صحیح را در نسخه انگلیسی آزمون بهار ۲۰۲۳ به دست آورد. بنابراین، امتحان را پشت سر گذاشت. در هر صورت پیش نیاز قبولی حاصل نشد. با در نظر گرفتن نسخه ChatGPT، درصد پاسخهای صحیح بهدستآمده توسط ChatGPT-4 بیشتر از پاسخهای ChatGPT-3.5 در هر جلسه – بهار ۲۰۲۳ و پاییز ۲۰۲۳، هر دو در نسخه لهستانی و انگلیسی بود. با این حال، تفاوت آماری معنیداری تنها در جلسه بهار ۲۰۲۳، در هر دو نسخه لهستانی و انگلیسی مشاهده شد. با توجه به نوع سؤال، ChatGPT-4 به طور قابل توجهی بهتر از ChatGPT-3.5 برای انواع سؤالات ۱، ۲، و ۵ (بهار ۲۰۲۳، نسخه انگلیسی) و سؤال نوع ۴ (بهار ۲۰۲۳، نسخه لهستانی) عمل کرد. هیچ تفاوت قابل توجهی برای جلسه پاییز ۲۰۲۳، هم در نسخه انگلیسی و هم در لهستانی وجود نداشت. بر اساس این نتایج، میتوان نتیجه گرفت که ChatGPT-4 در آزمونهای پریودنتولوژی نسبت به ChatGPT-3.5 نه تنها در زبان انگلیسی، بلکه در زبان لهستانی نیز کمی بهتر عمل میکند. روندهای مشابه، اما به طور قابل ملاحظه ای بیشتر، توسط دانشمندان لهستانی در آزمون های تخصصی نفرولوژی مشاهده شده است. از ChatGPT-3.5 و ChatGPT-4 1560 سوال تک پاسخی پرسیده شد. ChatGPT-4.0 به ۶۹٫۵% از پاسخ های صحیح رسید که معادل گذراندن ۱۱ تست از ۱۳ تست بود. علاوه بر این، ChatGPT-4.0 به طور متوسط بهتر از انسان عمل کرده است. دقت ChatGPT-3.5 به طور قابل توجهی کمتر بود و از ۴۵٫۷ درصد پاسخ های صحیح فراتر نمی رفت. [۳۵]. مطالعات دیگر نشان داد که ChatGPT-4 می تواند به طور قابل توجهی از نسخه قدیمی خود در سایر زمینه های پزشکی بهتر عمل کند. علی و همکاران قابلیتهای ChatGPT 4.0 را در آزمون خودارزیابی ۱ هیئت جراحی مغز و اعصاب آمریکا (۵۰۰ سؤال در قالب بهترین پاسخ، چند گزینهای) در مقایسه با ChatGPT-3.5 و کاربران بانک سؤال نشان داد. نتایج به ترتیب ۴/۸۳، ۴/۷۳ و ۸/۷۲ درصد بود. ChatGPT-4 بالاترین میزان پاسخ های صحیح را گزارش کرد و عملکرد آن به طور قابل توجهی بهتر از سایرین بود [۳۶]. لاهات و همکاران کارایی ChatGPT-4 و ChatGPT-3.5 را در پاسخ به سوالات بالینی در اورژانس، طب داخلی و اخلاق مقایسه کردند. خروجی های هوش مصنوعی توسط هشت متخصص پزشکی از نظر دقت، وضوح، سودمندی، جامعیت و ارتباط مورد ارزیابی قرار گرفت. ChatGPT-4 در هر دسته بهتر از ChatGPT-3.5 عمل کرد. بیشترین درصد پاسخ های درست مربوط به اخلاق بود. ChatGPT-4 چشم انداز امیدوارکننده ای را برای پزشکان در تسهیل کار بالینی ارائه می دهد [۳۷].
با توجه به زیربخش پاسخ صحیح در تلاش اول و دوم، عملکرد ChatGPT-4 در تلاش اول به طور قابل توجهی بهتر از عملکرد ChatGPT-3.5 در هر جلسه، هم در نسخه لهستانی و هم در نسخه انگلیسی بود. برعکس، در تلاش دوم، نتایج ناهمگن تر بود. ChatGPT-3.5 در جلسات بهار ۲۰۲۳ و پاییز ۲۰۲۳ در نسخه لهستانی بهتر از ChatGPT-4 عمل کرد (اهمیت آماری فقط در جلسه پاییز ۲۰۲۳). ChatGPT-4 در جلسات بهار ۲۰۲۳ و پاییز ۲۰۲۳ به زبان انگلیسی نرخ بالاتری از پاسخهای صحیح داشت (بدون معنیداری آماری).
با توجه به معیار زبان، درصد پاسخهای صحیح برای زبان انگلیسی در جلسات بهار ۲۰۲۳ و پاییز ۲۰۲۳، برای هر دو ChatGPT-3.5 و ChatGPT-4 بیشتر بود (معنیداری فقط برای ChatGPT-4 در جلسه بهار ۲۰۲۳). نرخ بالاتر پاسخهای صحیح بهدستآمده در نسخه انگلیسی آزمونها نشان میدهد که ChatGPT به طور مؤثرتری در زبان انگلیسی همکاری میکند، اما قابلیتهای ترجمه داخلی آن به طور بالقوه موانع مربوط به زبان را کاهش میدهد. با این حال، در میان پنج نوع سؤال، تفاوت آماری معنیداری در میزان پاسخهای صحیح به زبان انگلیسی و لهستانی وجود نداشت (برای هر دو ChatGPT-3.5 و ChatGPT-4 در هر دو جلسه). خورشیدی و. آل، در مطالعه خود، عملکرد ChatGPT-4 را در آزمون ورودی دستیاری ایران ارزیابی کردند. سوالات ChatGPT-4 به زبان فارسی (زبان مادری) و انگلیسی، فرانسوی و اسپانیایی (سوالات توسط ChatGPT-4 ترجمه شده است) پرسیده شد. درصد پاسخ های صحیح برای فارسی ۱۶۱ (از ۱۹۸) و برای انگلیسی، فرانسوی و اسپانیایی ۱۶۷، ۱۶۲ و ۱۶۶ بود. هیچ تفاوت آماری بین زبان ها مشاهده نشد [۳۸]. مطالعه دیگری گرایش متفاوتی را نشان داد. عملکرد ChatGPT-3.5 در آزمون مجوز داروساز تایوانی در رابطه با زبان چینی و انگلیسی ارزیابی شد. نمرات آزمون انگلیسی بیشتر از نمرات آزمون چینی در همه آزمودنیها بود، با اهمیت آماری در داروسازی بالینی، داروسازی توزیعکننده و درمان. [۳۹]. به گفته آندو و همکاران، ChatGPT در سوالات پزشکی در ژاپن با مشکلاتی مواجه شد. کارشناسان دو زبانه ارزیابی کردند که خروجی ها به زبان انگلیسی به طور قابل توجهی کیفیت بالاتری را در ارتباط و کیفیت ارائه می دهند [۴۰]. لیو و همکاران یک متاآنالیز از ۴۵ مطالعه در مورد کارایی ChatGPT در امتحانات مجوز پزشکی انجام داد. دانشمندان دریافتند که ChatGPT-3.5 زمانی که سؤالات به انگلیسی ترجمه می شد، عملکرد بهتری داشت. این همبستگی برای ChatGPT-4.0 قابل اجرا نبود [۴۱]. نتایج متنوع در میان مطالعات می تواند تأثیر ویژگی های زبانی خاص، اصطلاحات متمایز که بسته به زمینه متفاوت است، یا تفاوت های ظریف ساختاری در سؤالات باشد. عواملی که بر عملکرد در زبانهای مختلف تأثیر میگذارند نیز میتوانند مربوط به ChatGPT باشند—ویژگیهای بیشتری توسط مربیان انسانی (احتمالاً بزرگترین نماینده کاربران انگلیسی زبان) و گستره رو به افزایش دائمی دادههای عمومی (آخرین بهروزرسانی به ChatGPT-4 در آوریل ۲۰۲۳ منتشر شد، اما به روز رسانی بعدی بسیار قابل پیش بینی است.
برای نسخه لهستانی جلسه بهار ۲۰۲۳، شاخص دشواری (محدوده بین ۰٫۰ و ۱٫۰؛ هر چه مقدار بیشتر باشد، سؤال آسان تر است) پاسخ های نادرست به طور قابل توجهی کمتر از پاسخ های صحیح برای ChatGPT-3.5 و ChatGPT-4 بود. . برای نسخه لهستانی جلسه پاییز ۲۰۲۳ برای ChatGPT-4، نتایج مشابهی به دست آمد (هیچ اهمیت آماری برای ChatGPT-3.5 وجود ندارد). گرایش های قابل مشاهده شاخص دشواری پاسخ های نادرست برای نسخه انگلیسی جلسات بهار ۲۰۲۳ و پاییز ۲۰۲۳ با موارد مربوط به نسخه لهستانی مطابقت دارد. از این رو، این نتایج ثابت کرد که ChatGPT-3.5 و ChatGPT-4 بدون در نظر گرفتن نسخه زبان، با مشکلاتی در سوالات چالش برانگیز در پریودنتولوژی مواجه شدند. در ادبیات، نمونه های بیشتری از همبستگی عملکرد ChatGPT با سطوح دشواری وجود دارد. لواندوفسکی و همکاران سطح دانش ChatGPT را در آزمون گواهی تخصصی درماتولوژی آزمایش کرد. آنها دریافتند که پارامتر پاسخ های نادرست ChatGPT-4 و ChatGPT-3.5 به طور قابل توجهی با شاخص دشواری کمتر مرتبط است. [۴۲]. در مطالعه ای که در آن ChatGPT یک معاینه به سبک تخته رادیولوژی (شامل ۱۵۰ سوال چند گزینه ای) انجام داد، محققان دریافتند که عملکرد در سوالات مدیریت بالینی و سوالات درجه پایین بهتر است اما ChatGPT با سوالات تفکر مرتبه بالاتر با مشکلاتی مواجه شد. مانند کاربرد مفاهیم، طبقه بندی، یافته های تصویربرداری و محاسبه [۴۳]. لی، در نامه خود به سردبیر، پیشنهاد کرد که عملکرد ChatGPT در مسائل بالینی پیچیده تر، مانند رژیم های شیمی درمانی کمکی برای مرحله دوم سرطان روده بزرگ، کافی نیست. [۴۴].
ما موافقت پاسخهای نادرست را برای دندانپزشکان و ChatGPT-3.5 و ChatGPT-4 ارزیابی کردیم. کمترین مقدار ضریب کاپا کوهن برای ChatGPT-3.5 در جلسه بهار ۲۰۲۳، نسخه لهستانی، و برای ChatGPT-4 در جلسه پاییز ۲۰۲۳، نسخه انگلیسی مشاهده شد (هر دو می توانند به عنوان حداقل توافق تفسیر شوند). بالاترین مقدار برای ChatGPT-3.5 در جلسه پاییز ۲۰۲۳، نسخه لهستانی ثبت شد (پارامتر را می توان به عنوان توافق متوسط تفسیر کرد). دادهها نشان داد که پزشکان به سؤالاتی غیر از سؤالاتی که ChatGPT به آنها پاسخ میدهد، پاسخ اشتباه دادهاند. آموزش تخصصی پریودنتولوژی بر اساس برنامه تخصصی توسعه یافته توسط مرکز معاینات پزشکی در لهستان (CEM) بسیار استاندارد شده است. برخی متون علمی به عنوان پایگاه دانش پزشکان تعیین شده است. این دادهها لزوماً برای دسترسی ChatGPT در دسترس نیستند، که میتواند دلیل ارزش موافقت پاسخهای نادرست باشد.
ChatGPT را می توان به عنوان یک موتور آماری در نظر گرفت که الگوها را ارزیابی می کند و محتمل ترین پاسخ های مکالمه را برون یابی می کند. بر خلاف ذهن انسان که با حجم اطلاعات کم به طور موثر کار می کند، به حجم عظیمی از داده نیاز دارد [۴۵]. این فرآیند تحت یک فرآیند یادگیری مداوم از دادههای تولید شده توسط انسان قرار میگیرد و به همین دلیل، خروجیهای آن بیشتر با ادراک انسانی مرتبط است تا نمایندگان کاملاً منطقی و میتواند سوگیریهای شناختی برابر را منعکس کند. [۴۶]. توهمات مصنوعی می تواند به عنوان ترکیبی از داده های واقعی و ساختگی رخ دهد. در زمینه هایی که یکپارچگی و اعتبار ضروری است (مثلاً مقالات علمی)، استقرار ChatGPT نگرانی هایی را ایجاد می کند. [۴۷]. با این حال، عملکرد ChatGPT به طور مکرر مقاومت در برابر ادعاها و اظهارات اثبات نشده را نشان می دهد. سالام و همکاران یک مطالعه توصیفی برای ارزیابی اینکه آیا ChatGPT میتواند منبع اطلاعاتی معقولی از نظر توطئههای واکسن COVID-19 باشد، انجام داد. [۴۸]. آنها دریافتند که ChatGPT نظریه های مربوط به توطئه واکسن کووید-۱۹ را رد کرده و پاسخ های بی طرفانه ای در مورد واکسیناسیون اجباری ارائه کرده است. [۴۸]. دیانا و همکاران پیشنهاد کرد که ابزارهای هوش مصنوعی ممکن است در زمینه های مراقبت های بهداشتی مفید باشند، اما بدون پشتیبانی پزشکی قابل اعتماد، خطر قابل توجهی از پاسخ های فریبنده وجود دارد. [۴۹].
در زمینه پریودنتولوژی، هنوز تعداد ناکافی از انتشارات علمی در مورد استفاده از ChatGPT در معاینات پزشکی وجود دارد، که مقایسه نتایج ما با سایر نویسندگان غیرممکن است. با این وجود، Babayiğit و همکاران. قابلیت استفاده از ChatGPT را در اطلاعات بیمار در مورد پریودنتولوژی ارزیابی کرد. آنها از ChatGPT درخواست کردند تا ۱۰ سوال متداول بیماران را در مورد هفت موضوع (حساسیت دندان، تحلیل لثه، بیماری های پریودنتال، بیماری های اطراف ایمپلنت، هالیتوز، ایمپلنت های دندانی و جراحی پریودنتال) ایجاد کند، سپس سوالات به ChatGPT ارسال شد. پاسخ ها از نظر دقت (مقیاس لیکرت) و کامل بودن (مقیاس صفر) رتبه بندی شدند. نویسندگان نمره دقت متوسط ۶ را برای همه پاسخ ها و نمره کامل بودن ۲ را به دست آوردند (میانگین مقادیر دقت و کامل بودن به ترتیب ۲۳/۰ ± ۵۰/۵ و ۲۴/۰ ± ۳۴/۲ بود). بیشترین امتیاز دقت مربوط به بیماری های اطراف ایمپلنت و کمترین آن مربوط به تحلیل لثه بود. بیشترین نمره کامل برای تحلیل لثه و کمترین آن برای ایمپلنت دندانی به دست آمد. [۵۰]. نتایج نشان داد که ChatGPT پتانسیل آشنایی بیماران با مسائل پیچیده پزشکی و افزایش آگاهی در مورد منشاء و درمان بیماری پریودنتال را دارد. لی مطالعه ای را انجام داد که دقت پاسخ های جراحی پریودنتال داده شده توسط دانشجویان دندانپزشکی و ChatGPT را مقایسه کرد. آزمون شامل ۲۵ سوال چند گزینه ای بود. دانش آموزان به طور متوسط به ۲۱٫۵۱ سوال پاسخ صحیح دادند. برای ChatGPT 3.5 و ChatGPT 4.0، نتایج به ترتیب ۱۴ و ۲۰ سؤال صحیح بود. نتایج نشان داد که ChatGPT به طور کلی بدتر عمل می کند. با این حال، تفاوت بین دانشجویان و آخرین نسخه جزئی بود [۵۱]. با افزایش حجم داده ها در آینده، ChatGPT به طور بالقوه بهتر از پاسخ دهندگان انسانی خواهد بود.
ساختار نحوی ورودی می تواند هم محدودیت و هم فرصتی برای استفاده کارآمد از ChatGPT باشد. در محدوده ۴۵ مطالعه مشاهده شد که ChatGPT-3.5 در پردازش پرس و جوهای متن کوتاه موثرتر از پرس و جوهای متن بلند بود. علاوه بر این، دقت ChatGPT برای سوالات چند گزینه ای مبتنی بر تصویر بیشتر از سوالات باز بود. [۴۱]. یک معیار مهم برای ارزیابی مطالعات مربوط به ChatGPT این است که درخواست چگونه ساخته می شود. مهندسی سریع رشته جدیدی از هوش مصنوعی با هدف بهینه سازی و افزایش کارایی خروجی های LLM با ایجاد دستورالعمل های خاص است. کیفیت خروجی را می توان با پیروی از برخی توصیه ها افزایش داد، از جمله زمینه سازی موضوعات تحت پوشش، تعیین شرایط مرزی، مشخص کردن اهداف خاص، درخواست اطلاعات خاص، و درخواست برای ایفای نقش. [۵۲].
علیرغم سودمندی غیرقابل انکار ChatGPT، به سختی می توان تأثیر کل LLM ها را در ایجاد داده، آموزش پزشکی و عملکرد بالینی پیش بینی کرد. نگرانی های اخلاقی مختلفی در مورد داده های تولید شده توسط هوش مصنوعی مطرح شده است. گائو و همکاران ثابت کرد که چکیده های علمی تولید شده توسط ChatGPT در ۳۲ درصد موارد توسط پاسخ دهندگان انسانی به عنوان اصلی طبقه بندی شده است. در ۱۴ درصد موارد، آثار اصلی به عنوان AI تولید شده شناسایی شدند. ChatGPT محتوای معتبری را تشکیل داد که عمدتاً مصنوعی بود [۵۳]. در آینده، جامعه و نهادهای عمومی ممکن است تشخیص بین محتوای تولید شده توسط انسان و LLM دشوار باشد. تأیید نتایج یادگیری در بین دانشجویان پزشکی ممکن است چالش بعدی در عصر هوش مصنوعی باشد. مقالات نوشته شده ممکن است به طور جزئی و حتی به طور کامل توسط LLM توسعه داده شوند و توسط نرم افزار سرقت ادبی شناسایی نشوند. اگمن و همکاران نشان داد که دانش دندانپزشکی عمدتاً با کلاسهای عملی، معاینات شفاهی و آزمونهای چند گزینهای به جای مقاله تأیید میشود. [۵۴]. با این حال، مطالعه ما نشان می دهد که ChatGPT می تواند یک آزمون چند گزینه ای را در یک زمینه بسیار تخصصی دندانپزشکی قبول کند. نظارت مستمر در آموزش پزشکی و آزمایش توصیه می شود. کاربرد گسترده ChatGPT ممکن است به کاهش اشتغال در مؤسسات مراقبت های بهداشتی و تحقیقاتی، به ویژه در میان کارگران ضعیف کمک کند. [۵۵].
منبع: https://www.mdpi.com/2673-2688/6/1/3