تجزیه و تحلیل مقایسه ای از استخراج ADR از متون زیست پزشکی و رسانه های اجتماعی

۱٫ مقدمه

واکنش های دارویی Advorse (ADR) بار قابل توجهی بر مراقبت های بهداشتی تأثیرگذار بر موربی ، مرگ و میر و مخارج اقتصادی جهانی است [۱]بشر سایت های شبکه های اجتماعی به عنوان سیستم عامل های اساسی برای محتوای با استفاده از کاربر ظاهر شده اند ، و یک مخزن غنی از تجربیات ، نظرات و بررسی های بیمار در حال تحول واقعی ارائه می دهند. سیستم عامل های موضوعی منبع گسترده ای از داده های بدون ساختار ، از جمله واکنش های نادر یا گزارش نشده گزارش شده را ایجاد می کنند که در غیر این صورت ممکن است مورد توجه قرار گیرد ، از این طریق دسترسی به برادوی و تقسیم بیشتر از جمعیت داروها را فراهم می کند.
در این زمینه ، یکی از چالش برانگیزترین و مشکلات ، کدام یک از متون رونویسی و طبقه بندی اشخاص مربوطه را به دسته بندی ها (دیسک ها ، دیسک ها ، دیسک ها ، جلوه های پیش بینی و غیره طبقه بندی می کند) [۲]بشر اثر Bioner با استفاده از یادگیری عمیق (DL) و پردازش زبان طبیعی (NLP) برای شناسایی ذکرهای داروها و ADR های مرتبط ، تسهیل به موقع گلدان با ارزیابی حادثه ADR های جدی ، از طریق داده های متنی با استفاده از یادگیری عمیق (DL) و پردازش زبان طبیعی (NLP) انواع مختلفی را مرتب می کند.
ترانسفورماتورها ، به عنوان تکنیک های برجسته یادگیری عمیق ، در عصاره روابط معنایی و تفاوت های متنی از ورودی های متن بسیار عالی هستند و یک راه حل Robus برای شناسایی ورودی های اخیر مربوط به ورودی های Massociated و ADR ارائه می دهند. بر خلاف رویکردهای سنتی ، ترانسفورماتورها به صورت موازی فرش می کنند و درک کاملی از مداخلات کلمه و دلالت بریدر آنها در Cience of ADR را امکان پذیر می کنند. این قابلیت توسط مدلهایی مانند BioBert بیشتر تقویت می شود [۳]که به طور خاص در شرکتهای بزرگ زیست پزشکی از قبل ت راپ شده است. Biobert می تواند مناسب برای کارهایی مانند ADR Idnafrication باشد ، و درک عمیق آن از اصطلاحات زیست پزشکی و راهبه های زبان پزشکی را اعمال می کند.

در این مطالعه ، یک چالش اصلی در شناسایی دقیق و برچسب زدن تمام دهانه های متنی که مطابق با اشخاص مورد علاقه ، واکنشهای خاص داروهای Advction (ADR) در یک سند است. به عنوان مثال ، در Senterance “یک هفته پیش من از لیپیتور فرار کردم و بعد از پنج روز دریافتم که درد بازو و آرنج من فروکش کرده است” انتظار می رود سیستم استخراج شود “درد آرنج شدید” وت “درد بازو” همانطور که داروهای پیشرفته واکنش نشان می دهند و لیپنده به عنوان یک موجودیت دارویی.

ارزیابی های پیشنهادی در ابتدا بر اساس معماری های مبتنی بر ترانسفورماتور انجام شده است ، و به ویژه مدلهای از پیش تعیین شده مانند برت و انواع آن را اعمال می کنند. دو مجموعه داده مجزا مورد استفاده قرار گرفت: (۱) استخراج رسانه های اجتماعی برای برنامه های بهداشتی [۴] (SMM4H) مجموعه داده ها و (۲) روایت های رویدادهای داروی Advision [5] (CADEC) مجموعه داده. مطالعه ما شامل طیف وسیعی از مدل ها ، از جمله BERT ، به همراه Biobert و PubMedbert است ، در حالی که به طور خاص متناسب با متن زیست پزشکی متناسب است. علاوه بر این ، آلبرت و روبرتا برای عملکرد پیشرفته خود به عنوان انواع بهینه شده BERT گنجانده شده اند. ما همچنین مدلهای پیشرفته مانند XLNET را ارزیابی کردیم ، در حالی که زمینه دو طرفه را با آموزش های مبتنی بر جایگاه ضبط می کند ، و به رسمیت شناختن نهاد مبتنی بر اسپانبرت ، Whanhancs. علاوه بر این ، الکترا و نوع زیست پزشکی آن Bioeclectra رویکردهای آموزش اثرات را ارائه می دهند ، در حالی که endr-bribut و تبدیل با تکنیک های ویژه برای تشخیص نهاد و پیشرفت های معمولی کمک می کند. با انجام یک تجزیه و تحلیل مقایسه ای مقایسه ای ، ما باید نقاط قوت و حدود معماری ترانسفورماتور Thse را در وظایف با تشخیص ADR برجسته کنیم. این تحقیق نه تنها از توانایی مدل ها در ربات پردازش متن زیست پزشکی نیز غنی می شود ، بلکه بینش بینش ارزشمندی را برای بهبود تکنیک های تکنیک های موجود در این حوزه بهبود می بخشد.

سه سهم اصلی این مقاله عبارتند از:

  • اولیبشر

  • دومWEE بر اهمیت پیش پیگیری خاص دامنه برای تقویت عصاره ADR تأکید می کند. تجزیه و تحلیل ما که چگونه داده های آموزش متناسب با آن می توانند به طور قابل توجهی دقت مدل را در زمینه های زیست پزشکی بهبود بخشند.

  • بالاخرهما بینش هایی از مدل های از پیش ارائه شده بر اثر تشخیص ADR ارائه می دهیم ، نشان می دهد که چگونه می توان قبل از تایپینگ می تواند به کارهای زیست پزشکی و دارویی قابل استفاده باشد.

مقاله به شرح زیر سازماندهی شده است. اول ، در بخش ۲ ، ما چندین روش پیشگام Bioner را برای استخراج واکنش دارویی نامطلوب مرور می کنیم. در مرحله بعد ، ما شرح مفصلی از ۱۱ نوع ترانسفورماتور را که مقایسه می شوند ، از جمله مواد ارزیابی مورد استفاده و خلاصه ای از فرایند آموزش ارائه می دهیم. در بخش ۴ ، ارزیابی ماژالها در دو مجموعه داده و تجزیه و تحلیل برای همبستگی ویژگی ها و عملکرد مدل ها ارائه می شود. مقاله را با بحث نهایی در مورد نتایج نتیجه می گیریم.

۲٫ پیشینه و کار مرتبط

موجودیت نام زیست پزشکی به عنوان وظیفه شناسایی و طبقه بندی ورودی های زیست پزشکی به نام (BNES) تعریف شده است ، اصطلاحات فنی با اشاره به مفاهیم کلیدی مانند DISE ، DISE ، DEMED E. بیونر منطقه ای از تحقیقات است که نیاز به زمان و اثر دارد.

تحقیقات قبلی عمدتاً به الگوریتم های یادگیری عمیق و تشخیص الگوی اهمیت داده است. در حالی که مدل های یادگیری عمیق بسیار قدرتمند هستند ، آنها همچنین پیچیده هستند و اغلب به منابع محاسباتی قابل توجهی و زمان اجرای طولانی نیاز دارند [۵]بشر تکنیک های پردازش زبان طبیعی (NLP) به طور گسترده برای کارهای بیونر به کار می رود. با این حال ، این رویکردها با چندین محدودیت اصلی روبرو هستند: (i) استخراج ورودی های جدید نیاز به کارهای اضافی و بازآموزی دارد. (ب) عدم وجود داده های حاشیه نویسی در سطح بالا و در مقیاس بزرگ. (iii) عدم توانایی در تشخیص رابطه ADR بین یک دارو و یک ماده غیر دارویی. (IV) سیستم های بیونر ممکن است در معالجه ADR ها مبارزه کنند. روشهای NLP برای تشخیص ADRS شامل وظیفه تشخیص نهاد نامگذاری شده (یک AVE از ۵۸٫۶ ٪) و وظیفه رابطه/طبقه بندی (به طور متوسط ​​۵۱٫۷ ٪) است [۶]بشر
ترانسفورماتورها به عنوان مأموریت مورد استفاده در نظر گرفته می شوند. نویسندگان در [۷] یک مدل چند کاره کاملاً سایه دار را بر اساس مدل پیش از رنگ در حوزه زیست پزشکی ، یعنی Biobert ، با یک ماژول جدید به نام Combinality (CFA) برای کارآیی خودکار مصنوعی برای کار Bioner ارائه داد. این مدل در مقایسه با مدل تک وظیفه ، یک امتیاز کامل F1 از ۰٫۸۱ به ۱٫۲۶ درصد درصد را بدست آورد ، و در نتیجه نمرات کلی F1 به جز ۸۱ ٪ در مجموعه داده های متعدد BEAMMARK. نویسندگان در [۸] روش پیشنهادی برای مرکز صفر و چند ضربه ای در حوزه زیست پزشکی ، به طور متوسط ​​نمرات F1 را بدست آورد: ۳۵٫۴۴ ٪ برای مرکز صفر-شات ، ۵۰٫۱۰ ٪ برای NER یک شات ، ۶۹٫۹۴ ٪ برای IR 10 شات و ۷۹٫۵۱ ٪ برای ۱۰۰ -اطلاع رسانی روشهای مبتنی بر ترانسفورماتور Previvault و قابل مقایسه با MODL های مبتنی بر GPT3. با این حال ، مدل های ترانسفورماتور سریال ، مانند Bert ، Biobert ، Spanbert ، Bluebert و Scibert ، به خوبی تنظیم شده و برای تشخیص ADR از ادبیات زیست پزشکی ، سوابق الکترونیکی و رسانه های اجتماعی ارزیابی شده اند [۵]بشر عملکرد مدل ها در مجموعه داده های مختلف ، از جمله پست ها و توییت ها ، به عنوان کمک به تأثیرات آنها در رسیدگی به متون غیررسمی مقایسه شده است [۹]بشر
علاوه بر این ، ترکیب مدل های مبتنی بر ترانسفورماتور با لایه های پردازش اضافی ، مانند CRF و LSTM ، برای بهبود عملکرد کاوش شده است [۴]بشر علاوه بر این ، استفاده از شبکه های Convolutional Graph (GCN) در رابطه با ترانسفورماتورها برای تقویت استخراج روابط ADR ، دستیابی به شرکت نتایج برتر به سایر روشها ، پراکنده شده است. [۱۰]بشر نویسندگان در [۱۱] یک مدل مبتنی بر BERT را برای گسترش حوادث جانبی دارویی از رسانه های اجتماعی معرفی کرد و به شکافی در پردازش زبان ناآگاه و داروسازی پرداخت. با استفاده از داده های برچسب زده شده از ADE-CORPUS-V2 ، این مدل از طریق تنظیم Hyperparameter بهینه شده و با دقت بالا به طور دقیق ارزیابی شد ، دستیابی به F1 از ۰٫۸۱۲۷ برای B-AEE (شروع بروز جانبی) (در داخل رویداد Adver) و ۰٫۹۷۹۰ برای O (دیگر) اعتبار سنجی خارجی با مجموعه داده SMM4H قابلیت اطمینان آن را تأیید کرد. این مطالعه پتانسیل مدل های مبتنی بر BERT برای نظارت بر ایمنی دارو است و نیاز به چارچوب های ارزیابی سازگار در فارماکوویگیلن بیضی را برجسته می کند ، این مطالعه نشان می دهد که به حساب و شناخت کارآمد واکنش های داروی Advorse اشاره دارد.
آثار اخیر اثرات ترانسفورماتورها را در NER زیست پزشکی نشان می دهد ، به چالش های داده های محدود و بهبود عملکرد مدل های موجود پرداخته است. یکی از مهمترین چالش ها در این زمینه این است که: (۱) مدلهای بنیادی پیش از دامنه عمومی همیشه به دلیل زبان بسیار تخصصی به اندازه کافی به دامنه حوزه بالینی منتقل نمی شوند [۱۲]بشر (۲) نیاز به لایه های پردازش اضافی. در این دامنه ، بسیاری از روش های شبکه عصبی به ویژه حافظه کوتاه مدت کوتاه مدت (LSTM) و تکنیک های تصادفی مشروط (CRF) منتشر شده اند که در شناسایی Brexts ADRES دارای سود حرفه ای هستند. به عنوان مثال ، dablc [13]یک BILSTM-CRF مبتنی بر جاذبه اسناد برای بیماری به نام شناخت موجودیت. آزمایشات روی دو شرکت Widel-Os (Corpus بیماری NCBI و Corpus Viocreatile V) به بالاترین نمرات F1 رسید (NCBI: Precision = 0.883 ، فراخوان = ۰٫۸۹ ، F1 = 0.886 ؛ ، فراخوان = ۰٫۸۷۵ ، F1 = 0.883). بنابراین ، نویسندگان در [۱۴]شامل BERT + BILSTM + CRF دستیابی به ۸۹٫۵۶ ٪ نمره F1 Strint در مجموعه داده CCKS-2018 و نمره F1 91.60 ٪ در مجموعه داده CCKS-2017. برای جلوگیری از فرآیندهای رمزگشایی مانند زمینه های تصادفی مشروط (CRF) ، نویسنده [۱۵] برای بهره برداری از دانش قبلی بیشتر ، به خوبی از طراحی شده استفاده کنید ، به ترتیب به ترتیب F1 92.92 ٪ ، ۹۴٫۱۹ ٪ ، ۸۷٫۸۳ ٪ ، I-Disease ، BC2GM و JNLPBA. سایر مطالعات تعبیه شده ویژگی برای شناسایی مدخل ها و پاسخ دادن به اطلاعات وابستگی [۱۶]بشر آخرین نتیجه با ترکیب سه نوع ویژگی مختلف ، نتایج کارآمد کسب کرد: (۱) ویژگی های عمیق در سطح کلمه ، (۲) ویژگی های سطح کاراکتر محلی و (۳) ویژگی های بخشی از نمایش. تعبیه چند فیوه ذوب شده ، اطلاعات معنایی را برای شناخت نهاد نامگذاری شده افزایش می دهد اما فاقد وابستگی به اطلاعات در زمینه است.

۳٫ مواد و ریاضیات

در این بخش ، ما یک نمای کلی از مجموعه داده ها ، روش ها و مدل های مورد استفاده در این مطالعه برای استخراج واکنش های دارویی منفی از متن زیست پزشکی تهیه می کنیم. ما مجموعه داده های مختلف به کار رفته را کشف می کنیم ، مراحل پیش پردازش را شرح می دهیم و به معیارهای مورد استفاده برای ارزیابی می پردازیم. علاوه بر این ، ما فرمولاسیون مسئله را در زمینه شناخت موجودیت به نام زیست پزشکی بررسی می کنیم و یک تجزیه و تحلیل درون متمایز از معماری های ترانسفورماتور و مدل های خاص برای استخراج ADR ارائه می دهیم.

۳٫۱ مجموعه داده ها

با توجه به علاقه زیاد به استخراج واکنش در حال پیشرفت ، انتشار مجموعه داده های CADEC و SMM4H به طور قابل توجهی در پیشرفت در این زمینه نقش داشته است. آنها به عنوان به روزرسانی ترین مجموعه داده های برای استخراج ADR از رسانه های اجتماعی شناخته شده اند ، آنها به منابع محوری ویدل که توسط جامعه تحقیقاتی پذیرفته شده است ، تبدیل شده اند. CADEC دارای ظروف گسترده و ساختاری است که از پست های پزشکی “AskApartent” تهیه شده است ، در حالی که SMM4H متون غیررسمی و مختصر را که در توییتر به وجود می آید ، ارائه می دهد و متنوعی از زبانشناسی را برای تجزیه و تحلیل برای تجزیه و تحلیل ارائه می دهد.

مجموعه داده کادک [۵] شامل ۱۲۵۰ پست مربوط به رویدادهای دارویی اصلاح شده بیمار (ADE) است. این جملات غالباً از قوانین نقطه گذاری استاندارد و دستور زبان رسمی انگلیسی انحراف می گیرند زیرا به زبان کلالاس نوشته شده اند. این مجموعه داده شامل پنج نوع موجودیت است: ADR ، بیماری ، دارو ، یافتن و Sympom. تمرکز ما روی اشخاص ADR است ، و مجموعه داده شامل ۱۱۰۷ پست حاوی در مورد ذکر یک رویداد دارویی (ADE) است. در همین حال ، ۱۴۳ پست فاقد هرگونه ذکر ADE است ، و هدف ما این است که آنجا را از تجزیه و تحلیل خارج کنیم.
مجموعه داده SMM4H 2019 [4] حاوی توتال ۲۲۷۶ توییت ، از این میان ۱۸۳۲ توییت برای پیش بینی واکنش های داروی Advorse (ADR) مشخص می شود ، در حالی که توییت های ۹۷۷ باقی مانده به عنوان منفی طبقه بندی می شوند. نکته قابل توجه ، این توییت ها تکثیر را نشان می دهند ، به عنوان هر ADR با همان یکسان به طور جداگانه. پس از فرآیند گروه بندی بر اساس Tweet_ID ، مجموعه داده ها به قوام ۱۳۰۰ توییت منحصر به فرد تصفیه می شود و جمهوری تلفیقی تر و ساده تر را برای اهداف تجزیه و تحلیل و تحقیق ارائه می دهد.
مجموعه داده های CADEC و SMM4H برای ویژگی های مکمل آنها انتخاب شدند و یک چارچوب متعادل برای کارهای عصاره ADR ارائه دادند. Cadec ، که از ۱۲۵۰ پست ساختاری در انجمن ساخته شده است ، ۷۵۹۷ جمله با ۱۲۱،۶۵۶ توکن را ارائه می دهد ، و این امر را برای تجزیه و تحلیل دقیق ADR در تجربیات تحت تأثیر بیمار مناسب می کند. در مقابل ، SMM4H بر پست های غیر رسمی و مختصر رسانه های اجتماعی متمرکز است ، که شامل ۱۳۰۰ توییت منحصر به فرد است که از ۲۲۷۶ پست اصلی تلفیق شده است ، با ۴۲۱۷۵ نشانه. مضامین بیشتر جمهوری از چالش های زیست پزشکی در دنیای واقعی در مقایسه با سایر معیارها هستند ، زیرا Cadec زبان ساختار یافته را در حالی که SMM4H واریانس و سر و صدای ذاتی در رسانه های اجتماعی را ضبط می کند. آمار دقیق Corpus (جدول ۱) مناسب بودن آنها را برای ارزیابی عملکرد مدل در سبک های متنوع نشان می دهد ، و بینش های قوی و قابل تعمیم را تحریک می کند.
پیش پردازش داده ها: فرآیند حاشیه نویسی داده ها در هر دو مجموعه داده سازگار است. قبل از شروع حاشیه نویسی داده ها ، ما یک فرآیند روش را با حذف منحصراً سوراخ ، URL ها و گسترش مخاطبین ادغام کردیم. متعاقباً ، ما حاشیه نویسی ها را با استفاده از طرح حاشیه نویسی آغازین خارج (BIO) برای نشانه های تشکیل دهنده متن تبدیل کردیم. در اینجا ، “B-ADR” بیانگر واکنش Frug Advance (ADR) است ، “IA-ADR” نشانگر نشانه های زیر است که به ADR می روند ، و “O” نشان می دهد که DOS Token متعلق به ADR نیست همانطور که در شکل ۱ نشان داده شده است. یک چالش قابل توجه این بود که یک متن واحد می تواند با دو واکنش داروی مختلف Advorse همراه باشد. به عنوان مثال ، جملاتی مانند “من ماهها است که از لیپیتور خارج شده ام و در عین حال و ضعف” که در آن اصطلاحات “پاهای دردناک” و “پاهای ضعیف” هر دو با ADR های مختلف مطابقت دارند و “I Coundn. یا بعد از گرفتن آن قدم می زنم. حدود یک هفته.

۳٫۲ معیارها

در این مقالات ، ما نمره دقت ، فراخوان و F1 را به عنوان معیارهای ارزیابی اولیه برای طبقه بندی توکن چند طبقه در شناخت موجودیت نام زیست پزشکی اتخاذ می کنیم. اقدامات دقیق از نمونه های مثبت به درستی مشخص شده ، همه موارد پیش بینی شده را مثبت می کند و این نشان دهنده توانایی جلوگیری از روانگردان کاذب است. به یاد بیاورید ، از طرف دیگر ، ارزیابی موارد صحیح شناسایی شده در بین همه نمونه های مثبت واقعی را نشان می دهد ، که نشان دهنده توانایی مدل در گرفتن همه موجودات رهاسازی است. نمره F1 ، که میانگین هارمونیک دقت و فراخوان است ، اندازه گیری تعادل عملکرد مدل را ارائه می دهد ، هر دو موقعیت کاذب و نفی کاذب را در نظر بگیرید. THEMES COLCELVELI درک درستی از دقت ، کامل بودن و تأثیر کلی مدل در شناسایی ورودی های زیست پزشکی ACSSC را ارائه می دهد ، برای ارزیابی تحول لاستیک در کارهای بیونر بسیار مهم است. فرمول های معیارها به شرح زیر است:

دقت = TP TP با FP

ج ۱ امتیاز = ۲ × دقت × یادآوری کردن دقت با یادآوری کردن

کجا:

  • TP (مثبت واقعی) به تعداد نمونه های مثبت مشخص شده اشاره دارد.

  • FP (مثبت کاذب) به تعداد دستورالعمل های نادرست طبقه بندی شده به عنوان مثبت اشاره دارد.

  • FN (منفی های دروغین) به تعداد نمونه های مثبت واقعی اشاره دارد که به طور نادرست به عنوان منفی طبقه بندی می شوند.

۳٫۳ تدوین مسئله

استخراج واکنشهای داروی Advction یک مشکل برچسب زدن به دنباله در کار Bioner است ، جایی که هدف شناسایی اشخاص با عنوان “B-ADR” ، “I-ADR” یا “در InputScencces است. به طور رسمی ، این کار شامل یادگیری نقشه برداری است F: W → y ، جایی که W ، جایی که فضای توالی توکن و Y مجموعه ای از برچسب های موجودیت را نشان می دهد. x ۱ با x ۲ … ، x من } از W ، هدف این است که هر کلمه را از برچسب برچسب z = {{{اختصاص دهید حرف ۱ با حرف ۲ … ، حرف من } در Y.

۳٫۴ معماری ترانسفورماتور

معماری ترانسفورماتور ، محوری در استخراج واکنش در حال پیشرفت ، با استفاده از چارچوب دکوراسیون سابق آن ، وظیفه پیچیده شناسایی اشخاص و روابط در متون پزشکی را انجام می دهد. رمزگذار (سمت چپ) دنباله های ورودی را از طریق لایه های شبکه های خودآموزی و فیدر چند سر ، غنی شده با اتصالات باقیمانده و عادی سازی لایه برای حفظ اطلاعات اطلاعاتی پردازش می کند (شکل ۲). از نظر ریاضی ، هر مکانیسم خودآگاهی با رمزگذار به صورت فرموله شده است:

توجه ( سعدی با k با حرفهای ) = نرم ( سعدی k حرف د k ) حرفهای

این ، q ، k و v جمهوری ، ماتریس های کلید و ارزش ، به ترتیب ، از دنباله ورودی خارج شده و د k ابعاد کلیدها است که تولید DOT را عادی می کند تا بیش از حد از مقادیری که آموزش بی ثبات را به حساب می آورند ، جلوگیری کند. این فرمولاسیون به مدل اجازه می دهد تا نمرات توجه را که برجسته های مربوط به دنباله ورودی برای هر نشانه را نشان می دهد محاسبه کند.

در کنترل ، رمزگذار (میانه) این ساختار با اضافه کردن یک مکانیسم آتلانتمی چند سر ، برای تولید خروجی های توالی در حین کارهایی مانند استخراج ADR بسیار مهم است ، هنگامی که خروجی ها نیاز به نشان دادن توکن های گسترده دارند. نقاب زدن تضمین می کند که پیش بینی برای یک نشانه خاص فقط زمینه قبلی را در نظر می گیرد و رمزگشایی خودکار را قادر می سازد.

خروجی مکانیسم رسانی در سراسر چندین سر به هم ریخته و به صورت خطی دگرگون شده است و به توانایی مدل در گرفتن وابستگان درگیر با متون پزشکی کمک می کند. افراد وابسته به ترزا برای شناسایی آکادوراتوراسیون روابط زراعی adr adratial ADR ضروری هستند و در نهایت باعث بهبود کیفیت استخراج اطلاعات از روایت های بالینی می شوند.

۳٫۵ مدل های مبتنی بر ترانسفورماتور: تعاریف و مفاهیم

در حوزه تجزیه و تحلیل متن زیست پزشکی ، شناسایی دقیق و استخراج داروهای دارویی که برای بهبود پراکندگی و پیشبرد تحقیقات پزشکی بسیار مهم است. مدل های مبتنی بر ترانسفورماتور به عنوان ابزاری قدرتمند برای این کار ظاهر شده اند و از نوآوری های پیشرفته معماری برای افزایش عملکرد در شناخت موجودیت نامگذاری شده اند. در این بخش ، مدل های مبتنی بر ترانسفورماتور Seural را به طور خاص برای استخراج ADR طراحی یا تطبیق خواهیم داد. هر مدل ویژگی ها و سازگاری های منحصر به فردی را معرفی می کند ، از پیش بینی دامنه تا معماری های ترکیبی ، در بهبود شناسایی و طبقه بندی ADR ها با متون پیچیده زیست پزشکی. درک تعاریف و کنسرت ها بینش در مورد اثرات و کاربرد آنها در قلمرو تشخیص ADR ارائه می دهد.

۳٫۵٫۱٫ آلب آلبرت

آلب آلبرت [۱۸] (A Lite Bert) نوعی از مدل محبوب BERT (گزارش رمزگذار دو طرفه از ترانسفورماتورها) است که توسط Google Research تهیه شده است. این طراحی برای اضافه کردن بینایی محاسبه Bert با معرفی تکنیک های پارامتر-shring ، منجر به کاهش اندازه مدل و زمان آموزش با قربانی عملکرد می شود. Albert Achievers این را با استفاده از به اشتراک گذاری پارامتر لایه متقابل و پارامتر تعبیه شده فاکتوریت. این امر به شما امکان می دهد تا مقیاس را به مجموعه داده های بزرگتر و دستیابی به حالت های-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-the-thostres انجام کار راندمان واتساپ می دهد.

۳٫۵٫۲٫ xlnet

xlnet [19] یک مدل مبتنی بر ترانسفورماتور حالت است که وظایف پردازش زبان طبیعی را متحول می کند. بر خلاف مدل های سنتی ، XLNET یک رویکرد مبتنی بر جایگاه تهی را معرفی می کند ، و همه جابجایی های ممکن از کلمات را با یک ارسال کننده به متن دو طرفه به صورت مؤثر اعمال می کند. این تکنیک XLNET را برای پیشی گرفتن از مدل های Previvault با ترکیب وابستگی های جهانی با بهره وری قربانی ، تقویت می کند. با ترکیب مزایای استفاده از روشهای خودکار و خودکار سازی ، عملکرد برتر XLNET در معیارهای مختلف NLP ، آن را به یک پیشرفت محوری در این زمینه تبدیل می کند.

۳٫۵٫۳٫ عکسبرداری

عکسبرداری [۲۰] یک مدل زبان مبتنی بر ترانسفورماتور است که به طور خاص در یک قسمت گسترده از ادبیات زیست پزشکی از PubMed تنظیم شده است. با تکیه بر معماری BERT ، PubMedbert برای ضبط و درک اطلاعات متن ظریف با متون زیست پزشکی بهینه شده است. این تخصص به مدل اجازه می دهد تا در الگوهای زبانی خاص دامنه برتری داشته باشد ، و آن را برای کارهایی مانند شناخت موجودیت به نام زیست پزشکی و استخراج واکنشهای دارویی پیشرفته ، به ویژه مؤثر می کند. PubMedbert با استفاده از قابلیت های-تنظیم شده IT ، دقت و ارتباط تشخیص ADR را افزایش می دهد ، باعث تسهیل استخراج و طبقه بندی واکنش های دارویی Adven از داده های زیست پزشکی کامپونکس می شود.

۳٫۵٫۴٫ رب

رب [۲۱] (رویکرد برت بهینه شده BERT) یک نسخه پیشرفته از BERT است که برای پرداختن به محدودیت در آموزش اصلی طراحی شده است. این هدف پیش بینی جمله بعدی (NSP) را از بین می برد و ماسک های پویا ایالات متحده ، جایی که هر دنباله در طول آموزش به روش های مختلفی پوشانده می شود. روبرتا در یک مجموعه داده به طور قابل توجهی بزرگتر با دنباله های طولانی تر ، دسته های بزرگتر و نرخ یادگیری بالاتر از قبل تزیین شده است. این رویکرد منجر به عملکرد غیرقانونی و بهبود زبان زبان در زبان های مختلف NLP می شود و این امر را برای کارهای پیچیده مانند عصاره ADR مؤثر می کند.

۳٫۵٫۵٫ برخاستن

برخاستن [۲۲] (گزارش های رمزگذار دو طرفه از ترانسفورماتورها) یک مدل مبتنی بر ترانسفورماتور است که در کارهای پردازش زبان ناآگاهانه از طریق رویکرد خودکار رمزگذاری می شود. برای شناخت نهاد زیست پزشکی که بر واکنشهای داروی پیش بینی شده متمرکز است ، برت با استفاده از مدل سازی زبان نقاب دار (MLM) و پیش بینی Senterage بعدی (NSP) از قبل ت راپ شده است. MLM توکن ها را با یک نشانه ماسک جایگزین می کند و مدل را برای پیش بینی نشانه های اصلی آموزش می دهد ، در حالی که NSP ارزیابی می کند که آیا یکی از فرستاده ها به طور منطقی دیگری را دنبال می کند. این آموزش Alllos Bert برای تأثیرگذاری زمینه و روابط در متن ، آن را برای تنظیم دقیق در داده های زیست پزشکی خاص دامنه برای شناسایی دقیق و طبقه بندی ADR ها بسیار مناسب می کند.

۳٫۵٫۶٫ بیداد

بیداد [۳] یک نوع تخصصی از مدل BERT است ، با دقت دقیق برای کارهای معدنکاری متن زیست پزشکی ، شامل استخراج واکنش های دارویی Advascular است. Biobert با استفاده از پیش پیگیری در شرکتهای گسترده زیست پزشکی و تنظیمات دامنه زیر مجموعه ، در Captur مهارت های معنایی پیچیده و داخلی های متنی در لیترهای زیست پزشکی ماهر است. این اقتباس از معماری ترانسفورماتور BERT ، عملکرد Biobert را در تشخیص موجودیت نامگذاری شده ، به ویژه برای تشخیص ADR ، تقویت می کند. توانایی آن در شناسایی دقیق و طبقه بندی ADR ها با متون پزشکی ، ابزاری با ارزش را برای بهبود فارماکوویگی و پیشبرد تحقیقات زیست پزشکی ایجاد می کند.

۳٫۵٫۷٫ گل

گل [۲۳] ترانسفورماتور یک رویکرد جدید پیش از مسیر را با هدف چالش های افزودنی مرتبط با روش های سنتی مدل سازی زبان ماسک (MLM) مانند BERT معرفی می کند. با آموزش دو مدل ترانسفورماتور ، یعنی ژنراتور و تبعیض آمیز ، Electra به طور مؤثر یاد می گیرد که تعویض های AccuRatlic به نام Replace Token (RTD) را طبقه بندی کند. بر خلاف MODL های مبتنی بر MLM ، Electra Operat در تمام نشانه های ورودی به جای فقط یک زیر مجموعه ای که ماسک شده است ، و آن را به یک اثر محاسبه تر از رویکرد پیش رویکرد قبل از تماشای جلوه های تماشای جلوه در Dowsemstream NLP NL تبدیل می کند.

۳٫۵٫۸٫ بیفیکلیکترا

بیفیکلیکترا [۲۴] یک مدل مبتنی بر ترانسفورماتور است که به طور خاص برای تجزیه و تحلیل متن زیست پزشکی متناسب است. با استفاده از معماری الکترا ، اهداف خاص دامنه و استراتژی های تنظیم دقیق را برای تقویت مؤثر آن در تاس هایی از این دست به نام دو نام و استخراج درج می کند. با استفاده از شرکت های زیست پزشکی در مقیاس بزرگ ، Bioeclectra Effectivlic ظرافت های خاص دامنه را ضبط می کند ، و پیش بینی های مربوط به متن را در برنامه های پردازش متن زیست پزشکی تسهیل می کند.

۳٫۵٫۹٫ تیمبرت

تیمبرت [۲۵] یک مدل پیش از پیشرو از خود سنجیده شده است که برای تحقق جمهوری و پیش بینی دهانه های متن طراحی شده است. بر خلاف BERT ، که ماسک های نشانه دار ، ماسک های Spanbert از نشانه ها را نشان می دهد و از هدف مرز دهانه (SBO) برای پیش بینی این دهانه های نقاب دار بر اساس گزارش های توکن استفاده می کند. این رویکرد توانایی اسیر کردن زمینه و مرزهای موجودات پیچیده پزشکی را افزایش می دهد ، که برای شناسایی داروهای ناسازگار در متون زیست پزشکی ضروری است. اسپانبرت با تمرکز روی بخش های متن ساخت و ساز و حذف پیش بینی جمله بعدی ، با ساختار متون زیست پزشکی کاملاً مناسب است و اثرات آن را در استخراج ADR بهبود می بخشد.

۳٫۵٫۱۰٫ در انتها

در انتها [۲۶]یا پیشرفته مشخص شده دامنه BERT ، یک مدل جدید مبتنی بر ترانسفورماتور را سرکوب می کند که بر روی یک نظر از نظرات انگلیسی تحت عنوان سلامت انجام شده است. این دانش شامل دانش خاص دامنه و تکنیک های pretrain برای تأثیرگذاری الگوهای زبانی پیچیده زیست پزشکی است و عملکرد برتر در کارهایی مانند بازپرداخت پیشرفت و بیولوژیکی را فراهم می کند. با تنظیم دقیق معماری BERT بر روی شرکت های زیست پزشکی ، درک زبان Endr-enhances و محققان Empuers با ابزاری قدرتمند برای تشخیص ADR و تجزیه و تحلیل متن زیست پزشکی.

۳٫۵٫۱۱٫ کانوبرت

کنگره [۲۷] یک مدل مبتنی بر ترانسفورماتور است که لایه های شبکه Convolutional (CNN) را با معماری BERT ادغام می کند. این نقاط قوت هر دو CNN و ضبط زمینه محلی از طریق عملیات حلقوی است که چه چیزی باید از طریق مکانیزیس های مورد توجه خود ، دلهره های جهانی را ضبط کند. این رویکرد ترکیبی توانایی جذب اطلاعات سلسله مراتبی و موقعیتی را با داده ها افزایش می دهد و منجر به بهبود عملکرد در کارهای مختلف پردازش زبان طبیعت می شود.

۳٫۶ خلاصه مدل ها

این بخش از عارضه نسخه های بنیادی مدل های پیش از این مورد بحث ، همانطور که در جدول ۲ اندازه یا ابعاد مدل (H) ، تعداد کل پارامترها ، تعداد کل پارامترها ، هدف گیری و داده های استفاده شده برای قبل از منطقه این اطلاعات شامل موارد زیر از عملکرد و رفتارهای مختلف مدل های مبتنی بر ترانسفورماتور ، کمک به تغییر مناسب ترین مدل برای کارهای خاص و ساکنان موجود است.

۴٫ نتایج و بحث

۴٫۱ تجزیه و تحلیل نتایج

برای تنظیم HyperParameter ، ما تنظیم دستی را بر اساس تحقیقات قبلی و آزمایش تجربی برای بهینه سازی عملکرد هر مدل در مجموعه داده های CADEC و SMM4H انجام دادیم. نرخ یادگیری ، دوره ها و SIZ های دسته ای پس از آزمایش های اولیه تنظیم شدند ، جایی که شیرهای مختلف را کاوش می کنند تا بهترین ترکیب را برای هر مدل پیدا کنند. Wee با نرخ یادگیری از ۱ × ۱۰ ۵ به ۵ × ۱۰ ۵ مقادیر خاکستر معمولاً برای مدل های ترانسفورماتور تنظیم دقیق استفاده می شود. تعداد دوره ها بر اساس مدل Convergnce انتخاب شد ، از ۵ تا ۸ دوره ، Whish به هر مدل اجازه می داد تا به اندازه کافی در داده های Wtatatatat بیش از حد بیاموزد. اندازه دسته ای حسابداری با اندازه و منابع محاسباتی مدل تنظیم شد و دسته های ۴ ، ۸ و ۱۶ مورد آزمایش قرار گرفتند. SIZS دسته ای کوچکتر به طور معمول نتایج بهتری را برای مدل های بزرگتر به دست می آورد. جدول ۳ تنظیمات هایپرپارامتر را برای مدلهای مختلف مبتنی بر ترانسفورماتور ارزیابی شده در مجموعه داده های CADEC و SMM4H ارائه می دهد ، و میزان یادگیری ، تعداد دوره ها ، اندازه دسته سنت و اندازه اندازه تست را برجسته می کند. این هاپرپارامترها نقش مهمی در تعیین عملکرد مدل ها دارند.
یافته های موجود در جدول ۴ نقاط قوت و ضعف متنوع مدل های مبتنی بر ترانسفورماتور در استخراج ADR ACOSS متون زیست پزشکی ساختاری و اطلاعات رسانه های اجتماعی اطلاعات. مدلهای خاص دامنه مانند Biobert و Prackedbert انجام شده بهترین عملکرد را در مجموعه داده Cadec انجام داده و به احترام به نمرات F1 86.13 و ۸۵٫۲۶ ٪ احترام می رسند. پیش از تایید آنها در شرکتهای زیست پزشکی به آنها اجازه می داد تا اصطلاحات پزشکی و الگوهای ساختاری را به رسمیت بشناسند و از جزئیات ریز و درشت کاپور برتری کنند. با این حال ، در مجموعه داده SMM4H ، این نیاز به سازگاری بیشتر یا تنظیم دقیق برای چنین انواع داده ها را نشان می دهد. اسپانبرت همچنین با عملکرد قوی و سازگاری در هر دو مجموعه داده ایستاده بود و به نمره F1 85.75 ٪ در Cadec و عملکرد قوی با نمره F1 84.29 ٪ در SMM4H دست یافت. هدف مبتنی بر دهانه آن ، در حالی که روابط بین مرزهای دهانه ، به ویژه برای رسیدگی به ورودی های چند کلمه ای و وابستگی های متنی مؤثر است. بر خلاف Biobert و PubMedbert ، مکانیسم اسپانبرت به آن اجازه می داد تا اثرات انتقال از متن ساخت یافته زیست پزشکی به متن بدون ساختار و پر سروصدا رسانه های اجتماعی را منتقل کند و یک نامزد امیدوار کننده برای کارهای زبانی و قالب های داده را ایجاد کند.

مدلهایی مانند Bioelectra و ENDR-AD در مقایسه با مدل های برتر ، عملکرد انتقام را نشان می دهند. در مجموعه داده های Cadec ، Bioeclectra نمره F1 74.67 ٪ را بدست آورد ، در حالی که EndR-Brit با ۸۵٫۳۰ ٪ عملکرد بهتری داشت. در مجموعه داده SMM4H ، عملکرد آنها کاهش یافته است ، با این که Bioelectra 65.22 ٪ و ۷۸٫۰۲ ٪ endr را به دست آورد. در حالی که این مدل ها شامل اقتباس های ورزشی دامنه و روش های پیشرفته آموزش هستند ، نشان می دهد که آنها با مجموعه داده های غیررسمی و پر سر و صدا مانند SMM4H با چالش های روبرو روبرو هستند.

مدل های هدفمند مانند Roberta ، XLNET و BERT نتایج بدبختی را به دست آوردند. در Cadec ، نمرات F1 آنها از ۷۱٫۶۲ ٪ برای روبرتا تا ۸۰٫۴۰ ٪ برای XLNET بود ، در حالی که Bert 84.53 ٪ به ثمر رساند. در SMM4H ، نمرات F1 آنها پایین تر بود ، با روبرتا در ۶۴٫۵۰ ٪ ، XLNET در ۶۹٫۹۶ ٪ و برت با ۷۴٫۸۶ ٪. اگرچه برای برنامه های گسترده NLP قدرتمند است ، اما این مدل ها فاقد مسیر پیش از این هستند که لازم برای پردازش اصطلاحات تخصصی زیست پزشکی یا پاتارن های زبانی غیررسمی موجود در رسانه های اجتماعی وجود دارد. ناتوانی آنها در تطبیق آن با تفاوت های ظریف در ارائه پایین و فراخوان ، محدود کردن محدودیت معماری های هدف عمومی در حوزه های طاقچه مانند عصاره ADR.

مدل های سبک وزن ، مانند آلبرت و کنفرت ، نسبت به سایر مدل ها عملکرد کمتری را نشان دادند. در مجموعه داده های Cadec ، آلبرت به نمره F1 70.37 ٪ رسید ، در حالی که همایش ۷۷٫۲۹ ٪ به دست آورد. عملکرد آنها بیشتر در مجموعه داده SMM4H کاهش یافت و آلبرت ۶۴٫۹۶ ٪ به ثمر رساند و کونوبرت ۶۵٫۲۰ ٪. مدل های موضوعی برای اولویت بندی کارآیی طراحی شده اند ، اما با هزینه کاهش ظرفیت جمهوری ارائه می شود و تحمل پیچیدگی های عصاره ADR را برای آنها سخت تر می کند. معماری های ساده شده آنها با سبک های متنوع زبان و واریانس در مجموعه داده ها روبرو شده و در نتیجه ضعیف ترین عملکرد در بین مدلهای ارزیابی شده است.

علاوه بر این ، ماتریس های سردرگمی برای هر دو مجموعه داده (شکل ۳ برای Cadec و شکل ۴ برای SMM4H) بینش های متفاوتی از عملکرد مدل ها ارائه می دهد. در مجموعه داده های CADEC ، Biobert و Spanbert نرخ مثبت بالایی را برای کلاس اکثریت (کلاس ۰: “O”) نشان می دهند ، با نرخ تخریب کمتر برای کلاس های اقلیت (کلاس ۱: “B-ADR” و کلاس ۲: “I-ADR “). این نشانگر استحکام در رسیدگی به داده های imbalancd است ، دقت و پیش بینی تعداد لامبار نمونه های ADR را با چند خطا پیش بینی می کند. روند مشابهی در مجموعه داده SMM4H مشاهده می شود ، جایی که اسپانبربرت از سایر مدل ها با اشتباهات نادرست در همه کلاس ها بهتر عمل می کند ، و کاپیتان خود را برای مدیریت متن متنوع و غیررسمی نشان می دهد. در مقابل ، مانند Bioelectra و Convibbert نرخ های متفرقه بالاتری را برای کلاس های اقلیت در هر دو مجموعه داده نشان می دهند ، که نشان دهنده مبارزات آنها در شناسایی ADR ها در صحنه های پیچیده تر و نامتعادل تر است. ماتریس سردرگمی موضوع بیشتر معیارهای کمی را تأیید می کند ، با تأکید بر قابلیت های برتر Biobert و Spanbert در کارهای بیونر ، به ویژه در دستیابی به مجموعه داده های ایمپلنت و منابع متنی تقسیم.

۴٫۲ بحث

یافته های این مطالعه بینش قابل توجهی در مورد کاربرد مدلهای مبتنی بر ترانسفورماتور برای استخراج ADR ، پیامدهای گسترده تر و مسیرهای مسیر برای تحقیقات آینده ارائه می دهد. عملکرد مشاهده شده بین مجموعه داده های CADEC و SMM4H متفاوت است ، نقش مهمی را که ویژگی های مجموعه داده ها در اثربخشی مدل ایفا می کند ، برجسته می کند. عملکرد برتر Biobert در CADEC تأکید می کند که Bnetefits از پیش دنباله ورزش دامنه ، نشان می دهد که مدالها در شرکتهای گسترده زیست پزشکی می توانند ضبط ظرافت از دقت پایانه استخراج ADR از متون زیست پزشکی ساختار باشند. در مقابل ، موفقیت اسپانبرت در SMM4H توانایی مدل در حرکت به زبان متنوع و غیررسمی رسانه های اجتماعی را نشان می دهد ، یعنی تشخیص و مداخله ضروری ADR در داروسازی است.

نتایج موضوع همچنین تجارت بین پیچیدگی مدل و تعمیم پذیری را به وجود می آورد. در حالی که مودل های جذاب مانند Biobert و Spanerbert در حوزه های مربوطه ، مدل هایی مانند Conv. Conviber و Bioelectra از عملکرد کاسته شده ، به ویژه در مجموعه داده SMM4H Morelenging. این اختلاف نظر موفقیت آمیز است که وقتی مدل های پیچیده با پیش از آموزش تخصصی مزایای قابل توجهی را ارائه می دهند ، ممکن است برای تعمیم انواع مختلف متن ، به ویژه هنگام برخورد با داده های Inforella و Nuisy تلاش کنند. این مشاهده به نیاز به معماری های مدل توسعه که پیچیدگی را با انعطاف پذیری تعادل می بخشند ، نشان می دهد و هدف آن عملکرد قوی در طیف وسیعی از مجموعه داده ها است.

علاوه بر این ، انواع موجود در عملکرد مدل نشان می دهد که رویکردهای ترکیبی و استراتژی های چند استحکام مفید هستند. به عنوان مثال ، تمرکز در حالی کهبرت بر متن زیست پزشکی برای Cadec سودمند بود ، ترکیب گسترده تری از منابع داده ، از جمله رسانه های اجتماعی ، ممکن است تطبیقی ​​را با داده های SMM4H بهبود بخشد. این امر مستقیماً امیدوارکننده برای تحقیقات نهایی را برجسته می کند: ترکیب پیش نمایش های مختلف برای ایجاد مدلهایی که نسخه ای از همه کاره و مناسب تر با زبان شناس متنوع و متناسب با منابع داده متفاوت است.

پیامدهای این مطالعه به کاربردهای عملی در داروسازی گسترش می یابد. مدل های مبتنی بر ترانسفورماتور ، با تأثیرگذاری نشان داده شده در استخراج ADR ها از هر دو متون زیست پزشکی و رسانه های اجتماعی ، این پتانسیل را دارند که به طور قابل توجهی افزایش قابل توجهی از نظارت بر ایمنی دارو را افزایش دهند. با این حال ، چالش های ارسال شده توسط زبان غیررسمی و ملاحظات اخلاقی در مورد حریم خصوصی داده های اطراف ، به ویژه با محتوای رسانه های اجتماعی ، باید مورد بررسی قرار گیرد. تحقیقات آینده نه تنها برای تصحیح عملکرد مدل بلکه بر توسعه چارچوب هایی که ENS است ، تمرکز می کنند. استفاده مسئولانه و اخلاقی از فناوری های NLP در Pharmacovigilanse ، از این طریق هر دو کنترل و نظارت یکپارچه را پیش می برند.

۵٫ نتیجه گیری

استخراج واکنش داروی Advorse برای داروسازی بسیار مهم است که شامل شناسایی اثرات دارویی Advorse از منابع متنوع متنوع است. این مطالعه از یک ارزیابی عمیق از ۱۱ مدل مبتنی بر ترانسفورماتور برای تشخیص موجودیت زیست پزشکی ، با تمرکز بر استخراج واکنش های دارویی Advorse از متون دارویی ساختاری BOT (مجموعه داده CADEC) و مجموعه داده های غیر رسمی اجتماعی ۴H). این یافته ها نشان دهنده اهمیت اساسی سازگاری خاص دامنه در دستیابی به عملکرد نوری در این زمینه تخصصی است. Biobert ، با پیش از آموزش خاص دامنه خود ، به عنوان مؤثرترین مدل در مجموعه داده های Cadec شناخته شده است و تأکید بر رعایت آن در رسیدگی به متون زیست پزشکی است. تبدیل ، Spanbert در مجموعه داده SMM4H برتری دارد و ظرفیت آن را برای فرآیند اثربخشی زبان متنوع و غیر رسمی سیستم عامل های رسانه های اجتماعی نشان می دهد. این ارزیابی همچنین تأثیر قابل توجهی از معماری مدل و استراتژی های قبل از تطابق بر روی عملکردهای عملکرد را نشان می دهد ، و این امر را برجسته می کند که مدل های کارتین ممکن است با اطلاعات مربوط به زبان اطلاعاتی در زمینه تنوع زیستی مبارزه کنند.

کار آینده ادغام مدلهای بزرگ زبان (LLM) را برای پیشبرد استخراج ADR کشف کنید. قابلیت های پیشرفته و آموزش های گسترده مدل های ترزا در مورد مجموعه داده های متنوع برای تقویت عملکرد و رفع چالش ها در متون زیست پزشکی ساختاری و بدون ساختار بیان شده است.


منبع: https://www.mdpi.com/2673-2688/6/2/31

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *