۱٫ مقدمه
همه گیری COVID-19، ناشی از ویروس SARS-CoV-2، یک مشکل بهداشتی قابل توجه در سراسر جهان ایجاد کرده است. [۱]. منجر به مرگ، بیماری و اثرات اقتصادی بیسابقهای شده است. با توجه به اندازه مشکل و این واقعیت که پیش بینی پیشرفت بیماری دشوار است، یافتن و تمرکز بر روی افراد در معرض خطر ضروری است. [۲]. به دلیل پیشرفت و انتشار واکسیناسیونهای موفق، از جمله واکسنهای Pfizer-BioNTech و Moderna مبتنی بر mRNA، این همهگیری در چندین منطقه در سراسر جهان کاهش یافته است. با وجود این پیشرفتها، تجزیه و تحلیل توالیهای ژنومی COVID-19 ضروری است [۳].
کد ژنتیکی چیزهای زیادی در مورد چگونگی تغییر همه گیری به ما می گوید. ساخت دارو برای مبارزه با ویروس را آسان تر می کند [۴]. با اطلاعات مواد ژنتیکی، کارکنان بهداشتی می توانند تشخیص دهند که کدام ویروس بیمار را آلوده می کند. اسید نوکلئیک که اسید دئوکسی ریبونوکلئیک (DNA) نیز نامیده می شود، مولکولی است که اطلاعات ژنتیکی یک موجود را ذخیره می کند و برای ادامه رشد و پردازش ضروری است. چهار باز نوکلئوتیدی که یک ژنوم را تشکیل می دهند عبارتند از آدنین (A)، G (گوانین)، C (سیتوزین) و T (تیمین). با این زنجیره از نوکلئوتیدها و DNA می توان یک مولکول اسید ریبونوکلئیک (RNA) ساخت. [۵]. پایش بلادرنگ ژنومی جهانی باید بخش مهمی از هرگونه پاسخ به یک شیوع باشد [۴].
ابتکار جهانی برای به اشتراک گذاری داده های آنفلوانزای پرندگان (GISAID) با جمع آوری و ذخیره ژنوم ها در سراسر جهان برای مقایسه بیشتر، همکاری مفیدی را بین محققان تقویت می کند. [۶]. ایالات متحده آمریکا (ایالات متحده آمریکا) و بریتانیا (بریتانیا) دارای بالاترین توالی ژنوم منتشر شده در GISAID هستند. [۷]. پروژه چندملیتی HapMap با هدف ارائه الگوهای معمولی تنوع در ژنهای انسانی و نحوه ارتباط آنها با سلامت، بیماری، پاسخ به درمان و متغیرهای محیطی است. [۸,۹]. علاوه بر این، صدها ژنوم COVID-19 به GISAID داده شده است، جایی که محققان با توجه به تنوع قابل توجه جهانی در میزان مرگ و میر ناشی از COVID-19 دادههای نمونههای بیماران را از کشورهای مختلف منتشر میکنند. [۱۰,۱۱,۱۲].
بینش در مورد منشاء ویروس، روشهای انتقال، تنوع ژنتیکی و تاریخچه تکاملی با تعیین توالی ژنوم SARS-CoV-2 امکانپذیر شده است. درک توالی های ژنومی SARS-CoV-2 به دلایل متعددی حیاتی است. دانشمندان را قادر می سازد تا توسعه ویروس را مشاهده کرده و معرفی انواع جدیدی را شناسایی کنند که ممکن است بر اثربخشی واکسیناسیون و تلاش های بهداشت عمومی تأثیر بگذارد. ثانیاً، تحقیقات ژنتیکی الگوهای انتقال و منشأ ویروس را روشن میکند و بنابراین پاسخهای همهگیری کنونی و آینده را نشان میدهد. [۱۳].
علیرغم مدیریت بیماری همه گیر، نظارت مداوم ژنومی برای شناسایی تغییرات احتمالی که ممکن است منجر به مقاومت واکسن یا افزایش قابلیت انتقال شود، ضروری است. همانطور که راه حل های هوش مصنوعی (AI) توسعه یافته است، آنها برای مدیریت پایگاه های اطلاعاتی در حال رشد مرتبط با تحقیقات ژنوم ویروسی ضروری شده اند. [۱۴]. یادگیری ماشینی (ML) در بیوانفورماتیک استفاده می شود که به دنبال درک داده های بیولوژیکی از طریق محاسبات است. یکی از پیچیدهترین بخشهای ژنومیک، تعیین نحوه طبقهبندی ژنها به عنوان سالم یا بیمار است. [۱۵,۱۶].
در این تحقیق، ما از مجموعه دادههای توالی ژنوم COVID-19 برای توسعه یک مدل طبقهبندی با چند تکنیک مختلف یادگیری عمیق (DL) استفاده میکنیم. طبقه بندی توالی ژنوم ابزار مفیدی را برای تشخیص زودهنگام ویروس ها در اختیار متخصصان پزشکی قرار می دهد. اهداف اولیه این تحقیق به شرح زیر است: انجام تجزیه و تحلیل توالی ژنوم، که به تشخیص ژنوم COVID-19 کمک می کند، و انجام مدل های یادگیری عمیق، مانند مدل های DL ترکیبی با لایه های توجه. مدلهای مختلف مورد استفاده برای مطالعه عبارتند از واحدهای بازگشتی دروازهای دوطرفه (BGRU) با توجه (BGRU-Att)، حافظه کوتاهمدت دو جهته (BLSTM) با توجه (BLSTM-Att)، شبکه عصبی کانولوشن (CNN) با BLSTM-Att. (CNN-BLSTM-Att)، و CNN-BGRU-Att. مهم ترین مشارکت های این مطالعه عبارتند از:
-
این مطالعه یک رویکرد مبتنی بر DL ترکیبی را برای طبقهبندی مؤثر توالیهای ژنوم COVID-19 با استفاده از CNN با BLSTM، BGRU و یک لایه توجه پیشنهاد میکند. این یک مشارکت جدید است، زیرا مطالعات موجود از CNN با مدلهای BLSTM برای طبقهبندی توالی استفاده کردهاند.
-
در حالی که مطالعات قبلی ممکن است از شمارش k-mer با یک مقدار k استفاده کرده باشند، مقادیر k به کار رفته در این مطالعه (۳ تا ۶) ممکن است با کارهای قبلی متفاوت باشد. می تواند به نتایج متفاوت و بالقوه بهتری منجر شود.
-
این مطالعه از روش پنجره کشویی برای غلبه بر مشکل عدم تعادل کلاس استفاده می کند. این یک کمک جدید است، زیرا مطالعات موجود در مورد طبقهبندی ژنوم از سایر روشهای نمونهبرداری بیشازحد مانند روش نمونهبرداری بیش از حد اقلیت مصنوعی استفاده میکنند.
-
این مطالعه رویکرد پیشنهادی را بر روی یک مجموعه داده خارجی نادیده ارزیابی کرد و به یافتهها اطمینان داد و به طور بالقوه به تکرارپذیری کمک کرد.
بنابراین، سوال تحقیق برای مطالعه به شرح زیر است: چگونه یک رویکرد مبتنی بر DL توجه ترکیبی (BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att) در طبقه بندی COVID-19 به طور دقیق عمل می کند. توالی های ژنومی، و چقدر به یک مجموعه داده خارجی دیده نشده تعمیم می یابد؟
طرحبندی گزارش باقیمانده را میتوان به بخشهای زیر تقسیم کرد: بخش دوم یک مطالعه پسزمینه طبقهبندی توالی ژنوم است. در بخش سه روش شناسی و در بخش چهارم نتایج مطالعه دنبال می شود. بحثهای نتایج با اشاره به کار مرتبط در بخش پنج توضیح داده شده است و پس از آن نتیجهگیری مطالعه (بخش ششم) آمده است.
۲٫ بررسی ادبیات
برای درک کامل جنبه های تکاملی، پزشکی و اپیدمیولوژیک COVID-19 و ضرورت تشخیص و درمان زودهنگام، درک توالی ژنتیکی SARS-CoV-2 ضروری است. [۱۷]. به گفته احمد و همکاران. [۱۸]درک تغییرات ژنومی COVID-19 که رخ داده است بسیار مهم است. در تحقیق ارائه شده توسط هو و همکاران. [۱۹]مدلسازی دنبالههای ورودی بزرگ (۲۰۰ کیلوبایت) مورد بررسی قرار گرفت و نشان داده شد که معماری مدل نیاز به مدولارسازی خود تطبیق دارد. نوآوری دوم، ایجاد هماهنگی بین قابلیت پیشبینی مدلها و قابلیت تفسیر آنها است که منجر به ارتباط روزافزون مدلها در برآورده کردن معیارهای بیولوژیکی شده است.
مدلهای DL به پیشبینی توالی ژنوم کمک میکنند و میتوانند در زمینههای مختلفی مانند پزشکی سفارشی و تشخیص بیماریها استفاده شوند. [۲۰]. توالی یابی ژنومی می تواند ژنوتیپ ویروس را در نمونه خون شناسایی کند که می تواند به ردیابی و ردیابی منابع احتمالی انتقال کمک کند. [۲۱]. روشهای تشخیص شامل واکنشهای زنجیرهای پلیمراز در زمان واقعی برای تجزیه و تحلیل اسیدهای نوکلئیک و توالییابی ژنوم ویروسی برای شناسایی منابع عفونی است. تعیین بار ویروسی به ردیابی چگونگی پیشرفت بیماری کمک می کند [۲۲]ژو و همکاران [۲۳] در مطالعه خود توضیح دهند که چگونه با استفاده از توالی یابی کامل ژنوم SARS-CoV-2 در ارتباط با سوابق پزشکی الکترونیکی، چارچوبی آماری برای COVID-19 ایجاد کردند.
جدول ۱ مقالات پس زمینه ML و DL را در طبقه بندی توالی ژنوم توضیح می دهد. DL کاربردهای زیادی در تجزیه و تحلیل توالی دارد، مانند انجام انتساب بر اساس همبستگی با ژن ها، کاهش ابعاد با الگوریتم های خاص، حاشیه نویسی سلول، و محاسبات. [۲۴]. تجزیه و تحلیل دادههای COVID-19 را میتوان با تلاشهای هماهنگ برای ترویج تحقیقات در دسترس و اشتراکگذاری اطلاعات تسریع و بهبود بخشید. [۲۵]. پوروهیت [۲۶] همبستگی و تجزیه و تحلیل هم ترازی توالی های ژنوم ویروس مختلف با COVID-19 را مطالعه کرد و به دمای بازپخت پایین با ویروس COVID-19 نتیجه گرفت. به همین دلیل است که COVID-19 را می توان به اشکال مختلف در کشورهای مختلف یافت.
اکثر مطالعات قبلی از داده های خارجی برای آزمایش پیش بینی استفاده نکرده اند. به گفته رایلی و همکاران. [۴۴]این مدل باید به صورت خارجی بر روی داده های جدید آزمایش شود تا اطمینان حاصل شود که قابل اعتماد است و روی داده های واقعی به خوبی کار می کند.
۳٫ مواد و روشها
روش مطالعه در شکل ۱ نشان داده شده است. Python (نسخه ۳٫۹) با کتابخانه TensorFlow (نسخه ۲٫۱۰) و Scikit-Learn (نسخه ۱٫۰) در این کار استفاده شده است. [۴۵,۴۶]. برای تجزیه و تحلیل توالی ژنوم از ابزار Biopython (نسخه ۱٫۷۹) استفاده شد [۴۷].
۳٫۱٫ مجموعه داده و تعادل داده
مجموعه داده توالی ژنوم از داده های منبع باز جمع آوری شد [۴۸]. این شامل ۱۵۵۷ توالی ژنوم COVID-19 (Label-0) و ۱۱۵۴۰ ژنوم ویروس دیگر (Label-1) بود. پس از پاکسازی مجموعه داده، تعداد کل شامل ۱۲۸۱۱ با ۱۴۲۳ دنباله Label-0 و ۱۱۳۸۸ Label-1 بود. میانگین طول توالی ژنوم COVID-19 29837 و سایر ویروس ها ۱۵۷۸۹ بود. کلاس ها بسیار نامتعادل هستند، با Label-0 تعداد توالی کمتری نسبت به Label-1 دارد.
برای ایجاد تعادل بین فرکانسهای کلاس، از روش پنجره کشویی برای ایجاد مجموعه جدیدی از کلاسهای اقلیت (Label-0) استفاده شد. [۴۹]. پنجره کشویی از موقعیت شروع یک توالی COVID-19 برای استخراج پنجره ای از نوکلئوتیدها استفاده شد. سپس می توان این پنجره را با یک توالی جدید از نوکلئوتیدهای تولید شده توسط یک ژنراتور تصادفی توالی DNA جایگزین کرد. این فرآیند را می توان تکرار کرد، پنجره را در امتداد توالی DNA لغزانید تا زمانی که به طول کامل برسد و نوکلئوتیدهای درون پنجره را با توالی های جدید و به طور تصادفی تولید شده جایگزین کرد. سکانس های جدید با اندازه ۱۰۰۰۰ ساخته شدند. پس از تولید یک سری جدید بر اساس COVID-19، تعداد کل Label-0 به ۱۱,۳۷۵ تغییر کرد که منجر به تعداد کامل دنباله ۲۲,۷۶۳ شد. این مجموعه داده برای آموزش و اعتبارسنجی مدل با نسبت ۷۰:۳۰ استفاده شد.
اعتبار سنجی خارجی بر اساس مجموعه داده نادیده جدیدی است که از مرکز ملی اطلاعات بیوتکنولوژی (NCBI) دانلود شده است، که دارای توالی DNA کامل برای ویروس ها است و برای عموم قابل دسترسی است. [۵۰]. پایگاه داده های توالی DNA جمع آوری شده شامل COVID-19، MERS، دنگی، ابولا، آنفولانزا و روتا است. از آنجایی که مدل آموزشدیده شده یک طبقهبندی باینری است، ویروسهایی غیر از COVID-19 در یک دستهبندی شده و با عنوان Label-1 برچسبگذاری شدند. جدول ۲ تعداد هر ویروس را در مجموعه داده خارجی نشان می دهد. تعداد کل ۴۶۲۲ بود.
معمولاً مجموعه دادههای دنیای واقعی دارای عدم تعادل کلاسی هستند، به این معنی که برخی از کلاسها ممکن است تعداد نمونههای قابل توجهی بیشتر یا کمتر از سایرین داشته باشند. در چنین مواردی، اغلب لازم است توزیع کلاس در داده های آموزشی متعادل شود تا اطمینان حاصل شود که مدل نسبت به طبقه اکثریت تعصب ندارد. با این حال، هنگام آزمایش مدل بر روی دادههای دیده نشده، تعادل توزیع کلاس غیرضروری است زیرا توزیع دنیای واقعی را منعکس میکند.
۳٫۲٫ پیش پردازش داده ها
دنباله کاراکتر با کدگذاری شد
ک-مر شمارش
کشمارش مر در تصحیح خطای خواندن توالی، توالی یابی متاژنومی، و مونتاژ ژنوم و رونوشت استفاده می شود.
ک-مرها به سادگی طول هستند
ک دنباله ها معادله (۱) طول کلی دنباله را بعد از آن نشان می دهد
ک-مر شمارش
کجا ک طول داده شده در است ک-مر، و L طول کلی دنباله ورودی است. برای یک توالی DNA، n 4 با چهار نوکلئوتید است: A، C، G و T. و ک نشان دهنده مونومرهای بالقوه دنباله است.
پس از اعمال کبا روش رمزگذاری شمارش mer، دنباله خام به عبارات انگلیسی مانند تبدیل شد. به عنوان مثال، یک دنباله تصادفی را به عنوان “GGAAAATCTATTGGT” در نظر بگیرید. سپس پنجره ای به طول سه ساخته می شود و هر بار یک کاراکتر از چپ به راست منتقل می شود. بنابراین، دنباله به 'GGA'، 'GAA'، 'AAA'، 'AAA'، 'AAT'، 'ATC'، 'TCT'، 'CTA'، 'TAT'، 'ATT'، 'TTG' تقسیم می شود ، “TGG” و “GGT”. بنابراین، طول توالی کل از کشمارش -mer 15 – 3 + 1 = 13 است. در اینجا، در مثال، ۱۳ دنباله تولید می شود. در مطالعه پیشنهادی از ک-mer شمارش با ک مقدار از ۳ تا ۶ متغیر است. بهترین عملکرد مدل بر اساس هر کدام ک ارزش ارزیابی شد. سپس تابع countVetorizer در ماژول Scikit-Learn برای بردار کردن هر دنباله انگلیسی مانند با استفاده از تحلیلگر سطح کاراکتر استفاده شد. داده ها به ۷۰% آموزش و ۳۰% تست تقسیم شدند. مدل به صورت خارجی بر روی دادههای نادیده جدید ارزیابی شد.
۳٫۳٫ مدل های یادگیری عمیق
BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att مدل های DL مورد استفاده در این مطالعه هستند. BLSTM یک معماری برای شبکههای عصبی بازگشتی (RNN) است که جریانهای اطلاعاتی رو به جلو و معکوس را برای بهبود دقت وظایف طبقهبندی توالی ترکیب میکند. این توسعه مدل حافظه کوتاه مدت استاندارد (LSTM) است که ورودی های دنباله ای را در مسیرهای هر دو مدل کنترل می کند. پردازش توالی ورودی توسط LSTM رو به جلو به ترتیبی که عرضه شده است، یک توالی حالت پنهان تولید می کند. LSTM معکوس دنباله ورودی را برعکس پردازش می کند و در نتیجه توالی حالت پنهان ایجاد می شود. خروجی مدل BLSTM با الحاق دنباله های جلو و عقب حالت های پنهان تولید می شود. BLSTM بهتر از LSTM استاندارد است زیرا می تواند اطلاعات متنی را از هر دو حالت گذشته و آینده دنباله ورودی بدست آورد. در نتیجه، زمانی که برای کارهای طبقه بندی توالی استفاده می شود، موثرتر است. در پردازش زبان طبیعی (NLP)، BLSTM برای کارهایی از جمله برچسبگذاری بخشی از گفتار، طبقهبندی متن و تحلیل احساسات استفاده شده است. [۵۱,۵۲].
به دلیل توانایی آنها در توصیف دقیق داده های متوالی با وابستگی های طولانی مدت، BGRU به طور گسترده در صنایع مختلف استفاده می شود. BGRU توسعه واحدهای بازگشتی دردار (GRUs) است که شامل دو لایه GRU است که در جهت مخالف عمل می کنند. این به مدل اجازه می دهد تا وابستگی های رو به جلو و عقب را در دنباله ورودی ثبت کند. GRU یک فرم تخصصی از RNN است که دارای مکانیسم های راه اندازی است. این مکانیسمها به شبکه اجازه میدهند تا به طور انتخابی وضعیت پنهان خود را بر اساس ورودی در هر مرحله زمانی بهروزرسانی و تنظیم مجدد کند. مدلهای BGRU میتوانند زمینههای گذشته و آینده هر توکن ورودی را ضبط کنند، زیرا آنها با استفاده از دو لایه GRU ساخته شدهاند که در جهتهای مخالف روی هم چیده شدهاند. این آنها را قادر می سازد تا روابط پیچیده تری را در توالی ورودی یاد بگیرند [۵۳,۵۴].
شبکههای عصبی کانولوشنال، که اغلب به عنوان CNN شناخته میشوند، در سالهای اخیر مورد توجه قرار گرفتهاند، زیرا در وظایف مختلف NLP، از جمله طبقهبندی متن، بسیار خوب عمل میکنند. [۵۵]. CNN ها در ابتدا برای انجام وظایف مرتبط با پردازش تصویر طراحی شدند. با این حال، عملکرد آنها در وظایف NLP به توانایی آنها در به دست آوردن ویژگی های سلسله مراتبی و محلی از داده های ورودی نسبت داده شده است. CNN ها می توانند این ویژگی ها را یاد بگیرند، که به آنها کمک می کند تا در وظایف پردازش زبان طبیعی (NLP) به خوبی عمل کنند [۵۶].
این تحقیق از یک مدل ترکیبی استفاده میکند که یک لایه CNN را برای استخراج ویژگیها از دنباله ورودی استفاده میکند، که سپس یک لایه BGRU یا BLSTM دنبال میشود. پس از وارد کردن یک دنباله در مدل، در ابتدا با استفاده از یک توکنایزر به یک شاخص عدد صحیح تبدیل می شود. این شاخص به شخصیت خاصی در داخل واژگان تعلق دارد. لایه جاسازی به عنوان یک جدول جستجو عمل می کند که شاخص های عدد صحیح را با نمایش های بردار متراکم مربوطه مرتبط می کند. اگر شاخص ورودی برای یک کاراکتر ۵ باشد، لایه embedding ردیف پنجم را از ماتریس جاسازی استخراج می کند، که بردار متراکم مربوط به آن کاراکتر را نگه می دارد. یک لایه کانولوشن، یک لایه تجمع حداکثر، یک لایه BGRU یا یک لایه BLSTM، یک لایه توجه و یک لایه متراکم در مدل گنجانده شده است و هدف آنها طبقه بندی برچسب هدف است. خلاصه کامل مدل ها در شکل ۲ نشان داده شده است.
DL از “توجه” برای افزایش کارایی مدل هایی استفاده می کند که بر روی داده های متوالی مانند متن یا اطلاعات سری زمانی کار می کنند. معرفی شده توسط واسوانی و همکاران. (۲۰۱۷) در «توجه همه آن چیزی است که شما نیاز دارید»، مکانیسم توجه با اجازه دادن به مدلها برای تمرکز پویا بر روی مرتبطترین بخشهای دنبالههای ورودی، مدلسازی توالی را تغییر داد. [۵۷]. توجه ممکن است برای افزایش عملکرد استفاده شود [۵۸,۵۹,۶۰]. در طول فرآیند پیشبینی، هدف از توجه این است که مدل را قادر میسازد تا بر جنبههایی از توالی ورودی که بیشترین اهمیت را برای کار دارند، تمرکز کند. هنگامی که در شبکه های عصبی اعمال می شود، توجه ممکن است به عنوان سیستمی درک شود که مجموعه ای از وزن ها را بر روی توالی ورودی یاد می گیرد. این وزن ها نشان دهنده اهمیت نسبی هر جزء در توالی مربوط به کار پیش بینی است. پس از آن، از این وزن ها برای محاسبه مجموع وزنی توالی ورودی استفاده می شود. سپس این مجموع وزنی در قالب داده های ورودی به لایه بعدی مدل ارسال می شود و مدل را قادر می سازد تا بر مرتبط ترین قسمت های دنباله تأکید کند.
برای تضمین تفسیرپذیری در مطالعه پیشنهادی، از مکانیزم توجه تک لایه استفاده شده است. توجه قبل از لایه خروجی نهایی مدل و بعد از مرحله استخراج ویژگی CNN گنجانده شده است. این قرار دادن عملکرد طبقه بندی را با اجازه دادن به مدل برای تمرکز بر مرتبط ترین ویژگی هایی که از داده های ژنومی گرفته شده است، بهبود می بخشد. حالت امتیازدهی لایه توجه، محصول نقطه ای یا توجه به سبک Luong است. لایه توجه جفت query (Q) و key(K)-value(V) را دریافت می کند. جفت پرس و جو و کلید-مقدار از خروجی لایه RNN به دست می آیند. از این رو، Q = K = V، که مکانیسم توجه به خود را تنظیم می کند. این رویکرد بر جنبههای زمانی یا جغرافیایی در دادههای ژنومی با تمرکز بر اتصالات درون یک توالی تأکید میکند. در هر مرحله زمانی، RNN دو طرفه وابستگیهای دنباله را جمعآوری میکند و نمایشهای ویژگی غنی تولید میکند. این ویژگیها به مکانیسم توجه وارد میشوند، بنابراین مدل یاد میگیرد که بسته به کار، توالی را اولویت بندی کند. نمره توجه (
AS) و خروجی به صورت زیر تعریف می شوند:
کجا س بردار پرس و جو است ک بردار کلیدی است V بردار مقدار است، تی طول دنباله است و دک ابعاد خروجی دو طرفه است. معماری کامل در شکل ۳ توضیح داده شده است.
پارامترهای مدل های مورد استفاده در این کار در جدول ۳ ذکر شده است. تعداد واحدها در لایه CNN 128 با اندازه هسته ۲ × ۲ تنظیم شد. برای این مطالعه، تنها یک لایه برای مدلهای CNN، BGRU و BLSTM مورد ارزیابی قرار گرفت. تمام پارامترهای دیگر مورد استفاده برای CNN، BGRU و BLSTM مقادیر پیشفرض بودند. ابعاد فضای خروجی برای BLSTM و BGRU روی ۶۴ تنظیم شد. بنابراین، لایه توجه در یک فضای ۱۲۸ بعدی عمل می کند.
پارامتر تنظیم نرخ یادگیری است. EarlyStopping و ReduceLROnPlateau برای غلبه بر مشکل اضافه برازش در مدل های DL استفاده شد. دوره روی ۵۰ تنظیم شد، و صبر برای ReduceLROnPlateau روی ۲ تنظیم شد. اگر از دست دادن اعتبارسنجی ثابت یا در حال افزایش بود، پارامتر نرخ یادگیری به ضریب ۰٫۱ به روز می شد. (نرخ یادگیری اولیه روی ۰۰۱/۰ تنظیم شده بود.) اگر از دست دادن اعتبار در توقف اولیه برای پنج دوره کاهش نیافته بود، مدل از آموزش خارج شد. شبه کد برای مطالعه پیشنهادی در شکل ۴ ذکر شده است.
۳٫۴٫ معیارهای ارزیابی
دقت، دقت، یادآوری و امتیاز f1 معیارهایی بودند که برای تجزیه و تحلیل نتیجه طبقهبندی مورد استفاده قرار گرفتند. علاوه بر این، ماتریس سردرگمی برای هر رویکرد در نظر گرفته شد. داده هایی که به طور مساوی توزیع نشده اند ممکن است به درستی با استفاده از دقت اندازه گیری نشده باشند [۶۱]. به عنوان یک نتیجه مستقیم از این، امتیاز f1، دقت، و یادآوری نیز استفاده شد [۶۲]. یک ماتریس سردرگمی برای ارزیابی معیارهای عملکرد بر اساس مثبت واقعی (trPos)، منفی واقعی (trNeg)، مثبت کاذب (faPos)، و منفی کاذب (faNeg) استفاده شد. محاسبهای برای تعیین تعداد نمونههای طبقهبندی شده انجام شد که به عنوان دقت شناخته میشوند (همانطور که در رابطه (۴) نشان داده شده است). به یاد آوری تعیین کرد که چند نمونه مرتبط طبقه بندی شده اند (معادله (۵)). امتیاز F1 میانگین یادآوری و دقت (معادله (۶)) و دقت مدل در معادله (۷) است. ضریب همبستگی متیوز (MCC)، همانطور که در رابطه (۸) نشان داده شده است، آماری است که برای ارزیابی اثربخشی طبقه بندی های باینری استفاده می شود. این یک متریک متعادل را ارائه می دهد که حتی زمانی که اندازه کلاس ها به طور قابل توجهی متفاوت است قابل اجرا است.
منحنی ROC که به عنوان منحنی مشخصه عملیاتی گیرنده نیز شناخته می شود، یک روش کارآمد برای تعیین دقت طبقه بندی کننده های باینری است. رفتار طبقهبندیکننده را میتوان با ترسیم نمودار نرخ مثبت واقعی (TPR) و نرخ مثبت کاذب (FPR) در مورد هر آستانه درک کرد. همانطور که مدل داده ها را بهتر طبقه بندی می کند، منحنی ROC به گوشه سمت چپ بالا نزدیک و نزدیکتر می شود. برای تعیین اینکه چه مقدار از گرافیک در محدوده منحنی قرار می گیرد، AUC (مساحت زیر منحنی) را محاسبه کردیم. مدل زمانی بهتر است که AUC به یک نزدیکتر شود [۶۳].
۴٫ نتایج
در این مطالعه، داده ها به ۷۰-۳۰ روش برای آموزش و اعتبار سنجی تقسیم شدند. مدلهای مورد استفاده در این کار از چهار مدل DL تشکیل شدهاند: BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att. شمارش k-mer با مقادیر k از ۳ تا ۶ برای هر مدل تنظیم شد. مدل با توجه به داده های جدید دیده نشده بررسی شد تا اینکه آیا طبقه بندی مدل قابل اعتماد است یا خیر [۴۴]. پلتفرمهای مورد استفاده در این مطالعه Nvidia GeForce GTX 1080 Ti (19 گیگابایت حافظه) و Nvidia Titan V (حافظه ۲۰ گیگابایت) بودند. Python 3.9، TensorFlow 2.10، Scikit-learn 1.0 و BioPython 1.79 بستههای کتابخانهای بودند که برای ساخت مدلها استفاده شدند. ۱۴۲۳ توالی COVID-19 و ۱۱۳۸۸ توالی ژنوم از ویروس های مختلف وجود دارد که مجموعه داده کامل را تشکیل می دهد. نوکلئوتیدهای نمونه در DNA از کووید-۱۹ و دسته های مختلف ویروس در شکل ۵ و شکل ۶ مشخص شده است. حروف A (آدنین)، G (گوانین)، C (سیتوزین) و T (تیمین) به عنوان DNA نامیده می شوند. چهار پایه شکل ۵ نشان می دهد که یک توالی نمونه تصادفی گرفته شده از برچسب هدف COVID-19 دارای ۸۹۵۴ نمونه آدنین، ۹۵۹۴ نمونه تیمین، ۵۸۶۳ نمونه گوانین و ۵۴۹۲ نمونه سیتوزین است.
به طور مشابه، توالی های ژنومی نمونه تصادفی برچسب های ویروسی دیگر نیز در شکل ۶ آورده شده است. این نشان می دهد که تعداد آدنین ۳۱۴۳، گوانین ۲۰۹۲، تیمین ۳۰۷۰ و سیتوزین تعداد ۱۹۲۷ است. شکل ۵ و شکل ۶ بررسی مقایسه ای از نوکلئوتید را ارائه می دهند ترکیب (تعداد A، T، G و C) بین توالی های تصادفی COVID-19 و سایر ژنوم های ویروسی. این برای درک ویژگیهای ژنتیکی و تغییراتی که ممکن است در سویههای مختلف ویروس رخ دهد، ضروری است. تجسم تعداد نوکلئوتیدها به درک تغییرات احتمالی در ساختار ژنومی که ممکن است بر رفتار این ویروس ها تأثیر بگذارد کمک می کند.
مقایسه دو دنباله را می توان با استفاده از یک ماتریس نقطه انجام داد. این بر اساس توالی DNA عمل می کند، و هر زمان که مطابقت را بر اساس توالی DNA تشخیص دهد، یک نقطه را ترسیم می کند. در بیشتر موارد، درک بهتر همسویی توالی سودمند است. شکل ۷ نمونهای از توالیهای ژنوم COVID-19 و سایر ویروسها را نشان میدهد. این شکل از نمایش میتواند به تشخیص الگوهای توالیها، مانند آنهایی که مشابه هستند یا تکرار میشوند، کمک کند. فقط ۲۰ پایه نوکلئوتیدی اول توالی تصادفی در اینجا نشان داده شده است زیرا طول آن برای نمایش کامل آن بسیار زیاد است.
نتایج طبقه بندی
طبقهبندی توالی ژنوم از شمارش K-Mer با countVetorizer برای رمزگذاری دادهها استفاده کرد. اندازه k شمارش K-Mer به عنوان پارامتر تنظیم استفاده شد. مدل های DL BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att بودند. پارامترها برای به دست آوردن عملکرد بهتر برای هر مدل تنظیم شدند. پارامتر تنظیم نرخ یادگیری است. از آنجایی که مدلها با یک لایه مخفی به بهترین دقت میرسند، بیشتر تنظیم نشد، زیرا افزایش لایه پنهان زمان مناسب شدن با مدل را افزایش میدهد.
جدول ۴ دقت داده های اعتبارسنجی را برای روش شمارش k-mer نشان می دهد. با نگاهی به معیارها، میتوانیم ببینیم که مدلها به طور کلی عملکرد خوبی داشتند. برای همه معیارها، مقادیر بالاتر نشان دهنده عملکرد بهتر است. مدلها به طور مداوم به دقت بالایی دست یافتند، با مقادیر بالای ۰٫۹۹ برای اکثر موارد. مقادیر AUC نیز بالا هستند، یعنی توانایی پیشبینی جامد. CNN-BLSTM-Att بالاترین دقت ۹۹٫۹۳٪ را با مقادیر k 6 و ۵ نشان داد. برای مقدار k متناظر، هر دو مدل به مقادیر دقت بالا، یادآوری و امتیاز f1 دست یافتند (۰٫۹۹۹۱، ۰٫۹۹۹۴، و ۰٫۹۹۹۳). امتیاز AUC برای CNN-BLSTM-Att بالاتر است، با مقدار ۰٫۹۹۹۳٫ این نشان می دهد که مدل به طور دقیق بین نمونه های مثبت و منفی تمایز قائل شده است یا به درستی احتمالات پیش بینی شده را برای کلاس ها رتبه بندی کرده است.
برای ارزیابی عملکرد مدل بر اساس هر چهار مدل و مقادیر k-mer، در این مطالعه از تحلیل واریانس (ANOVA) استفاده شد. معیارها، دقت و AUC در اینجا برای تجزیه و تحلیل عملکرد استفاده می شود. فرضیه صفر بیان می کند که تفاوت معنی داری بین میانگین های اندازه گیری پارامترها طبق چهار مدل DL وجود ندارد. این ص– ارزش، مطابق مدل، در جدول ۵ نشان داده شده است. اگر فرضیه صفر رد شود ص– مقدار کمتر از ۰٫۰۵ است. معیارهای غیر از یادآوری تفاوت معنی داری بین مقادیر میانگین مشخص می کنند. این نشان می دهد که یک گروه با گروه دیگر متفاوت است. آزمون توکی برای تشخیص اینکه کدام گروه متنوع است انجام شد [۶۴].
نتایج آزمون Tukey در شکل ۸ نشان داده شده است. این نشان می دهد که مدل های CNN-BLSTM-Att و BGRU-Att به طور قابل توجهی متفاوت هستند. همه مدلهای دیگر با توجه به مقدار میانگین تفاوتی ندارند. بنابراین، CNN-BLSTM-Att بهترین مدل با دقت ۹۹٫۹۳٪ در نظر گرفته می شود.
۵٫ بحث
مجموعه داده توالی ژنوم منبع باز با ۱۴۲۳ توالی COVID-19 و ۱۱۳۸۸ توالی ویروس دیگر برای طبقه بندی ژنوم در نظر گرفته شد که می تواند به کارکنان بهداشتی کمک کند تا ویروس و عفونت COVID-19 را درک کنند. این مطالعه از روش پنجره کشویی برای حل مشکل عدم تعادل کلاس در حین تمرین استفاده کرد. از روش k-mer با countVectorizer برای رمزگذاری و بردارسازی دنباله استفاده شد. مقدار k، ۶، بالاترین عملکرد را نشان داد، همانطور که در جدول ۴ نشان داده شده است. نتیجه دقت ۹۹٫۹۳% را با مدل CNN-BLSTM-Att برای طبقه بندی دنباله آزمایش نشان می دهد. این مدل توالی COVID-19 و سایر ویروس ها را بهتر طبقه بندی می کند.
مدلهای پیشنهادی در مقادیر مختلف k مورد ارزیابی قرار گرفتند تا بهترین تعادل بین دقت طبقهبندی و برازش بیشازحد پیدا شود. نتایج نشان داد که k = 6 بیشترین دقت و کلیت را برای توالی های ژنومی مورد مطالعه دارد که تعادل خوبی است. در تجزیه و تحلیل توالی ژنومی، تصمیم اندازه k-mer یک عامل حیاتی است زیرا به طور مستقیم بر نمایش داده ها و در نتیجه بر عملکرد طبقه بندی مدل تأثیر می گذارد. مقادیر k کوچکتر، مانند k = 3، الگوهای محلی را ثبت می کنند. مقادیر k بیشتر، مانند k = 6، امکان نمایش متنی عمیق تری را فراهم می کند.
این مطالعه چگونگی عملکرد مدلها در مجموعه دادههای مختلف را تحلیل کرد. داده های خارجی دارای ۷۲۲ توالی COVID-19 و ۳۹۲۲ توالی ویروس دیگر بودند (جدول ۲). داده ها متعادل نبودند زیرا توزیع دنیای واقعی را منعکس می کردند. نتایج در جدول ۶ نشان داده شده است. CNN-BLSTM-Att با امتیاز AUC 0.9886، دقت ۹۹٫۶۱٪، دقت ۱۰۰٪، ارزش یادآوری ۰٫۹۷۷۲ و f1-score 0.9885 بهتر عمل کرد. امتیاز MCC یک معیار قوی برای طبقه بندی باینری با عدم تعادل کلاس است. CNN-BLSTM-Att امتیاز MCC 0.9863 را نشان داد که نشان دهنده یک پیش بینی کامل است.
امتیاز AUC و منحنی ROC مجموعه داده خارجی ارزیابی شده در چهار مدل در شکل ۹ نشان داده شده است. از نمودار، مدل CNN-BLSTM-Att طبقه بندی بهتری را با امتیاز AUC 0.9886 و k = 6 نشان می دهد. امتیاز AUC از CNN-BGRU-Att 0.9780 است، BLSTM-Att 0.9125 است، و از BGRU-Att 0.9771 است.
۵٫۱٫ نتایج اعتبار سنجی متقابل
یک اعتبارسنجی متقابل پنج برابری (CV) اجرا شد که در آن مجموعه داده به پنج تا با اندازه مساوی تقسیم شد. در هر تکرار، یک فولد بهعنوان مجموعه اعتبارسنجی عمل میکرد، در حالی که چهار برابر باقیمانده برای آموزش استفاده میشد. این رویه پنج بار اجرا شد و تضمین میکرد که هر فولد دقیقاً یک بار به عنوان مجموعه اعتبارسنجی عمل میکند.
بر روی بهترین مقدار k در k-mer (k = 6 از نتایج بهدستآمده در جدول ۶) برای کاهش تعصب ناشی از تقسیم قطار/ اعتبارسنجی انجام شد. بررسی مقادیر مختلف k ممکن است بینش بیشتری در مورد کارایی مدل و پاسخگویی آن به اندازه های مختلف k-mer به دست دهد. این موضوع در مطالعات آینده، با انجام یک بررسی دقیق تر از مقادیر k از ۳ تا ۶ مورد بررسی قرار خواهد گرفت، که ممکن است به طور بالقوه اعتبار نتایج ما را تقویت کند.
برای هر فولد، دوره روی ۲۵ تنظیم شد. میانگین دقت از هر پنج تا شدن تمام مدلها به عملکرد ۹۹% رسید. بهترین نتیجه توسط مدل CNN-BLSTM-Att و دقت هر تا شدگی به دست آمد، و از دست دادن در شکل ۱۰ ترسیم شده است. میانگین دقت از تمام چین ها برای مدل CNN-BLSTM-Att 99.99٪ بود.
داده های دیده نشده بر روی بهترین مدل ارزیابی شده و در جدول ۷ نشان داده شده است.
۵٫۲٫ مقایسه عملکرد با مطالعات قبلی
خدایی و همکاران [۲۹] دقت ۹۹٫۴ درصد را با آنفولانزا و ویروس COVID-19 نشان داد. این با استفاده از مدل SVM به دست آمد. در مطالعه دیگری توسط Hammad et al. [30]طبقهبندی توالی با استفاده از KNN به دقت ۹۹٫۳۹ درصد با ویژگیهای استخراجشده مرتبه اول و دوم دست یافت. به همین ترتیب، Bihter Das [35] نشان داده است که استخراج و انتخاب ویژگیها از توالیهای DNA و ارزیابی مدل با استفاده از SVM و KNN در طبقهبندی کووید-۱۹ و توالیهای عادی بهتر عمل میکند. CNN همراه با BLSTM و LSTM توسط Whata و همکارانش تجزیه و تحلیل شد. [۳۸] با ۳۲۹ سکانس که ۹۹٫۹۵ درصد دقت را به دست آورد. اکثر مطالعات قبلی از داده های خارجی برای آزمایش پیش بینی استفاده نکرده اند. جدول ۸ مقایسه تحقیق پیشنهادی را در رابطه با مطالعات قبلی نشان می دهد.
۵٫۳٫ محدودیت ها و کار آینده
این مطالعه از یک مدل ترکیبی DL جدید با مکانیزم توجه استفاده کرد و از دادههای خارجی برای اعتبارسنجی استفاده کرد. مقادیر k مختلف نیز برای روش رمزگذاری k-mer تنظیم شد. همچنین از رویکرد پنجره کشویی برای مشکلات عدم تعادل کلاس استفاده شد. حتی اگر کار دارای این مزایا بود، محدودیتهایی مانند اندازه مجموعه دادهها وجود داشت. مطالعات آینده می تواند از مجموعه داده های بزرگتر و متنوع تر برای افزایش استحکام مدل های طبقه بندی بهره مند شود. این به محققان امکان می دهد تعمیم پذیری و سازگاری مدل ها را با پاتوژن های ویروسی مختلف تعیین کنند و در نتیجه کاربردهای بالقوه آنها را فراتر از COVID-19 افزایش دهند.
۶٫ نتیجه گیری
این مطالعه یک رویکرد مبتنی بر DL را برای طبقهبندی مؤثر توالیهای ژنوم COVID-19 با هدف رفع نیاز فوری به روشهای دقیق و کارآمد در طبقهبندی سویههای ویروس پیشنهاد کرد. چهار مدل DL، یعنی BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att، و دو مجموعه داده مختلف برای طبقه بندی توالی ژنوم COVID-19 مورد تجزیه و تحلیل قرار گرفتند. داده های آموزش و آزمایش با ۱۲۸۱۱ دنباله ابتدا با دقت ۹۹٫۹۹٪ توسط CNN-BLSTM-Att و مقدار k-mer شش طبقه بندی شدند. سپس داده های نادیده جدید روی مدل ها به عنوان اعتبار سنجی خارجی، با ۴۶۶۲ دنباله آزمایش شدند و دقت ۹۹٫۸۸ درصد به دست آمد. این کارایی رویکردهای مبتنی بر DL با لایههای توجه را در طبقهبندی دقیق توالیهای ژنومی COVID-19 نشان میدهد. درجه بالای دقت بهدستآمده، پتانسیل اجرای این استراتژی را در محیطهای بالینی برای کمک به شناسایی و طبقهبندی پاسخهای همهگیر آینده نشان میدهد. اگرچه این مطالعه به نتایج دلگرمکنندهای با مجموعه دادههای موجود دست یافت، اما افزایش آن برای دربرگرفتن طیف وسیعتری از ژنومهای ویروسی ممکن است به طور قابلتوجهی کارایی مدل را افزایش دهد. این نه تنها قابلیت های تعمیم مدل را بهبود می بخشد، بلکه مجموعه دانش در حال گسترش در مورد تنوع ژنتیکی را نیز افزایش می دهد.
منبع: https://www.mdpi.com/2673-2688/6/1/4