مدل‌های یادگیری عمیق ترکیبی مبتنی بر توجه برای طبقه‌بندی توالی‌های ژنوم COVID-19

۱٫ مقدمه

همه گیری COVID-19، ناشی از ویروس SARS-CoV-2، یک مشکل بهداشتی قابل توجه در سراسر جهان ایجاد کرده است. [۱]. منجر به مرگ، بیماری و اثرات اقتصادی بی‌سابقه‌ای شده است. با توجه به اندازه مشکل و این واقعیت که پیش بینی پیشرفت بیماری دشوار است، یافتن و تمرکز بر روی افراد در معرض خطر ضروری است. [۲]. به دلیل پیشرفت و انتشار واکسیناسیون‌های موفق، از جمله واکسن‌های Pfizer-BioNTech و Moderna مبتنی بر mRNA، این همه‌گیری در چندین منطقه در سراسر جهان کاهش یافته است. با وجود این پیشرفت‌ها، تجزیه و تحلیل توالی‌های ژنومی COVID-19 ضروری است [۳].

کد ژنتیکی چیزهای زیادی در مورد چگونگی تغییر همه گیری به ما می گوید. ساخت دارو برای مبارزه با ویروس را آسان تر می کند [۴]. با اطلاعات مواد ژنتیکی، کارکنان بهداشتی می توانند تشخیص دهند که کدام ویروس بیمار را آلوده می کند. اسید نوکلئیک که اسید دئوکسی ریبونوکلئیک (DNA) نیز نامیده می شود، مولکولی است که اطلاعات ژنتیکی یک موجود را ذخیره می کند و برای ادامه رشد و پردازش ضروری است. چهار باز نوکلئوتیدی که یک ژنوم را تشکیل می دهند عبارتند از آدنین (A)، G (گوانین)، C (سیتوزین) و T (تیمین). با این زنجیره از نوکلئوتیدها و DNA می توان یک مولکول اسید ریبونوکلئیک (RNA) ساخت. [۵]. پایش بلادرنگ ژنومی جهانی باید بخش مهمی از هرگونه پاسخ به یک شیوع باشد [۴].

ابتکار جهانی برای به اشتراک گذاری داده های آنفلوانزای پرندگان (GISAID) با جمع آوری و ذخیره ژنوم ها در سراسر جهان برای مقایسه بیشتر، همکاری مفیدی را بین محققان تقویت می کند. [۶]. ایالات متحده آمریکا (ایالات متحده آمریکا) و بریتانیا (بریتانیا) دارای بالاترین توالی ژنوم منتشر شده در GISAID هستند. [۷]. پروژه چندملیتی HapMap با هدف ارائه الگوهای معمولی تنوع در ژن‌های انسانی و نحوه ارتباط آنها با سلامت، بیماری، پاسخ به درمان و متغیرهای محیطی است. [۸,۹]. علاوه بر این، صدها ژنوم COVID-19 به GISAID داده شده است، جایی که محققان با توجه به تنوع قابل توجه جهانی در میزان مرگ و میر ناشی از COVID-19 داده‌های نمونه‌های بیماران را از کشورهای مختلف منتشر می‌کنند. [۱۰,۱۱,۱۲].

بینش در مورد منشاء ویروس، روش‌های انتقال، تنوع ژنتیکی و تاریخچه تکاملی با تعیین توالی ژنوم SARS-CoV-2 امکان‌پذیر شده است. درک توالی های ژنومی SARS-CoV-2 به دلایل متعددی حیاتی است. دانشمندان را قادر می سازد تا توسعه ویروس را مشاهده کرده و معرفی انواع جدیدی را شناسایی کنند که ممکن است بر اثربخشی واکسیناسیون و تلاش های بهداشت عمومی تأثیر بگذارد. ثانیاً، تحقیقات ژنتیکی الگوهای انتقال و منشأ ویروس را روشن می‌کند و بنابراین پاسخ‌های همه‌گیری کنونی و آینده را نشان می‌دهد. [۱۳].

علیرغم مدیریت بیماری همه گیر، نظارت مداوم ژنومی برای شناسایی تغییرات احتمالی که ممکن است منجر به مقاومت واکسن یا افزایش قابلیت انتقال شود، ضروری است. همانطور که راه حل های هوش مصنوعی (AI) توسعه یافته است، آنها برای مدیریت پایگاه های اطلاعاتی در حال رشد مرتبط با تحقیقات ژنوم ویروسی ضروری شده اند. [۱۴]. یادگیری ماشینی (ML) در بیوانفورماتیک استفاده می شود که به دنبال درک داده های بیولوژیکی از طریق محاسبات است. یکی از پیچیده‌ترین بخش‌های ژنومیک، تعیین نحوه طبقه‌بندی ژن‌ها به عنوان سالم یا بیمار است. [۱۵,۱۶].

در این تحقیق، ما از مجموعه داده‌های توالی ژنوم COVID-19 برای توسعه یک مدل طبقه‌بندی با چند تکنیک مختلف یادگیری عمیق (DL) استفاده می‌کنیم. طبقه بندی توالی ژنوم ابزار مفیدی را برای تشخیص زودهنگام ویروس ها در اختیار متخصصان پزشکی قرار می دهد. اهداف اولیه این تحقیق به شرح زیر است: انجام تجزیه و تحلیل توالی ژنوم، که به تشخیص ژنوم COVID-19 کمک می کند، و انجام مدل های یادگیری عمیق، مانند مدل های DL ترکیبی با لایه های توجه. مدل‌های مختلف مورد استفاده برای مطالعه عبارتند از واحدهای بازگشتی دروازه‌ای دوطرفه (BGRU) با توجه (BGRU-Att)، حافظه کوتاه‌مدت دو جهته (BLSTM) با توجه (BLSTM-Att)، شبکه عصبی کانولوشن (CNN) با BLSTM-Att. (CNN-BLSTM-Att)، و CNN-BGRU-Att. مهم ترین مشارکت های این مطالعه عبارتند از:

این مطالعه یک رویکرد مبتنی بر DL ترکیبی را برای طبقه‌بندی مؤثر توالی‌های ژنوم COVID-19 با استفاده از CNN با BLSTM، BGRU و یک لایه توجه پیشنهاد می‌کند. این یک مشارکت جدید است، زیرا مطالعات موجود از CNN با مدل‌های BLSTM برای طبقه‌بندی توالی استفاده کرده‌اند.
در حالی که مطالعات قبلی ممکن است از شمارش k-mer با یک مقدار k استفاده کرده باشند، مقادیر k به کار رفته در این مطالعه (۳ تا ۶) ممکن است با کارهای قبلی متفاوت باشد. می تواند به نتایج متفاوت و بالقوه بهتری منجر شود.
این مطالعه از روش پنجره کشویی برای غلبه بر مشکل عدم تعادل کلاس استفاده می کند. این یک کمک جدید است، زیرا مطالعات موجود در مورد طبقه‌بندی ژنوم از سایر روش‌های نمونه‌برداری بیش‌ازحد مانند روش نمونه‌برداری بیش از حد اقلیت مصنوعی استفاده می‌کنند.
این مطالعه رویکرد پیشنهادی را بر روی یک مجموعه داده خارجی نادیده ارزیابی کرد و به یافته‌ها اطمینان داد و به طور بالقوه به تکرارپذیری کمک کرد.

بنابراین، سوال تحقیق برای مطالعه به شرح زیر است: چگونه یک رویکرد مبتنی بر DL توجه ترکیبی (BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att) در طبقه بندی COVID-19 به طور دقیق عمل می کند. توالی های ژنومی، و چقدر به یک مجموعه داده خارجی دیده نشده تعمیم می یابد؟

طرح‌بندی گزارش باقی‌مانده را می‌توان به بخش‌های زیر تقسیم کرد: بخش دوم یک مطالعه پس‌زمینه طبقه‌بندی توالی ژنوم است. در بخش سه روش شناسی و در بخش چهارم نتایج مطالعه دنبال می شود. بحث‌های نتایج با اشاره به کار مرتبط در بخش پنج توضیح داده شده است و پس از آن نتیجه‌گیری مطالعه (بخش ششم) آمده است.

۲٫ بررسی ادبیات

برای درک کامل جنبه های تکاملی، پزشکی و اپیدمیولوژیک COVID-19 و ضرورت تشخیص و درمان زودهنگام، درک توالی ژنتیکی SARS-CoV-2 ضروری است. [۱۷]. به گفته احمد و همکاران. [۱۸]درک تغییرات ژنومی COVID-19 که رخ داده است بسیار مهم است. در تحقیق ارائه شده توسط هو و همکاران. [۱۹]مدل‌سازی دنباله‌های ورودی بزرگ (۲۰۰ کیلوبایت) مورد بررسی قرار گرفت و نشان داده شد که معماری مدل نیاز به مدولارسازی خود تطبیق دارد. نوآوری دوم، ایجاد هماهنگی بین قابلیت پیش‌بینی مدل‌ها و قابلیت تفسیر آن‌ها است که منجر به ارتباط روزافزون مدل‌ها در برآورده کردن معیارهای بیولوژیکی شده است.

مدل‌های DL به پیش‌بینی توالی ژنوم کمک می‌کنند و می‌توانند در زمینه‌های مختلفی مانند پزشکی سفارشی و تشخیص بیماری‌ها استفاده شوند. [۲۰]. توالی یابی ژنومی می تواند ژنوتیپ ویروس را در نمونه خون شناسایی کند که می تواند به ردیابی و ردیابی منابع احتمالی انتقال کمک کند. [۲۱]. روش‌های تشخیص شامل واکنش‌های زنجیره‌ای پلیمراز در زمان واقعی برای تجزیه و تحلیل اسیدهای نوکلئیک و توالی‌یابی ژنوم ویروسی برای شناسایی منابع عفونی است. تعیین بار ویروسی به ردیابی چگونگی پیشرفت بیماری کمک می کند [۲۲]ژو و همکاران [۲۳] در مطالعه خود توضیح دهند که چگونه با استفاده از توالی یابی کامل ژنوم SARS-CoV-2 در ارتباط با سوابق پزشکی الکترونیکی، چارچوبی آماری برای COVID-19 ایجاد کردند.

جدول ۱ مقالات پس زمینه ML و DL را در طبقه بندی توالی ژنوم توضیح می دهد. DL کاربردهای زیادی در تجزیه و تحلیل توالی دارد، مانند انجام انتساب بر اساس همبستگی با ژن ها، کاهش ابعاد با الگوریتم های خاص، حاشیه نویسی سلول، و محاسبات. [۲۴]. تجزیه و تحلیل داده‌های COVID-19 را می‌توان با تلاش‌های هماهنگ برای ترویج تحقیقات در دسترس و اشتراک‌گذاری اطلاعات تسریع و بهبود بخشید. [۲۵]. پوروهیت [۲۶] همبستگی و تجزیه و تحلیل هم ترازی توالی های ژنوم ویروس مختلف با COVID-19 را مطالعه کرد و به دمای بازپخت پایین با ویروس COVID-19 نتیجه گرفت. به همین دلیل است که COVID-19 را می توان به اشکال مختلف در کشورهای مختلف یافت.

اکثر مطالعات قبلی از داده های خارجی برای آزمایش پیش بینی استفاده نکرده اند. به گفته رایلی و همکاران. [۴۴]این مدل باید به صورت خارجی بر روی داده های جدید آزمایش شود تا اطمینان حاصل شود که قابل اعتماد است و روی داده های واقعی به خوبی کار می کند.

۳٫ مواد و روشها

روش مطالعه در شکل ۱ نشان داده شده است. Python (نسخه ۳٫۹) با کتابخانه TensorFlow (نسخه ۲٫۱۰) و Scikit-Learn (نسخه ۱٫۰) در این کار استفاده شده است. [۴۵,۴۶]. برای تجزیه و تحلیل توالی ژنوم از ابزار Biopython (نسخه ۱٫۷۹) استفاده شد [۴۷].

۳٫۱٫ مجموعه داده و تعادل داده

مجموعه داده توالی ژنوم از داده های منبع باز جمع آوری شد [۴۸]. این شامل ۱۵۵۷ توالی ژنوم COVID-19 (Label-0) و ۱۱۵۴۰ ژنوم ویروس دیگر (Label-1) بود. پس از پاکسازی مجموعه داده، تعداد کل شامل ۱۲۸۱۱ با ۱۴۲۳ دنباله Label-0 و ۱۱۳۸۸ Label-1 بود. میانگین طول توالی ژنوم COVID-19 29837 و سایر ویروس ها ۱۵۷۸۹ بود. کلاس ها بسیار نامتعادل هستند، با Label-0 تعداد توالی کمتری نسبت به Label-1 دارد.

برای ایجاد تعادل بین فرکانس‌های کلاس، از روش پنجره کشویی برای ایجاد مجموعه جدیدی از کلاس‌های اقلیت (Label-0) استفاده شد. [۴۹]. پنجره کشویی از موقعیت شروع یک توالی COVID-19 برای استخراج پنجره ای از نوکلئوتیدها استفاده شد. سپس می توان این پنجره را با یک توالی جدید از نوکلئوتیدهای تولید شده توسط یک ژنراتور تصادفی توالی DNA جایگزین کرد. این فرآیند را می توان تکرار کرد، پنجره را در امتداد توالی DNA لغزانید تا زمانی که به طول کامل برسد و نوکلئوتیدهای درون پنجره را با توالی های جدید و به طور تصادفی تولید شده جایگزین کرد. سکانس های جدید با اندازه ۱۰۰۰۰ ساخته شدند. پس از تولید یک سری جدید بر اساس COVID-19، تعداد کل Label-0 به ۱۱,۳۷۵ تغییر کرد که منجر به تعداد کامل دنباله ۲۲,۷۶۳ شد. این مجموعه داده برای آموزش و اعتبارسنجی مدل با نسبت ۷۰:۳۰ استفاده شد.

اعتبار سنجی خارجی بر اساس مجموعه داده نادیده جدیدی است که از مرکز ملی اطلاعات بیوتکنولوژی (NCBI) دانلود شده است، که دارای توالی DNA کامل برای ویروس ها است و برای عموم قابل دسترسی است. [۵۰]. پایگاه داده های توالی DNA جمع آوری شده شامل COVID-19، MERS، دنگی، ابولا، آنفولانزا و روتا است. از آنجایی که مدل آموزش‌دیده شده یک طبقه‌بندی باینری است، ویروس‌هایی غیر از COVID-19 در یک دسته‌بندی شده و با عنوان Label-1 برچسب‌گذاری شدند. جدول ۲ تعداد هر ویروس را در مجموعه داده خارجی نشان می دهد. تعداد کل ۴۶۲۲ بود.

معمولاً مجموعه داده‌های دنیای واقعی دارای عدم تعادل کلاسی هستند، به این معنی که برخی از کلاس‌ها ممکن است تعداد نمونه‌های قابل توجهی بیشتر یا کمتر از سایرین داشته باشند. در چنین مواردی، اغلب لازم است توزیع کلاس در داده های آموزشی متعادل شود تا اطمینان حاصل شود که مدل نسبت به طبقه اکثریت تعصب ندارد. با این حال، هنگام آزمایش مدل بر روی داده‌های دیده نشده، تعادل توزیع کلاس غیرضروری است زیرا توزیع دنیای واقعی را منعکس می‌کند.

۳٫۲٫ پیش پردازش داده ها

دنباله کاراکتر با کدگذاری شد ک-مر شمارش کشمارش مر در تصحیح خطای خواندن توالی، توالی یابی متاژنومی، و مونتاژ ژنوم و رونوشت استفاده می شود. ک-مرها به سادگی طول هستند ک دنباله ها معادله (۱) طول کلی دنباله را بعد از آن نشان می دهد ک-مر شمارش

$تی O تی الف ل س ه q تو ه n ج ه ل ه n g تی ساعت = L - ک + ۱$

(۱)

کجا ک طول داده شده در است ک-مر، و L طول کلی دنباله ورودی است. برای یک توالی DNA، n 4 با چهار نوکلئوتید است: A، C، G و T. و ک نشان دهنده مونومرهای بالقوه دنباله است.

پس از اعمال کبا روش رمزگذاری شمارش mer، دنباله خام به عبارات انگلیسی مانند تبدیل شد. به عنوان مثال، یک دنباله تصادفی را به عنوان “GGAAAATCTATTGGT” در نظر بگیرید. سپس پنجره ای به طول سه ساخته می شود و هر بار یک کاراکتر از چپ به راست منتقل می شود. بنابراین، دنباله به 'GGA'، 'GAA'، 'AAA'، 'AAA'، 'AAT'، 'ATC'، 'TCT'، 'CTA'، 'TAT'، 'ATT'، 'TTG' تقسیم می شود ، “TGG” و “GGT”. بنابراین، طول توالی کل از کشمارش -mer 15 – 3 + 1 = 13 است. در اینجا، در مثال، ۱۳ دنباله تولید می شود. در مطالعه پیشنهادی از ک-mer شمارش با ک مقدار از ۳ تا ۶ متغیر است. بهترین عملکرد مدل بر اساس هر کدام ک ارزش ارزیابی شد. سپس تابع countVetorizer در ماژول Scikit-Learn برای بردار کردن هر دنباله انگلیسی مانند با استفاده از تحلیلگر سطح کاراکتر استفاده شد. داده ها به ۷۰% آموزش و ۳۰% تست تقسیم شدند. مدل به صورت خارجی بر روی داده‌های نادیده جدید ارزیابی شد.

۳٫۳٫ مدل های یادگیری عمیق

BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att مدل های DL مورد استفاده در این مطالعه هستند. BLSTM یک معماری برای شبکه‌های عصبی بازگشتی (RNN) است که جریان‌های اطلاعاتی رو به جلو و معکوس را برای بهبود دقت وظایف طبقه‌بندی توالی ترکیب می‌کند. این توسعه مدل حافظه کوتاه مدت استاندارد (LSTM) است که ورودی های دنباله ای را در مسیرهای هر دو مدل کنترل می کند. پردازش توالی ورودی توسط LSTM رو به جلو به ترتیبی که عرضه شده است، یک توالی حالت پنهان تولید می کند. LSTM معکوس دنباله ورودی را برعکس پردازش می کند و در نتیجه توالی حالت پنهان ایجاد می شود. خروجی مدل BLSTM با الحاق دنباله های جلو و عقب حالت های پنهان تولید می شود. BLSTM بهتر از LSTM استاندارد است زیرا می تواند اطلاعات متنی را از هر دو حالت گذشته و آینده دنباله ورودی بدست آورد. در نتیجه، زمانی که برای کارهای طبقه بندی توالی استفاده می شود، موثرتر است. در پردازش زبان طبیعی (NLP)، BLSTM برای کارهایی از جمله برچسب‌گذاری بخشی از گفتار، طبقه‌بندی متن و تحلیل احساسات استفاده شده است. [۵۱,۵۲].

به دلیل توانایی آنها در توصیف دقیق داده های متوالی با وابستگی های طولانی مدت، BGRU به طور گسترده در صنایع مختلف استفاده می شود. BGRU توسعه واحدهای بازگشتی دردار (GRUs) است که شامل دو لایه GRU است که در جهت مخالف عمل می کنند. این به مدل اجازه می دهد تا وابستگی های رو به جلو و عقب را در دنباله ورودی ثبت کند. GRU یک فرم تخصصی از RNN است که دارای مکانیسم های راه اندازی است. این مکانیسم‌ها به شبکه اجازه می‌دهند تا به طور انتخابی وضعیت پنهان خود را بر اساس ورودی در هر مرحله زمانی به‌روزرسانی و تنظیم مجدد کند. مدل‌های BGRU می‌توانند زمینه‌های گذشته و آینده هر توکن ورودی را ضبط کنند، زیرا آنها با استفاده از دو لایه GRU ساخته شده‌اند که در جهت‌های مخالف روی هم چیده شده‌اند. این آنها را قادر می سازد تا روابط پیچیده تری را در توالی ورودی یاد بگیرند [۵۳,۵۴].

شبکه‌های عصبی کانولوشنال، که اغلب به عنوان CNN شناخته می‌شوند، در سال‌های اخیر مورد توجه قرار گرفته‌اند، زیرا در وظایف مختلف NLP، از جمله طبقه‌بندی متن، بسیار خوب عمل می‌کنند. [۵۵]. CNN ها در ابتدا برای انجام وظایف مرتبط با پردازش تصویر طراحی شدند. با این حال، عملکرد آنها در وظایف NLP به توانایی آنها در به دست آوردن ویژگی های سلسله مراتبی و محلی از داده های ورودی نسبت داده شده است. CNN ها می توانند این ویژگی ها را یاد بگیرند، که به آنها کمک می کند تا در وظایف پردازش زبان طبیعی (NLP) به خوبی عمل کنند [۵۶].

این تحقیق از یک مدل ترکیبی استفاده می‌کند که یک لایه CNN را برای استخراج ویژگی‌ها از دنباله ورودی استفاده می‌کند، که سپس یک لایه BGRU یا BLSTM دنبال می‌شود. پس از وارد کردن یک دنباله در مدل، در ابتدا با استفاده از یک توکنایزر به یک شاخص عدد صحیح تبدیل می شود. این شاخص به شخصیت خاصی در داخل واژگان تعلق دارد. لایه جاسازی به عنوان یک جدول جستجو عمل می کند که شاخص های عدد صحیح را با نمایش های بردار متراکم مربوطه مرتبط می کند. اگر شاخص ورودی برای یک کاراکتر ۵ باشد، لایه embedding ردیف پنجم را از ماتریس جاسازی استخراج می کند، که بردار متراکم مربوط به آن کاراکتر را نگه می دارد. یک لایه کانولوشن، یک لایه تجمع حداکثر، یک لایه BGRU یا یک لایه BLSTM، یک لایه توجه و یک لایه متراکم در مدل گنجانده شده است و هدف آنها طبقه بندی برچسب هدف است. خلاصه کامل مدل ها در شکل ۲ نشان داده شده است.

DL از “توجه” برای افزایش کارایی مدل هایی استفاده می کند که بر روی داده های متوالی مانند متن یا اطلاعات سری زمانی کار می کنند. معرفی شده توسط واسوانی و همکاران. (۲۰۱۷) در «توجه همه آن چیزی است که شما نیاز دارید»، مکانیسم توجه با اجازه دادن به مدل‌ها برای تمرکز پویا بر روی مرتبط‌ترین بخش‌های دنباله‌های ورودی، مدل‌سازی توالی را تغییر داد. [۵۷]. توجه ممکن است برای افزایش عملکرد استفاده شود [۵۸,۵۹,۶۰]. در طول فرآیند پیش‌بینی، هدف از توجه این است که مدل را قادر می‌سازد تا بر جنبه‌هایی از توالی ورودی که بیشترین اهمیت را برای کار دارند، تمرکز کند. هنگامی که در شبکه های عصبی اعمال می شود، توجه ممکن است به عنوان سیستمی درک شود که مجموعه ای از وزن ها را بر روی توالی ورودی یاد می گیرد. این وزن ها نشان دهنده اهمیت نسبی هر جزء در توالی مربوط به کار پیش بینی است. پس از آن، از این وزن ها برای محاسبه مجموع وزنی توالی ورودی استفاده می شود. سپس این مجموع وزنی در قالب داده های ورودی به لایه بعدی مدل ارسال می شود و مدل را قادر می سازد تا بر مرتبط ترین قسمت های دنباله تأکید کند.

برای تضمین تفسیرپذیری در مطالعه پیشنهادی، از مکانیزم توجه تک لایه استفاده شده است. توجه قبل از لایه خروجی نهایی مدل و بعد از مرحله استخراج ویژگی CNN گنجانده شده است. این قرار دادن عملکرد طبقه بندی را با اجازه دادن به مدل برای تمرکز بر مرتبط ترین ویژگی هایی که از داده های ژنومی گرفته شده است، بهبود می بخشد. حالت امتیازدهی لایه توجه، محصول نقطه ای یا توجه به سبک Luong است. لایه توجه جفت query (Q) و key(K)-value(V) را دریافت می کند. جفت پرس و جو و کلید-مقدار از خروجی لایه RNN به دست می آیند. از این رو، Q = K = V، که مکانیسم توجه به خود را تنظیم می کند. این رویکرد بر جنبه‌های زمانی یا جغرافیایی در داده‌های ژنومی با تمرکز بر اتصالات درون یک توالی تأکید می‌کند. در هر مرحله زمانی، RNN دو طرفه وابستگی‌های دنباله را جمع‌آوری می‌کند و نمایش‌های ویژگی غنی تولید می‌کند. این ویژگی‌ها به مکانیسم توجه وارد می‌شوند، بنابراین مدل یاد می‌گیرد که بسته به کار، توالی را اولویت بندی کند. نمره توجه (AS) و خروجی به صورت زیر تعریف می شوند:

$الف تی تی ه n تی من O n O تو تی ص تو تی = س O f تی متر الف x (\frac{الف اس}{\sqrt{د_{ک}}}) . V$

(۳)

کجا س بردار پرس و جو است ک بردار کلیدی است V بردار مقدار است، تی طول دنباله است و د_ک ابعاد خروجی دو طرفه است. معماری کامل در شکل ۳ توضیح داده شده است.

پارامترهای مدل های مورد استفاده در این کار در جدول ۳ ذکر شده است. تعداد واحدها در لایه CNN 128 با اندازه هسته ۲ × ۲ تنظیم شد. برای این مطالعه، تنها یک لایه برای مدل‌های CNN، BGRU و BLSTM مورد ارزیابی قرار گرفت. تمام پارامترهای دیگر مورد استفاده برای CNN، BGRU و BLSTM مقادیر پیش‌فرض بودند. ابعاد فضای خروجی برای BLSTM و BGRU روی ۶۴ تنظیم شد. بنابراین، لایه توجه در یک فضای ۱۲۸ بعدی عمل می کند.

پارامتر تنظیم نرخ یادگیری است. EarlyStopping و ReduceLROnPlateau برای غلبه بر مشکل اضافه برازش در مدل های DL استفاده شد. دوره روی ۵۰ تنظیم شد، و صبر برای ReduceLROnPlateau روی ۲ تنظیم شد. اگر از دست دادن اعتبارسنجی ثابت یا در حال افزایش بود، پارامتر نرخ یادگیری به ضریب ۰٫۱ به روز می شد. (نرخ یادگیری اولیه روی ۰۰۱/۰ تنظیم شده بود.) اگر از دست دادن اعتبار در توقف اولیه برای پنج دوره کاهش نیافته بود، مدل از آموزش خارج شد. شبه کد برای مطالعه پیشنهادی در شکل ۴ ذکر شده است.

۳٫۴٫ معیارهای ارزیابی

دقت، دقت، یادآوری و امتیاز f1 معیارهایی بودند که برای تجزیه و تحلیل نتیجه طبقه‌بندی مورد استفاده قرار گرفتند. علاوه بر این، ماتریس سردرگمی برای هر رویکرد در نظر گرفته شد. داده هایی که به طور مساوی توزیع نشده اند ممکن است به درستی با استفاده از دقت اندازه گیری نشده باشند [۶۱]. به عنوان یک نتیجه مستقیم از این، امتیاز f1، دقت، و یادآوری نیز استفاده شد [۶۲]. یک ماتریس سردرگمی برای ارزیابی معیارهای عملکرد بر اساس مثبت واقعی (trPos)، منفی واقعی (trNeg)، مثبت کاذب (faPos)، و منفی کاذب (faNeg) استفاده شد. محاسبه‌ای برای تعیین تعداد نمونه‌های طبقه‌بندی شده انجام شد که به عنوان دقت شناخته می‌شوند (همانطور که در رابطه (۴) نشان داده شده است). به یاد آوری تعیین کرد که چند نمونه مرتبط طبقه بندی شده اند (معادله (۵)). امتیاز F1 میانگین یادآوری و دقت (معادله (۶)) و دقت مدل در معادله (۷) است. ضریب همبستگی متیوز (MCC)، همانطور که در رابطه (۸) نشان داده شده است، آماری است که برای ارزیابی اثربخشی طبقه بندی های باینری استفاده می شود. این یک متریک متعادل را ارائه می دهد که حتی زمانی که اندازه کلاس ها به طور قابل توجهی متفاوت است قابل اجرا است.

$پ r ه ج من س من O n = \frac{تی r پ O س}{تی r پ O س + f الف پ O س}$

(۴)

$آر ه ج الف ل ل = \frac{تی r پ O س}{تی r پ O س + f الف ن ه g}$

(۵)

$اف ۱ – اس ج O r ه = \frac{۲ تی r پ O س}{۲ تی r پ O س + f الف پ O س + f الف ن ه g}$

(۶)

$الف ج ج تو r الف ج y = \frac{تی r پ O س + تی r ن ه g}{تی r پ O س + تی r ن ه g + f الف پ O س + f الف ن ه g}$

(۷)

$م ج ج = \frac{تی r پ O س . تی r ن ه g - f الف پ O س . f الف ن ه g}{\sqrt{(تی r پ O س + f الف پ O س) (تی r پ O س + f الف ن ه g) (تی r ن ه g + f الف پ O س) (تی r ن ه g + f الف ن ه g)}}$

(۸)

منحنی ROC که به عنوان منحنی مشخصه عملیاتی گیرنده نیز شناخته می شود، یک روش کارآمد برای تعیین دقت طبقه بندی کننده های باینری است. رفتار طبقه‌بندی‌کننده را می‌توان با ترسیم نمودار نرخ مثبت واقعی (TPR) و نرخ مثبت کاذب (FPR) در مورد هر آستانه درک کرد. همانطور که مدل داده ها را بهتر طبقه بندی می کند، منحنی ROC به گوشه سمت چپ بالا نزدیک و نزدیکتر می شود. برای تعیین اینکه چه مقدار از گرافیک در محدوده منحنی قرار می گیرد، AUC (مساحت زیر منحنی) را محاسبه کردیم. مدل زمانی بهتر است که AUC به یک نزدیکتر شود [۶۳].

۴٫ نتایج

در این مطالعه، داده ها به ۷۰-۳۰ روش برای آموزش و اعتبار سنجی تقسیم شدند. مدل‌های مورد استفاده در این کار از چهار مدل DL تشکیل شده‌اند: BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att. شمارش k-mer با مقادیر k از ۳ تا ۶ برای هر مدل تنظیم شد. مدل با توجه به داده های جدید دیده نشده بررسی شد تا اینکه آیا طبقه بندی مدل قابل اعتماد است یا خیر [۴۴]. پلتفرم‌های مورد استفاده در این مطالعه Nvidia GeForce GTX 1080 Ti (19 گیگابایت حافظه) و Nvidia Titan V (حافظه ۲۰ گیگابایت) بودند. Python 3.9، TensorFlow 2.10، Scikit-learn 1.0 و BioPython 1.79 بسته‌های کتابخانه‌ای بودند که برای ساخت مدل‌ها استفاده شدند. ۱۴۲۳ توالی COVID-19 و ۱۱۳۸۸ توالی ژنوم از ویروس های مختلف وجود دارد که مجموعه داده کامل را تشکیل می دهد. نوکلئوتیدهای نمونه در DNA از کووید-۱۹ و دسته های مختلف ویروس در شکل ۵ و شکل ۶ مشخص شده است. حروف A (آدنین)، G (گوانین)، C (سیتوزین) و T (تیمین) به عنوان DNA نامیده می شوند. چهار پایه شکل ۵ نشان می دهد که یک توالی نمونه تصادفی گرفته شده از برچسب هدف COVID-19 دارای ۸۹۵۴ نمونه آدنین، ۹۵۹۴ نمونه تیمین، ۵۸۶۳ نمونه گوانین و ۵۴۹۲ نمونه سیتوزین است.

به طور مشابه، توالی های ژنومی نمونه تصادفی برچسب های ویروسی دیگر نیز در شکل ۶ آورده شده است. این نشان می دهد که تعداد آدنین ۳۱۴۳، گوانین ۲۰۹۲، تیمین ۳۰۷۰ و سیتوزین تعداد ۱۹۲۷ است. شکل ۵ و شکل ۶ بررسی مقایسه ای از نوکلئوتید را ارائه می دهند ترکیب (تعداد A، T، G و C) بین توالی های تصادفی COVID-19 و سایر ژنوم های ویروسی. این برای درک ویژگی‌های ژنتیکی و تغییراتی که ممکن است در سویه‌های مختلف ویروس رخ دهد، ضروری است. تجسم تعداد نوکلئوتیدها به درک تغییرات احتمالی در ساختار ژنومی که ممکن است بر رفتار این ویروس ها تأثیر بگذارد کمک می کند.

مقایسه دو دنباله را می توان با استفاده از یک ماتریس نقطه انجام داد. این بر اساس توالی DNA عمل می کند، و هر زمان که مطابقت را بر اساس توالی DNA تشخیص دهد، یک نقطه را ترسیم می کند. در بیشتر موارد، درک بهتر همسویی توالی سودمند است. شکل ۷ نمونه‌ای از توالی‌های ژنوم COVID-19 و سایر ویروس‌ها را نشان می‌دهد. این شکل از نمایش می‌تواند به تشخیص الگوهای توالی‌ها، مانند آن‌هایی که مشابه هستند یا تکرار می‌شوند، کمک کند. فقط ۲۰ پایه نوکلئوتیدی اول توالی تصادفی در اینجا نشان داده شده است زیرا طول آن برای نمایش کامل آن بسیار زیاد است.

نتایج طبقه بندی

طبقه‌بندی توالی ژنوم از شمارش K-Mer با countVetorizer برای رمزگذاری داده‌ها استفاده کرد. اندازه k شمارش K-Mer به عنوان پارامتر تنظیم استفاده شد. مدل های DL BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att بودند. پارامترها برای به دست آوردن عملکرد بهتر برای هر مدل تنظیم شدند. پارامتر تنظیم نرخ یادگیری است. از آنجایی که مدل‌ها با یک لایه مخفی به بهترین دقت می‌رسند، بیشتر تنظیم نشد، زیرا افزایش لایه پنهان زمان مناسب شدن با مدل را افزایش می‌دهد.

جدول ۴ دقت داده های اعتبارسنجی را برای روش شمارش k-mer نشان می دهد. با نگاهی به معیارها، می‌توانیم ببینیم که مدل‌ها به طور کلی عملکرد خوبی داشتند. برای همه معیارها، مقادیر بالاتر نشان دهنده عملکرد بهتر است. مدل‌ها به طور مداوم به دقت بالایی دست یافتند، با مقادیر بالای ۰٫۹۹ برای اکثر موارد. مقادیر AUC نیز بالا هستند، یعنی توانایی پیش‌بینی جامد. CNN-BLSTM-Att بالاترین دقت ۹۹٫۹۳٪ را با مقادیر k 6 و ۵ نشان داد. برای مقدار k متناظر، هر دو مدل به مقادیر دقت بالا، یادآوری و امتیاز f1 دست یافتند (۰٫۹۹۹۱، ۰٫۹۹۹۴، و ۰٫۹۹۹۳). امتیاز AUC برای CNN-BLSTM-Att بالاتر است، با مقدار ۰٫۹۹۹۳٫ این نشان می دهد که مدل به طور دقیق بین نمونه های مثبت و منفی تمایز قائل شده است یا به درستی احتمالات پیش بینی شده را برای کلاس ها رتبه بندی کرده است.

برای ارزیابی عملکرد مدل بر اساس هر چهار مدل و مقادیر k-mer، در این مطالعه از تحلیل واریانس (ANOVA) استفاده شد. معیارها، دقت و AUC در اینجا برای تجزیه و تحلیل عملکرد استفاده می شود. فرضیه صفر بیان می کند که تفاوت معنی داری بین میانگین های اندازه گیری پارامترها طبق چهار مدل DL وجود ندارد. این ص– ارزش، مطابق مدل، در جدول ۵ نشان داده شده است. اگر فرضیه صفر رد شود ص– مقدار کمتر از ۰٫۰۵ است. معیارهای غیر از یادآوری تفاوت معنی داری بین مقادیر میانگین مشخص می کنند. این نشان می دهد که یک گروه با گروه دیگر متفاوت است. آزمون توکی برای تشخیص اینکه کدام گروه متنوع است انجام شد [۶۴].

نتایج آزمون Tukey در شکل ۸ نشان داده شده است. این نشان می دهد که مدل های CNN-BLSTM-Att و BGRU-Att به طور قابل توجهی متفاوت هستند. همه مدل‌های دیگر با توجه به مقدار میانگین تفاوتی ندارند. بنابراین، CNN-BLSTM-Att بهترین مدل با دقت ۹۹٫۹۳٪ در نظر گرفته می شود.

۵٫ بحث

مجموعه داده توالی ژنوم منبع باز با ۱۴۲۳ توالی COVID-19 و ۱۱۳۸۸ توالی ویروس دیگر برای طبقه بندی ژنوم در نظر گرفته شد که می تواند به کارکنان بهداشتی کمک کند تا ویروس و عفونت COVID-19 را درک کنند. این مطالعه از روش پنجره کشویی برای حل مشکل عدم تعادل کلاس در حین تمرین استفاده کرد. از روش k-mer با countVectorizer برای رمزگذاری و بردارسازی دنباله استفاده شد. مقدار k، ۶، بالاترین عملکرد را نشان داد، همانطور که در جدول ۴ نشان داده شده است. نتیجه دقت ۹۹٫۹۳% را با مدل CNN-BLSTM-Att برای طبقه بندی دنباله آزمایش نشان می دهد. این مدل توالی COVID-19 و سایر ویروس ها را بهتر طبقه بندی می کند.

مدل‌های پیشنهادی در مقادیر مختلف k مورد ارزیابی قرار گرفتند تا بهترین تعادل بین دقت طبقه‌بندی و برازش بیش‌ازحد پیدا شود. نتایج نشان داد که k = 6 بیشترین دقت و کلیت را برای توالی های ژنومی مورد مطالعه دارد که تعادل خوبی است. در تجزیه و تحلیل توالی ژنومی، تصمیم اندازه k-mer یک عامل حیاتی است زیرا به طور مستقیم بر نمایش داده ها و در نتیجه بر عملکرد طبقه بندی مدل تأثیر می گذارد. مقادیر k کوچکتر، مانند k = 3، الگوهای محلی را ثبت می کنند. مقادیر k بیشتر، مانند k = 6، امکان نمایش متنی عمیق تری را فراهم می کند.

این مطالعه چگونگی عملکرد مدل‌ها در مجموعه داده‌های مختلف را تحلیل کرد. داده های خارجی دارای ۷۲۲ توالی COVID-19 و ۳۹۲۲ توالی ویروس دیگر بودند (جدول ۲). داده ها متعادل نبودند زیرا توزیع دنیای واقعی را منعکس می کردند. نتایج در جدول ۶ نشان داده شده است. CNN-BLSTM-Att با امتیاز AUC 0.9886، دقت ۹۹٫۶۱٪، دقت ۱۰۰٪، ارزش یادآوری ۰٫۹۷۷۲ و f1-score 0.9885 بهتر عمل کرد. امتیاز MCC یک معیار قوی برای طبقه بندی باینری با عدم تعادل کلاس است. CNN-BLSTM-Att امتیاز MCC 0.9863 را نشان داد که نشان دهنده یک پیش بینی کامل است.

امتیاز AUC و منحنی ROC مجموعه داده خارجی ارزیابی شده در چهار مدل در شکل ۹ نشان داده شده است. از نمودار، مدل CNN-BLSTM-Att طبقه بندی بهتری را با امتیاز AUC 0.9886 و k = 6 نشان می دهد. امتیاز AUC از CNN-BGRU-Att 0.9780 است، BLSTM-Att 0.9125 است، و از BGRU-Att 0.9771 است.

۵٫۱٫ نتایج اعتبار سنجی متقابل

یک اعتبارسنجی متقابل پنج برابری (CV) اجرا شد که در آن مجموعه داده به پنج تا با اندازه مساوی تقسیم شد. در هر تکرار، یک فولد به‌عنوان مجموعه اعتبارسنجی عمل می‌کرد، در حالی که چهار برابر باقی‌مانده برای آموزش استفاده می‌شد. این رویه پنج بار اجرا شد و تضمین می‌کرد که هر فولد دقیقاً یک بار به عنوان مجموعه اعتبارسنجی عمل می‌کند.

بر روی بهترین مقدار k در k-mer (k = 6 از نتایج به‌دست‌آمده در جدول ۶) برای کاهش تعصب ناشی از تقسیم قطار/ اعتبارسنجی انجام شد. بررسی مقادیر مختلف k ممکن است بینش بیشتری در مورد کارایی مدل و پاسخگویی آن به اندازه های مختلف k-mer به دست دهد. این موضوع در مطالعات آینده، با انجام یک بررسی دقیق تر از مقادیر k از ۳ تا ۶ مورد بررسی قرار خواهد گرفت، که ممکن است به طور بالقوه اعتبار نتایج ما را تقویت کند.

برای هر فولد، دوره روی ۲۵ تنظیم شد. میانگین دقت از هر پنج تا شدن تمام مدل‌ها به عملکرد ۹۹% رسید. بهترین نتیجه توسط مدل CNN-BLSTM-Att و دقت هر تا شدگی به دست آمد، و از دست دادن در شکل ۱۰ ترسیم شده است. میانگین دقت از تمام چین ها برای مدل CNN-BLSTM-Att 99.99٪ بود.

داده های دیده نشده بر روی بهترین مدل ارزیابی شده و در جدول ۷ نشان داده شده است.

۵٫۲٫ مقایسه عملکرد با مطالعات قبلی

خدایی و همکاران [۲۹] دقت ۹۹٫۴ درصد را با آنفولانزا و ویروس COVID-19 نشان داد. این با استفاده از مدل SVM به دست آمد. در مطالعه دیگری توسط Hammad et al. [30]طبقه‌بندی توالی با استفاده از KNN به دقت ۹۹٫۳۹ درصد با ویژگی‌های استخراج‌شده مرتبه اول و دوم دست یافت. به همین ترتیب، Bihter Das [35] نشان داده است که استخراج و انتخاب ویژگی‌ها از توالی‌های DNA و ارزیابی مدل با استفاده از SVM و KNN در طبقه‌بندی کووید-۱۹ و توالی‌های عادی بهتر عمل می‌کند. CNN همراه با BLSTM و LSTM توسط Whata و همکارانش تجزیه و تحلیل شد. [۳۸] با ۳۲۹ سکانس که ۹۹٫۹۵ درصد دقت را به دست آورد. اکثر مطالعات قبلی از داده های خارجی برای آزمایش پیش بینی استفاده نکرده اند. جدول ۸ مقایسه تحقیق پیشنهادی را در رابطه با مطالعات قبلی نشان می دهد.

۵٫۳٫ محدودیت ها و کار آینده

این مطالعه از یک مدل ترکیبی DL جدید با مکانیزم توجه استفاده کرد و از داده‌های خارجی برای اعتبارسنجی استفاده کرد. مقادیر k مختلف نیز برای روش رمزگذاری k-mer تنظیم شد. همچنین از رویکرد پنجره کشویی برای مشکلات عدم تعادل کلاس استفاده شد. حتی اگر کار دارای این مزایا بود، محدودیت‌هایی مانند اندازه مجموعه داده‌ها وجود داشت. مطالعات آینده می تواند از مجموعه داده های بزرگتر و متنوع تر برای افزایش استحکام مدل های طبقه بندی بهره مند شود. این به محققان امکان می دهد تعمیم پذیری و سازگاری مدل ها را با پاتوژن های ویروسی مختلف تعیین کنند و در نتیجه کاربردهای بالقوه آنها را فراتر از COVID-19 افزایش دهند.

۶٫ نتیجه گیری

این مطالعه یک رویکرد مبتنی بر DL را برای طبقه‌بندی مؤثر توالی‌های ژنوم COVID-19 با هدف رفع نیاز فوری به روش‌های دقیق و کارآمد در طبقه‌بندی سویه‌های ویروس پیشنهاد کرد. چهار مدل DL، یعنی BLSTM-Att، BGRU-Att، CNN-BLSTM-Att، و CNN-BGRU-Att، و دو مجموعه داده مختلف برای طبقه بندی توالی ژنوم COVID-19 مورد تجزیه و تحلیل قرار گرفتند. داده های آموزش و آزمایش با ۱۲۸۱۱ دنباله ابتدا با دقت ۹۹٫۹۹٪ توسط CNN-BLSTM-Att و مقدار k-mer شش طبقه بندی شدند. سپس داده های نادیده جدید روی مدل ها به عنوان اعتبار سنجی خارجی، با ۴۶۶۲ دنباله آزمایش شدند و دقت ۹۹٫۸۸ درصد به دست آمد. این کارایی رویکردهای مبتنی بر DL با لایه‌های توجه را در طبقه‌بندی دقیق توالی‌های ژنومی COVID-19 نشان می‌دهد. درجه بالای دقت به‌دست‌آمده، پتانسیل اجرای این استراتژی را در محیط‌های بالینی برای کمک به شناسایی و طبقه‌بندی پاسخ‌های همه‌گیر آینده نشان می‌دهد. اگرچه این مطالعه به نتایج دلگرم‌کننده‌ای با مجموعه داده‌های موجود دست یافت، اما افزایش آن برای دربرگرفتن طیف وسیع‌تری از ژنوم‌های ویروسی ممکن است به طور قابل‌توجهی کارایی مدل را افزایش دهد. این نه تنها قابلیت های تعمیم مدل را بهبود می بخشد، بلکه مجموعه دانش در حال گسترش در مورد تنوع ژنتیکی را نیز افزایش می دهد.

منبع: https://www.mdpi.com/2673-2688/6/1/4