هوش مصنوعی | متن کامل رایگان | مدل‌های مولد با استفاده از Padding می‌توانند به طور موثر داده‌های Multi-Omics را ادغام و تولید کنند

۱٫ مقدمه

Omics مطالعه مجموعه داده های جامع از طیف گسترده ای از مواد بیولوژیکی از جمله ژنوم ها، رونوشت ها و پروتئوم ها است. به این ترتیب، omics در تشخیص بالینی، توسعه دارو، و پزشکی دقیق بسیار مهم است، زیرا با کشف اطلاعات ژنتیکی خاص بیماری و تنوع ساختاری سروکار دارد. با پیشرفت در فناوری‌های با توان بالا، مانند آرایه BeadChip و فناوری‌های توالی‌یابی نسل بعدی، بیان ژن، بیان ایزوفرم و داده‌های متیلاسیون DNA به صورت انبوه تولید شده‌اند. [۱,۲]. اگرچه این داده‌های omics حاوی اطلاعات مختلفی هستند، مجموعه‌های خاصی ارتباط را نشان می‌دهند [۳,۴]. به عنوان مثال، متیلاسیون DNA با بیان ژن مرتبط است و بیان ژن با سطح پروتئین مرتبط است [۵].
در حالی که تحلیل‌های omics اولیه از یک نوع داده واحد استفاده می‌کردند [۶,۷,۸,۹,۱۰]پیشرفت فناوری رایانه و پیشرفت سریع متعاقب آن در ظرفیت پردازش اطلاعات، تجزیه و تحلیل یکپارچه داده‌های omics مختلف (multi-omics)، از ژنوم‌ها و رونوشت‌ها گرفته تا پروتئوم‌ها را ممکن ساخته است. [۱۱,۱۲,۱۳]. در واقع، multi-omics یک استراتژی نوظهور برای توسعه مدل‌های مختلف برای کشف هدف، تشخیص بالینی، زیرگروه‌بندی بیماری و غیره است. [۱۳,۱۴,۱۵,۱۶,۱۷,۱۸,۱۹,۲۰,۲۱,۲۲,۲۳,۲۴,۲۵].
فن‌آوری‌های پیشرفته، مانند یادگیری ماشین (ML)، برای کاربرد در تحقیقات چند omics امیدوارکننده است [۲۶,۲۷]. ML امکان در نظر گرفتن تعاملات بین مجموعه داده‌های متنوع را فراهم می‌کند و امکان استفاده از طیف وسیع‌تری از اطلاعات را فراهم می‌کند و سطوح بالاتری از دقت را ممکن می‌سازد. در این زمینه، استفاده از ML در تحقیقات چند omics فرصت هایی را برای به دست آوردن بینش عمیق در مورد بیماری ها با تجزیه و تحلیل تعاملات بین omics از دیدگاه های مختلف ارائه می دهد. تحقیقات فعال بر روی تجزیه و تحلیل های چند omics با ML در بیماری های مغزی، دیابت، سرطان و بیماری های قلبی عروقی متمرکز شده است. [۲۸,۲۹,۳۰,۳۱]. با این وجود، ابعاد متعدد در برابر تعداد نمونه در آنالیزهای چند omics تأثیر منفی بر ML دارد [۱]. بیش از ۲۰۰۰۰ ژن کد کننده پروتئین و ۶۰۰۰۰ RNA غیرکد کننده طولانی بر اساس Gencode 7 شناسایی شده است. [۳۲]. علاوه بر این، ۹۶ درصد از سایت های ۴۸۰ K CpG را می توان بر اساس پرکاربردترین پلت فرم داده برای متیلاسیون DNA تجزیه و تحلیل کرد. [۳۳]. استفاده از چنین داده های با ابعاد بالا در ML می تواند منجر به بیش از حد برازش (یعنی نفرین ابعاد) و کاهش عملکرد مدل شود. [۱۶].
برای حل این مشکل، کاهش ابعاد بر اساس دانش دامنه، الگوریتم‌های کاهش ابعاد و مدل‌های مولد یادگیری عمیق معمولاً در ML استفاده می‌شود. [۳۴,۳۵,۳۶,۳۷]. به طور خاص، مدل های مولد یاد می گیرند که چگونه توزیع داده ها را تقریبی کنند. رمزگذار خودکار متغیر (VAE) [38] یک مدل مولد است که ویژگی های داده های ورودی را استخراج می کند، آنها را در بردارهای نهفته ذخیره می کند و داده های جدید مشابه داده های ورودی را از طریق بردارهای نهفته تولید می کند. با توجه به اینکه بردارهای پنهان می توانند داده های ورودی را به خوبی توصیف کنند، کاهش ابعاد بر اساس VAE برای تحلیل های مختلف omics اعمال شده است. [۳۷,۳۹].
مدل‌های مبتنی بر VAE، علی‌رغم وعده‌دهی، محدودیت‌هایی دارند. اول، در تجزیه و تحلیل های چند omics، داده های از دست رفته از یک نمونه معین می تواند از استفاده از آن در یادگیری جلوگیری کند، و کاهش حجم نمونه می تواند منجر به عملکرد ضعیف الگوریتم های یادگیری شود. با این حال، به دست آوردن حجم نمونه کافی در سناریوهای دنیای واقعی به دلیل مشکلات در ثبت نام بیمار چالش برانگیز است. دوم، زمانی که داده‌های omics جمع‌آوری‌شده از مؤسسات مختلف از نظر نوع متفاوت است، عملکرد مدل‌ها به دلیل یکپارچه‌سازی ضعیف داده‌ها محدود می‌شود، زیرا همه نمونه‌ها باید دارای مقادیر ویژگی مورد نیاز مورد نیاز مدل ML باشند. در نتیجه، مطالعات مرتبط از داده‌های باز مقیاس بزرگ، مانند اطلس ژنوم سرطان (TCGA) Pan-Cancer Atlas (PanCan) استفاده کرده‌اند. [۴۰]. با این حال، زمانی که تنها بخشی از انواع داده‌های omics در دسترس هستند، مانند داده‌های جمع‌آوری‌شده آینده‌نگر از کنسرسیوم نوآوری بانک زیستی کره‌ای Sarcoma (SBIC)، روش‌های تحلیلی یکپارچه موجود نمی‌توانند اعمال شوند. بنابراین، روشی برای ادغام کارآمد منابع داده های مختلف omics با حفظ ویژگی های مستقل هر جنبه ضروری است. [۴۱].
ادغام داده های ناقص و کامل برای تجزیه و تحلیل می تواند منجر به افزایش در دسترس بودن نمونه ها و در نتیجه انتظارات برای بهبود عملکرد شود. کائو و گائو [۴۲] GLUE (جاسازی یکپارچه پیوند شده با نمودار)، یک چارچوب مدولار برای یکپارچه سازی داده های چند omics تک سلولی جفت نشده و استنباط تعاملات نظارتی به طور همزمان پیشنهاد شده است. این مدل با استفاده از دانش بیولوژیکی برای مدل‌سازی صریح تعاملات تنظیمی بین لایه‌ای که فضاهای عملکردی سلسله مراتبی را با یک نمودار مبتنی بر دانش (“گراف راهنما”) به هم متصل می‌کند، داده‌های omics را از منابع مختلف ادغام و تجزیه و تحلیل می‌کند و به طور موثر حالت‌های سلولی متنوع را ثبت می‌کند. دو و همکاران [۴۳] از ماسک‌های گمشده برای یادگیری توزیع شرطی الگوها و ویژگی‌های دیده نشده استفاده می‌کند. با یادگیری صریح توزیع‌های شرطی ویژگی‌های پوشانده شده خاص (یا فرم‌های) زمانی که ویژگی‌ها (یا روش‌های) بدون نقاب ارائه می‌شد، آن‌ها تجزیه و تحلیل یکپارچه داده‌های omics را انجام دادند و به دقت بالایی در وظایف ترجمه بین دامنه‌ای دست یافتند.
این مطالعه یک مدل جدید هوش مصنوعی (AI) و استراتژی‌های یادگیری را پیشنهاد می‌کند که می‌تواند به طور موثر از داده‌های ناقصی که اغلب در مجموعه داده‌های omics برای پان سرطان یافت می‌شود، استفاده کند. در این مقاله، “داده های کامل” به داده هایی اطلاق می شود که در آن تمام داده های omics مورد استفاده وجود دارند. به عنوان مثال، هنگام استفاده از بیان ژن mRNA، بیان ایزوفرم mRNA و متیلاسیون DNA در چند omics، موردی که هر سه نوع داده omics وجود دارند را می توان “داده کامل” نامید. «داده‌های ناقص» به داده‌هایی اطلاق می‌شود که در آن‌ها برخی از داده‌های omics مورد استفاده وجود ندارد. در همان مثال چند omics که برای “داده های کامل” استفاده می شود، موردی که در آن داده متیلاسیون DNA وجود ندارد را می توان به عنوان “داده ناقص” نام برد (شکل ۱).
بنابراین، در مطالعه حاضر، یک مدل هوش مصنوعی منفرد با قابلیت مدیریت داده‌های کامل و ناقص طراحی شد. برای اجازه دادن به ورودی نمونه هایی با داده های omics از دست رفته در مدل AI، استراتژی padding را برای جایگزینی داده های omics گمشده با ۰ انتخاب کردیم (شکل ۲). برای داده‌های omics (بیان ژن mRNA، بیان ایزوفرم mRNA و متیلاسیون DNA)، نمونه‌هایی با مقادیر تمام ستون (نماد ژن) ۰ در توزیع داده‌های واقعی ظاهر نشدند (شکل‌های S1-S3). بنابراین فرض بر این بود که مدل هوش مصنوعی چنین مقادیری را در غیاب داده های واقعی تشخیص می دهد. علاوه بر این، یک مدل هوش مصنوعی برای استنباط داده های گمشده omics با یادگیری از داده های omics ورودی جزئی طراحی شده است. اگر داده‌های omics تولید شده برای داده‌های از دست رفته مشابه مقادیر واقعی باشند، می‌توانند نقاط داده‌ای را جایگزین کنند که در چند omics وجود ندارند. علاوه بر این، اگر داده های omics تولید شده برای جاسازی استفاده شود، توزیع حاصل شبیه به جاسازی بر اساس داده های واقعی خواهد بود. در نهایت، سودمندی رویکرد جدید در برابر روش‌های قبلی که استفاده از داده‌های ناقص را مجاز نمی‌دانست، تایید شد. برای این منظور، یک تابع پیش‌بینی فنوتیپ به مدل اضافه شد و عملکرد آن مورد ارزیابی قرار گرفت.

مدل پیشنهادی از دو جزء کلیدی تشکیل شده است: یک مدل تولیدکننده چند omics مبتنی بر VAE که می‌تواند الگوهای ژنتیکی تومورها را بر اساس داده‌های omics مختلف بیاموزد و یک مدل طبقه‌بندی گسترده که می‌تواند فنوتیپ‌های سرطان را پیش‌بینی کند. تجزیه و تحلیل جامع تطبیق پذیری مدل را تأیید کرد. به طور خاص، داده‌های چند نمونه یا داده‌های omics با بخش‌های گمشده، مانند داده‌های SBIC کره‌ای، می‌توانند برای یادگیری استفاده شوند. علاوه بر این، روش جدید توسعه‌یافته، تولید داده‌های ژنومی مجازی را که شبیه داده‌های ژنومی واقعی بر اساس استنتاج داده‌های omics از دست رفته است، امکان‌پذیر می‌سازد.

۲٫ مواد و روشها

۲٫۱٫ منبع داده

۲٫۱٫۱٫ پان سرطان TCGA (PanCan)

پایگاه داده باز TCGA PanCan داده های جهش را برای بیش از ۱۰۰۰۰ نمونه از ۳۳ نوع سرطان یکپارچه می کند. داده‌های TCGA PanCan به طور گسترده در تحقیقات پزشکی دقیق، از جمله در آموزش مدل‌های هوش مصنوعی برای کشف نشانگرهای تشخیص سرطان استفاده می‌شود.

این مطالعه از نمونه‌های زیستی و داده‌های SBIC برای تحقیقات پزشکی و بهداشتی استفاده کرد. تمام داده های PanCan از پلت فرم Xena دانشگاه کالیفرنیا سانتا کروز (UCSC) دانلود شد [۴۴]. داده‌ها پس از هر یک از مجموعه‌های پیش‌پردازش نهایی داده‌ها ادغام شدند و نرمال‌سازی حداکثر حداقل برای به دست آوردن مقادیر بین ۰ و ۱ اعمال شد.

۲٫۱٫۲٫ شبکه بیوبانک کره-SBIC

هدف SBIC، به عنوان بخشی از پروژه Biobank کره، ایجاد یک ثبت ملی برای حمایت از تحقیقات در مورد سرطان‌های نادر و ترویج تحقیقات ترجمه‌ای با ادغام و جمع‌آوری داده‌ها برای مواد مختلف مرتبط با انسان و متعاقباً تولید داده‌های جهش برای سارکوم (SARC) است. داده های SBIC در این مطالعه با همکاری پروژه کنسرسیوم برای ساخت بانک زیستی سارکوم کره ای استفاده شد.

برای استفاده به عنوان ورودی در مدل پیشنهادی، داده‌های SBIC، مانند داده‌های PanCan، پس از هر یک از مراحل پیش‌پردازش نهایی داده‌ها و نرمال‌سازی حداکثر حداقل برای به دست آوردن مقادیر بین ۰ و ۱ یکپارچه شدند.

۲٫۲٫ انواع داده ها

۲٫۲٫۱٫ داده های بیان ژن mRNA

بیان ژن فرآیندی است که در آن اطلاعات از یک ژن برای سنتز یک محصول ژن عملکردی استفاده می شود که محصولات نهایی، یعنی پروتئین یا RNA غیر کدکننده را تولید می کند و در نهایت بر فنوتیپ سلولی تأثیر می گذارد. بسیاری از مطالعات از داده های بیان ژن برای ارزیابی حالت های تومور و پروفایل مولکولی استفاده می کنند [۳۷,۴۵]. داده‌های بیان ژن mRNA PanCan شامل ۶۰۴۹۸ نماد ژن مربوط به ۱۰۵۳۵ نمونه است. داده های بیان ژن mRNA SBIC شامل ۲۵۲۶۸ نماد ژن متعلق به ۴۵ نمونه است. در این مطالعه، ما فقط ۱۰۴۹۶ نمونه با داده‌های فنوتیپ را در مورد PanCan وارد کردیم، زیرا مدل پیشنهادی یک کار یادگیری نظارت شده را برای طبقه‌بندی فنوتیپ‌های سرطان انجام می‌دهد. علاوه بر این، برای ادغام داده های PanCan و SBIC، داده های یکپارچه جدید با استفاده از ۲۳۱۹۱ نماد ژن مشترک بین دو مجموعه داده تولید شد. قطعات در هر کیلو باز از رونوشت در میلیون (FPKM) مقادیر برای داده‌های مربوطه با استفاده از RNA-seq با حداکثر کردن انتظار (RSEM؛ log-log-transformation) شدند.۲(FPKM + 0.001)).

۲٫۲٫۲٫ داده های بیان ایزوفرم mRNA

ایزوفرم های ژن mRNA هایی هستند که از یک مکان با مکان های شروع رونویسی مشخص، توالی های DNA کدکننده پروتئین و/یا مناطق ترجمه نشده تولید می شوند که می توانند عملکرد ژن را تغییر دهند. [۴۶]. مطالعات اخیر نشان داده است که چندین ایزوفرم ژن به طور مستقیم در تغییر شکل و رشد تومور عمل می کنند [۴۷]. داده های بیان ایزوفرم mRNA PanCan شامل ۱۹۷۰۴۵ نماد ژن برای ۱۰۵۳۵ نمونه و داده های بیان ایزوفرم mRNA SBIC حاوی ۲۵۲۶۸ نماد ژن برای ۴۵ نمونه است. از داده‌های PanCan، تنها ۱۰۴۹۵ نمونه با داده‌های فنوتیپ گنجانده شد و ۲۳۱۹۱ نماد ژن اضافی که با مجموعه داده SBIC به اشتراک گذاشته شده بودند، گنجانده شدند. مقادیر FPKM برای داده های مربوطه با استفاده از RSEM (log2(FPKM + 0.001)).

۲٫۲٫۳٫ داده های متیلاسیون DNA

متیلاسیون DNA یک مکانیسم اپی ژنتیکی است که در آن یک گروه متیل به موقعیت C5 سیتوزین منتقل می شود تا ۵-متیل سیتوزین را تشکیل دهد. متیلاسیون DNA بیان ژن را با به کارگیری پروتئین های دخیل در مهار ژن یا با مهار اتصال فاکتورهای رونویسی به DNA تنظیم می کند. با توجه به اینکه متیلاسیون DNA در یک منطقه خاص می تواند به طور مستقیم با بیان انکوژن مرتبط باشد، در حال حاضر به عنوان یک شاخص اصلی و هدف سرطان مورد مطالعه قرار می گیرد. [۴۸]. داده‌های متیلاسیون DNA PanCan شامل ۳۹۶۰۶۵ شناسه متیلاسیون برای ۹۶۳۹ نمونه است. داده های SBIC شامل داده های متیلاسیون DNA نمی شود. از داده های PanCan، نمونه هایی غیر از ۹۶۰۲ با داده های فنوتیپ حذف شدند. علاوه بر این، شناسه‌های متیلاسیون غیر از ۲۶۹۲۷۳ با مقدار NaN حذف شدند. داده های مربوطه از UCSC Xena دانلود شد. داده‌های متیلاسیون DNA با استفاده از فراداده از شناسه متیلاسیون قبلی به یک ساختار مبتنی بر نماد ژنی دوباره قالب‌بندی شدند. مقدار بتا، مقدار میانگین در سراسر شناسه‌های متیلاسیون هر نماد ژن بود.

۲٫۲٫۴٫ داده های فنوتیپ

داده‌های فنوتیپ ترکیبی (۱۱۳۶۹ مورد) از نمونه‌ها در مجموعه داده‌های PanCan و SBIC، شامل پارامترهای مختلف از داده‌های گذشته‌نگر، به‌عنوان مثال، نوع سرطان، نوع نمونه، محل اولیه، رویداد تومور، جنس، نژاد و مرحله را تشکیل می‌دهد. فنوتیپ های مورد استفاده در یادگیری مدل و تجزیه و تحلیل نتایج، نوع سرطان، محل اولیه و نوع نمونه بودند.

انواع سرطان مورد بررسی عبارت بودند از: کارسینوم قشر آدرنال، کارسینوم اوروتلیال مثانه، کارسینوم مهاجم پستان (BRCA)، کارسینوم سلول سنگفرشی دهانه رحم، آدنوکارسینوم آندوسرویکال، کلانژیوکارسینوم، آدنوکارسینوم کولون، نئوپلاسم لنفوئیدی منتشر شده توسط سلول های B-سلوموفورم، e گردن . کارسینوم سلول سنگفرشی، کروموفوب کلیه، کارسینوم سلول شفاف کلیه (KIRC)، کارسینوم سلول پاپیلاری کلیه کلیه، لوسمی حاد میلوئیدی، گلیوما درجه پایین مغز، کارسینوم کبد سلولی، آدنوکارسینوم ریه، کارسینوم سلول سنگفرشی ریه، مزوتلیوما سرلوکارسینوما، آدنوکارسینوم، فئوکروموسیتوم و پاراگانگلیوما، آدنوکارسینوم پروستات، آدنوکارسینوم رکتوم، SARC، ملانوم پوستی، آدنوکارسینوم معده (STAD)، تومورهای سلول زایای بیضه، کارسینوم تیروئید، تیموما، کارسینوم آندومتریال جسم رحمی (UC) و.

محل های اولیه مورد بررسی عبارت بودند از غده فوق کلیوی، مجرای صفراوی و کیسه صفرا، مثانه، مغز استخوان، مغز، سینه، کاردیا، مغز، رحم رحم، قشر غده فوق کلیوی، مری، چشم، سر و گردن، روده، کلیه، کبد، ریه، غدد لنفاوی، دهان، تخمدان، لوزالمعده، صفاق، پلور، غده پروستات، پوست، معده، زیر جلدی و بافت نرم، بیضه، تیموس، غده تیروئید، زبان و رحم.

نمونه‌های مورد بررسی عبارت بودند از: نوع اضافی جدید اولیه، متاستاتیک، سرطان محیطی مشتق از خون اولیه، تومور اولیه، تومور عودکننده، و انواع طبیعی بافت جامد.

۲٫۳٫ بالشتک

سه نوع داده omics استفاده شد: بیان ژن mRNA، بیان ایزوفرم mRNA و داده متیلاسیون DNA. برخی از نمونه ها تنها یک یا دو نوع داده omics را نشان می دهند (جدول ۱).

استراتژی padding برای پردازش داده ها و استنباط ها در هر نمونه اعمال شد. برای هر نمونه داده omics، مجموعه padding به عنوان تفاوت بین اتحاد همه نمونه های داده omics و مجموعه هر نمونه داده omics بیان شد. مقدار padding برابر ۰ واحد شد. اندازه اتحادیه نمونه برای همه ژنوم ها ۱۱۳۶۹ بود و داده های padding برای بیان ۱۰۳۴ ژن و ۱۰۳۵ ایزوفرم و مقادیر بتا برای سایت های متیلاسیون ۱۹۷۳ تولید شد.

۲٫۴٫ ساختار مدل

مدل پیشنهادی بر اساس یادگیری نیمه نظارتی با افزودن یک مدل پیش‌بینی به مدل مولد ساختار یافته بود. مدل مولد چند omics الگوهای ژنتیکی تومور را بر اساس چندین نوع داده omics برای جاسازی در یک بردار با ابعاد پایین شناسایی می‌کند. مدل طبقه بندی گسترش یافته استنباط هایی را در مورد فنوتیپ نوع سرطان داده شده انجام می دهد. علاوه بر این، برای نمونه‌هایی با یک یا چند نوع داده omics از دست رفته، padding برای تولید انعطاف‌پذیر جاسازی اضافه می‌شود، حتی در غیاب داده‌های omics خاص در ارجاع به سایرین.

۲٫۵٫ جزئیات پیاده سازی

مدل پیشنهادی با استفاده از PyTorch Lightning (نسخه ۱٫۶٫۳) طراحی شده است. [۴۹]که یک رابط پیشرفته برای PyTorch (نسخه ۱٫۱۱٫۰) فراهم می کند. [۵۰]. به طور کلی، این مدل شامل شبکه های عصبی خطی با تابع فعال سازی واحد خطی اصلاح شده و نرمال سازی لایه است. فراپارامترها به مقادیر بهینه خود در محدوده جستجو تنظیم شدند (جدول ۲).

مدل مولد چند omics بر اساس یک VAE اصلاح شده با سه لایه ساخته شده است: رمزگذار گسترش یافته، لایه Concat و رمزگشای توسعه یافته. لایه Expanded Encoder شامل م رمزگذارها اندازه داده های ورودی برای هر رمزگذار معادل تعداد هر نقطه داده omics است، در حالی که یک رمزگذار از لایه هایی تشکیل شده است که بردارهایی با اندازه های ۱۰۰۰، ۵۰۰ و ۱۰۰ ایجاد می کند. م تعداد انواع داده های omics مورد استفاده در یادگیری است. دو نقش به لایه Concat اختصاص داده شده است. ابتدا، بردارهای ایجاد شده توسط لایه Expanded Encoder را با خروجی بردار رمزگذاری نهایی به یک بردار واحد متصل می کند. دوم، پارامترسازی مجدد VAE با خروجی بردار نهفته را متوجه می شود. اندازه بردار پنهان، به عنوان خروجی نهایی لایه مربوطه، ۱۰۰ است. لایه Expanded Decoder شامل لایه ای است که ورودی بردار نهفته را برای تولید بردارهایی با اندازه های ۵۰۰ یا ۱۰۰۰ و لایه ای که بردارهایی با اندازه هایی تولید می کند، می گیرد. با ویژگی های هر نوع داده omics مطابقت دارد. خروجی نهایی هر لایه رمزگشا برای بازسازی داده های omics اصلی کار می کند.

مدل طبقه بندی توسعه یافته شامل چندین مدل است که هر کدام دارای ساختار تک لایه ای هستند. داده‌های جاسازی برای پیش‌بینی داده‌های فنوتیپ استفاده می‌شوند و نتیجه یادگیری به مدل تولیدی منتقل می‌شود.

۲٫۶٫ استراتژی های یادگیری

برای تلاش برای یادگیری مدل پیشنهادی باید سه معیار رعایت شود. اول، مدل باید حتی در غیاب داده های omics خاص در نمونه یادگیری عمل کند. ثانیاً، مدل باید قادر به استنباط حتی در مواردی که داده‌های omics از دست رفته باشد، باشد. سوم، استفاده همزمان از داده های ناقص باید به بهبود عملکرد کمک کند. برای این کار، مراحل بهینه‌سازی پارامتر در مدل مولد چند omics و مدل طبقه‌بندی توسعه‌یافته در استراتژی‌های یادگیری تعریف شد.

۲٫۶٫۱٫ مدل تولیدی چند Omics

مدل مولتی omics دارای طراحی مبتنی بر VAE است. VAE یک شبکه عصبی عمیق است که می‌تواند منیفولدها را در داده‌های خام با ابعاد بالا شناسایی کند تا ویژگی‌های مفیدی برای عملیات‌های دیگر مانند طبقه‌بندی و رگرسیون ایجاد کند. در ساختار VAE، داده های ورودی x از رمزگذار عبور کنید تا بردار پنهان z را با داده های ویژگی و بردار تولید کنید ز از رمزگشا عبور می کند و داده های خروجی مشابهی را با داده های ورودی تولید می کند x. اتلاف در مدل مولد چند omics، مانند تلفات عمومی در ساختارهای VAE، بر اساس اتحاد تلفات بازسازی است که نشان دهنده تفاوت در داده های ورودی است. x از داده ها g بازسازی شده توسط رمزگشا و از دست دادن منظم که بردار نهفته z را پس از نمونه برداری با پارامترسازی مجدد برای پیروی از توزیع نرمال کنترل می کند.

استراتژی های یادگیری بین مدل مولد چند omics و VAE های عمومی متفاوت است. اولی تکنیک padding را برای استفاده از اطلاعات تا حد امکان، حتی در غیاب داده‌های omics خاص به کار می‌برد. با padding، داده های از دست رفته مقادیر ۰ اختصاص می یابد و بازسازی مربوطه ممکن است یادگیری مدل را محدود کند. از این رو، ضرر منتسب به padding با استفاده از فیلتری که بین داده های واقعی و داده های padding متمایز می شود، در محاسبه ضرر بازسازی حذف شد. علاوه بر این، ضرر نهایی از مدل طبقه‌بندی توسعه‌یافته با استنباط‌های مربوط به فنوتیپ‌های سرطان در نظر گرفته شد تا بازسازی داده‌های اصلی بتواند نتایج یادگیری را برای داده‌های فنوتیپ ترکیب کند.

۲٫۶٫۲٫ گسترش مدل طبقه بندی

مدل طبقه بندی گسترش یافته شامل سه مدل است که سه پارامتر (نوع سرطان، محل اولیه و نوع نمونه) را با ساختار تک لایه خطی در هر مدل پیش بینی می کند. هر مدل طبقه بندی، بردار نهفته را از مدل مولد چند omics به عنوان ورودی برای پیش بینی فنوتیپ دریافت می کند. به جای از دست دادن آنتروپی متقاطع که معمولاً برای مدل‌های طبقه‌بندی عمومی استفاده می‌شود، تلفات کانونی را محاسبه کردیم. [۵۱]که می تواند مشکل عدم تعادل طبقاتی را بهبود بخشد. زیان نهایی مدل طبقه بندی توسعه یافته به عنوان مجموع ضررهای هر مدل طبقه بندی محاسبه شد.

۲٫۷٫ ارزیابی عملکرد

برچسب طبقه‌بندی مورد استفاده در مدل پیشنهادی «فنوتیپ‌هایی با مشکل عدم تعادل کلاس» بود، به‌عنوان مثال، تفاوت‌های اساسی در مقدار داده‌ها در بین کلاس‌ها. از این رو، امتیاز F1 برای هر کلاس محاسبه شد و میانگین وزنی با توجه به درصد داده ها در هر کلاس برای تخمین نمره کل F1 (امتیاز F1 وزنی) به دست آمد تا از ارزیابی دقیق عملکرد مدل اطمینان حاصل شود. امتیاز F1 وزنی با استفاده از Scikit-learn محاسبه شد [۵۲]. علاوه بر این، برای تأیید اینکه مدل پیشنهادی می‌تواند برای استنتاج در مواردی که داده‌های اومیکس از دست رفته است، استفاده شود، از میانگین خطای مطلق استفاده شد و داده‌های omics خاص با داده‌های padding جایگزین شدند و با داده‌های بازسازی‌شده برای نمونه‌هایی با داده‌های omics کامل مقایسه شدند. . ما از کتابخانه Scikit-learn برای محاسبات t-SNE و Bokeh استفاده کردیم [۵۳] کتابخانه برای تجسم

۴٫ بحث

تکنیک‌های جاسازی معمولاً روابط مهم وابسته به کار را در فضاهای ویژگی با ابعاد بالا استخراج می‌کنند و از آن‌ها در تحلیل پایین‌دستی استفاده می‌کنند. بسیاری از مطالعات قبلی بر تکنیک‌های تعبیه مستقل تکیه کرده‌اند [۳۴,۳۵,۳۶,۳۷]; با این حال، آن‌ها نمونه‌های کمتری را برای طبقه‌بندی و وظایف پیش‌بینی زیست‌پزشکی شامل شدند. برای پرداختن به این مسائل، منطق جاسازی را با افزودن داده‌های omics مجازی، که شبیه داده‌های omics واقعی هستند، بررسی کردیم.
در این مطالعه، کاربرد روش جدید توسعه‌یافته نسبت به روش‌های مرسوم که استفاده از داده‌های ناقص را مجاز نمی‌دانند تأیید شد. علاوه بر این، داده‌های omics مجازی که شبیه داده‌های omics واقعی بر اساس استنباط‌های مربوط به داده‌های omics از دست رفته هستند، توسط دو وظیفه تولید شدند: طبقه‌بندی فنوتیپ و تولید omics مجازی، با استفاده از داده‌های جاسازی. در کار طبقه‌بندی فنوتیپ، یک آزمایش مقایسه عملکرد بین مدل چند omics موجود، که می‌تواند فقط داده‌های کامل را یاد بگیرد، و مدل پیشنهادی، که می‌تواند داده‌های ناقص را نیز یاد بگیرد، انجام شد. میانگین عملکرد مدل از طریق اعتبارسنجی متقاطع K-fold (K = 5) اندازه‌گیری شد. مقایسه عملکرد بر روی مدل “۱۱۱” که فقط بر روی داده های کامل آموزش داده شده است، مدل “OUR” آموزش داده شده بر روی داده های ناقص نیز انجام شد، و مدل های “۱۱۰” و “۰۰۱” که فقط بر روی داده های omics جزئی آموزش دیده اند. در نتیجه، مدل «OUR» که با داده‌های ناقص آموزش داده شد، بالاترین میانگین عملکرد را در هر فنوتیپ داشت (نوع سرطان «OUR»: ۰٫۹۵۴۹، محل اولیه: ۰٫۹۲۱۲، نوع نمونه: ۰٫۹۷۱۲) (شکل ۳). علاوه بر این، ما عملکرد را پس از آموزش مدل پیشنهادی با استفاده از داده‌های omics اضافی مقایسه کردیم. مدل پیشنهادی بر روی سه مجموعه داده omics (بیان ژن mRNA، بیان ایزوفرم mRNA و متیلاسیون DNA) آموزش داده شد، در حالی که مدل آموزشی اضافی بر روی چهار مجموعه داده omics (بیان ژن mRNA، بیان ایزوفرم mRNA، متیلاسیون DNA و رشته بالغ miRNA آموزش داده شد. بیان). میانگین عملکرد مدل ها از طریق اعتبارسنجی متقاطع K-fold (K = 5) اندازه گیری شد. تفاوت عملکرد معنی داری بین دو مدل وجود نداشت (نوع سرطان “OUR”: 0.9549، محل اولیه: ۰٫۹۲۱۲، نوع نمونه: ۰٫۹۷۱۲، نوع سرطان “OUR+”: 0.9586، محل اولیه: ۰٫۹۱۷۵، نوع نمونه: ۰٫۹۷۱۷).
از نظر بهبود عملکرد، مدل پیشنهادی در مقایسه با مدل پایه (مدلی که فقط بر روی داده‌های کامل آموزش می‌دهد) پیشرفت قابل‌توجهی نشان نداد. با این حال، به طور قابل توجهی، مدل پیشنهادی ما حتی در غیاب داده‌های کامل می‌تواند به خوبی یاد بگیرد. برای نشان دادن این، آزمایش‌های مقایسه عملکرد را برای شرایط شدید که داده‌های کامل به ندرت در دسترس هستند، انجام دادیم. شکل ۴ نشان می‌دهد که مدل پیشنهادی می‌تواند عملکرد طبقه‌بندی را حفظ کند، در حالی که مدل معمولی که می‌تواند فقط داده‌های کامل را یاد بگیرد، افت عملکرد شدیدی را در غیاب نسبی داده‌های کامل در داده‌های آموزشی (۹۹٫۹۰٪) نشان می‌دهد. در اینجا، “۹۹٫۹۰٪” مجموعه داده ای است که در آن ۹۹٫۹٪ از داده های کامل در داده های آموزشی با داده های ناقص جایگزین شده است. بنابراین، تعداد داده‌های کامل در داده‌های آموزشی کم بود (تنها ۳)، که مانع از آموزش صحیح مدل موجود می‌شد. در مقابل، با معرفی یک استراتژی padding، مدل پیشنهادی می‌تواند با یادگیری ادامه دهد که می‌تواند نتایج معنی‌داری را حتی در موقعیت‌های شدید و فاقد اطلاعات کامل ایجاد کند.
شکل ۵ نتایج اندازه‌گیری میانگین شباهت بین داده‌های omics مجازی و داده‌های omics واقعی تولید شده از طریق مدل پایه (“۱۱۱”)، که فقط بر روی داده‌های کامل آموخته شده است، و مدل پیشنهادی (“OUR”) را نشان می‌دهد. که بر روی داده های ناقص نیز آموخته است. برای سه نوع داده واقعی omics، مدل پیشنهادی داده‌های omics مجازی را با شباهت بیشتری نسبت به داده‌های مدل پایه تولید کرد (مدل پایه – بیان ژن mRNA: 0.9436، بیان ایزوفرم mRNA: 0.9387، متیلاسیون DNA: 0.9653؛ مدل پیشنهادی – بیان ژن mRNA: 0.9699، بیان mRNA ایزوفرم: ۰٫۹۵۳۳، متیلاسیون DNA: 0.9656).
مدل پیشنهادی با توانایی آن در تولید داده‌های omics مجازی با کیفیت بالا برای داده‌های omics از دست رفته مشخص می‌شود. این تابع در ساختار مدل پایه قابل انجام نیست. شکل ۶ این ویژگی ها را نشان می دهد. داده های ناقص (“۰۱۱″، “۱۰۱” و “۱۱۰”) تولید شده با حذف داده های omics خاص از داده های کامل (“۱۱۱”) به عنوان داده های ورودی مدل تنظیم شدند. اندازه‌گیری شباهت بین داده‌های omics واقعی و داده‌های omics مجازی تولید شده از داده‌های ناقص، شباهت میانگین کسینوس بالای سه نوع داده omics 0.9646 را نشان داد (بیان ژن mRNA: 0.9704، بیان ایزوفرم mRNA: 0.9555، متیلاسیون DNA: 0.9677).
در مرحله بعد، ما تجسم‌هایی را انجام دادیم تا بفهمیم آیا مدل پیشنهادی می‌تواند منابع داده‌های مختلف omics را با حفظ مکمل بودن در انواع داده‌های omics و کاهش نویز ویژگی‌های تا حدی مستقل به طور موثر یکپارچه کند. از طریق t-SNE، ما تشکیل خوشه‌ها را برای سه فنوتیپ (نوع سرطان، محل اولیه و نوع نمونه) تجسم کردیم (شکل ۷، شکل‌های S4 و S5). در اینجا، ما تشکیل خوشه های متعددی از انواع سرطان های خاص، مانند BRCA، UCEC، KIRC، و STAD را به تصویر کشیدیم (شکل ۷). این را می توان به عنوان اعوجاج به دلیل تشکیل خوشه های جداگانه بسته به وجود یا عدم وجود داده های padding توضیح داد. برای حل این اعوجاج، اثربخشی داده‌های omics مجازی را در کار ایجاد omics مجازی تأیید کردیم. برای این منظور، ما padding را با داده‌های omics مجازی تولید شده توسط آموزش مدل جایگزین کردیم و مدل را دوباره آموزش دادیم. تعبیه‌های تولید شده از مدل بازآموزی شده با t-SNE کاهش ابعادی پیدا کرد و تشکیل خوشه‌ها برای سه فنوتیپ (نوع سرطان، محل اولیه و نوع نمونه) مشاهده شد. مشابه مورد قبلی، داده های جاسازی تشکیل خوشه را برای سه فنوتیپ تایید کرد (شکل ۸، شکل S18 و S19). علاوه بر این، در مقایسه با تجسم قبلی (شکل ۷)، داده های خاصی (به عنوان مثال، BRCA، UCEC، KIRC، و STAD) که خوشه های متعددی را برای همان کارسینوم تشکیل می دادند، همگرا شدند، که نشان می دهد اعوجاج خوشه برطرف شده است (شکل ۸).
در نهایت، تعیین کردیم که آیا داده‌های omics مجازی تولید شده توسط مدل پیشنهادی با داده‌های omics واقعی در توزیع در فضای پنهان متفاوت است یا خیر. برای این منظور، ادغام داده های واقعی و مجازی برای یک نوع داده تک omics از طریق t-SNE مشاهده شد و تفاوت در توزیع در فضای پنهان مقایسه شد. بر اساس نوع سرطان، داده‌های omics مجازی خوشه‌های مشابهی با داده‌های omics واقعی در فضای پنهان تشکیل دادند (شکل ۹).

به طور خلاصه، رویکرد جدید توسعه‌یافته در این مطالعه، استفاده از چند omics را به حداکثر می‌رساند. برای نمونه‌هایی با داده‌های omics ناقص، نتایج یادگیری از داده‌های omics خاص با داده‌های یادگیری از نمونه‌هایی با اطلاعات کامل ادغام شد و تعبیه متعاقب آن کیفیت و انعطاف‌پذیری بالایی را نشان داد. علاوه بر این، جاسازی منجر به تولید داده‌های omics مجازی شد که شبیه داده‌های omics واقعی بود.

این مطالعه دارای محدودیت های خاصی است. اول، استراتژی‌های ما فقط برای تعداد محدودی از کارها، از جمله پیش‌بینی فنوتیپ سرطان، پیش‌بینی محل اولیه، و پیش‌بینی نوع نمونه، توسعه و تأیید شدند. با این حال، با توسعه بیشتر، استراتژی را می توان به راحتی بهبود بخشید تا سایر وظایف طبقه بندی و پیش بینی را شامل شود، مانند شناسایی هدف، شناسایی منشاء بافت و امضاهای بیان ژن خاص، و پیش بینی های چندوجهی. علاوه بر این، سایر انواع داده های تجربی، مانند RNA-seq تک سلولی و تنظیم RNA درون زا، در نهایت می توانند شامل شوند. با این حال، همانطور که از آزمایش مقایسه آموزش با داده‌های omics اضافی مشهود است، افزودن داده‌ها به سادگی برای تجزیه و تحلیل دقیق روابط بین انواع داده‌های omics و افزایش عملکرد کافی نیست. دوم، انتخاب برچسب‌گذاری سایت اولیه (۳۲ کلاس بیش از ۱۰۰ برچسب) باید بررسی شود زیرا می‌تواند در یک نمونه برای یک سایت اولیه چالش برانگیز باشد. با این حال، این موضوع تمرکز این مطالعه نبود. در مطالعات آینده، تکنیک‌های پیشرفته مانند مکانیسم‌های توجه و شبکه‌های عصبی نموداری را می‌توان برای تجزیه و تحلیل جامع روابط بین بیماران یا omics مورد استفاده قرار داد، بنابراین اجازه می‌دهد سهم وزنی از هر نوع داده توسط داده‌های omics مجازی جهانی منعکس شود.

۵٫ نتیجه گیری

مدلی با جاسازی داده‌های SARC برای جمعیت کره از SBIC (به سمت ایجاد یک ثبت ملی برای سرطان‌های نادر) توسعه داده شد. با این حال، به دلیل تعداد ناکافی نمونه‌ها در SBIC کره‌ای برای یادگیری با یک مدل هوش مصنوعی، داده‌های مرتبط با سرطان در دسترس عموم در TCGA، از جمله انواع داده‌های ژنومی مختلف (از رونوشت‌ها تا اپی ژنوم‌ها)، استفاده شد. داده‌های SBIC KBN (شبکه بانک زیستی کره) حاوی انواع داده‌های محدودتری است، مانند داده‌های بیان ژن mRNA و داده‌های بیان ایزوفرم mRNA.

برای یک مدل هوش مصنوعی، تحقیقات قبلی نشان داده است که داده های چند omics، در مقایسه با داده های تک omics، می توانند ویژگی های ژنتیکی سرطان را با دقت بیشتری نشان دهند. با این وجود، داده های چند omics اغلب ناقص هستند و کاربرد مدل هوش مصنوعی را محدود می کنند. به عنوان مثال، داده های SBIC کره ناقص هستند. بنابراین، تنها داده های omics جزئی از TCGA می تواند استفاده شود. با توجه به مجموعه گسترده ای از داده های ژنتیکی مرتبط با سرطان، استفاده از بخش هایی از پایگاه های داده باز در مقیاس بزرگ در موارد ناقص داده ها یک محدودیت عمده است.

رویکرد پیشنهادی جدید، استفاده از داده‌های ناقص را به حداکثر می‌رساند. پس از ادغام داده های PanCan و SBIC، مقادیر بیان ژن mRNA، بیان ایزوفرم mRNA و متیلاسیون DNA به عنوان داده های ورودی استفاده شد. نمونه‌هایی که داده‌های omics را نداشتند با padding درمان شدند. در حالی که مشخصات داده را برای یادگیری توسط مدل های AI تنظیم می کند، استراتژی padding بر روند یادگیری تأثیر نمی گذارد. به عنوان مثال، زمانی که یک نمونه معین فاقد داده‌های متیلاسیون DNA باشد، بالشتک در محاسبه تلفات بازسازی برای متیلاسیون DNA لحاظ نمی‌شود. در یک سری مراحل، مدلی برای جاسازی با قابلیت گسترش بالا برای امکان استفاده حداکثری از داده‌های omics طراحی شد و جاسازی تولید شده کیفیت و انعطاف‌پذیری بالایی را نشان داد.

ما تأیید کردیم که استراتژی یادگیری پیشنهادی ما عملکرد طبقه‌بندی بالایی را حفظ می‌کند و به پراکندگی داده‌ها برای رسیدگی به مسائل مرتبط با داده‌های omics ناقص پاسخ قوی می‌دهد. انتظار می رود نتایج این مطالعه برای تحقیقات گسترده omics ارزشمند باشد. همچنین انتظار می‌رود روش جدید در همه حوزه‌های مبتنی بر هوش مصنوعی قابل اجرا باشد.

با این حال، معماری VAE مورد استفاده در مطالعه ما ممکن است برای گرفتن ویژگی‌های کلیدی در توزیع‌های پیچیده یا با ابعاد بالا، مانند داده‌های omics، مشکل داشته باشد. این مشکل به این دلیل به وجود می آید که فرض یک توزیع ساده، مانند توزیع گاوسی در فضای پنهان، ممکن است به اندازه کافی پیچیدگی توزیع داده را منعکس نکند. علاوه بر این، فضای پنهانی که از طریق VAE یاد می‌شود ممکن است به‌طور پیچیده‌ای در هم تنیده باشد، که می‌تواند تفسیر فرآیندهای تولید داده و پیش‌بینی مدل را پیچیده کند.

برای پرداختن به این مسائل، ما قصد داریم مدلی را طراحی کنیم که بتواند پیچیدگی توزیع داده ها را با استفاده از معماری VAE مبتنی بر ترانسفورماتور بهتر به تصویر بکشد. علاوه بر این، ما قصد داریم فرآیندی را ادغام کنیم که به محققان اجازه می‌دهد با تجسم تولید داده‌ها و فرآیندهای پیش‌بینی فنوتیپ سرطان از طریق تجسم توجه، خروجی‌های مدل را درک و تفسیر کنند.


منبع: https://www.mdpi.com/2673-2688/5/3/78

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *