۱٫ مقدمه
Omics مطالعه مجموعه داده های جامع از طیف گسترده ای از مواد بیولوژیکی از جمله ژنوم ها، رونوشت ها و پروتئوم ها است. به این ترتیب، omics در تشخیص بالینی، توسعه دارو، و پزشکی دقیق بسیار مهم است، زیرا با کشف اطلاعات ژنتیکی خاص بیماری و تنوع ساختاری سروکار دارد. با پیشرفت در فناوریهای با توان بالا، مانند آرایه BeadChip و فناوریهای توالییابی نسل بعدی، بیان ژن، بیان ایزوفرم و دادههای متیلاسیون DNA به صورت انبوه تولید شدهاند. [۱,۲]. اگرچه این دادههای omics حاوی اطلاعات مختلفی هستند، مجموعههای خاصی ارتباط را نشان میدهند [۳,۴]. به عنوان مثال، متیلاسیون DNA با بیان ژن مرتبط است و بیان ژن با سطح پروتئین مرتبط است [۵].
در حالی که تحلیلهای omics اولیه از یک نوع داده واحد استفاده میکردند [۶,۷,۸,۹,۱۰]پیشرفت فناوری رایانه و پیشرفت سریع متعاقب آن در ظرفیت پردازش اطلاعات، تجزیه و تحلیل یکپارچه دادههای omics مختلف (multi-omics)، از ژنومها و رونوشتها گرفته تا پروتئومها را ممکن ساخته است. [۱۱,۱۲,۱۳]. در واقع، multi-omics یک استراتژی نوظهور برای توسعه مدلهای مختلف برای کشف هدف، تشخیص بالینی، زیرگروهبندی بیماری و غیره است. [۱۳,۱۴,۱۵,۱۶,۱۷,۱۸,۱۹,۲۰,۲۱,۲۲,۲۳,۲۴,۲۵].
فنآوریهای پیشرفته، مانند یادگیری ماشین (ML)، برای کاربرد در تحقیقات چند omics امیدوارکننده است [۲۶,۲۷]. ML امکان در نظر گرفتن تعاملات بین مجموعه دادههای متنوع را فراهم میکند و امکان استفاده از طیف وسیعتری از اطلاعات را فراهم میکند و سطوح بالاتری از دقت را ممکن میسازد. در این زمینه، استفاده از ML در تحقیقات چند omics فرصت هایی را برای به دست آوردن بینش عمیق در مورد بیماری ها با تجزیه و تحلیل تعاملات بین omics از دیدگاه های مختلف ارائه می دهد. تحقیقات فعال بر روی تجزیه و تحلیل های چند omics با ML در بیماری های مغزی، دیابت، سرطان و بیماری های قلبی عروقی متمرکز شده است. [۲۸,۲۹,۳۰,۳۱]. با این وجود، ابعاد متعدد در برابر تعداد نمونه در آنالیزهای چند omics تأثیر منفی بر ML دارد [۱]. بیش از ۲۰۰۰۰ ژن کد کننده پروتئین و ۶۰۰۰۰ RNA غیرکد کننده طولانی بر اساس Gencode 7 شناسایی شده است. [۳۲]. علاوه بر این، ۹۶ درصد از سایت های ۴۸۰ K CpG را می توان بر اساس پرکاربردترین پلت فرم داده برای متیلاسیون DNA تجزیه و تحلیل کرد. [۳۳]. استفاده از چنین داده های با ابعاد بالا در ML می تواند منجر به بیش از حد برازش (یعنی نفرین ابعاد) و کاهش عملکرد مدل شود. [۱۶].
برای حل این مشکل، کاهش ابعاد بر اساس دانش دامنه، الگوریتمهای کاهش ابعاد و مدلهای مولد یادگیری عمیق معمولاً در ML استفاده میشود. [۳۴,۳۵,۳۶,۳۷]. به طور خاص، مدل های مولد یاد می گیرند که چگونه توزیع داده ها را تقریبی کنند. رمزگذار خودکار متغیر (VAE) [38] یک مدل مولد است که ویژگی های داده های ورودی را استخراج می کند، آنها را در بردارهای نهفته ذخیره می کند و داده های جدید مشابه داده های ورودی را از طریق بردارهای نهفته تولید می کند. با توجه به اینکه بردارهای پنهان می توانند داده های ورودی را به خوبی توصیف کنند، کاهش ابعاد بر اساس VAE برای تحلیل های مختلف omics اعمال شده است. [۳۷,۳۹].
مدلهای مبتنی بر VAE، علیرغم وعدهدهی، محدودیتهایی دارند. اول، در تجزیه و تحلیل های چند omics، داده های از دست رفته از یک نمونه معین می تواند از استفاده از آن در یادگیری جلوگیری کند، و کاهش حجم نمونه می تواند منجر به عملکرد ضعیف الگوریتم های یادگیری شود. با این حال، به دست آوردن حجم نمونه کافی در سناریوهای دنیای واقعی به دلیل مشکلات در ثبت نام بیمار چالش برانگیز است. دوم، زمانی که دادههای omics جمعآوریشده از مؤسسات مختلف از نظر نوع متفاوت است، عملکرد مدلها به دلیل یکپارچهسازی ضعیف دادهها محدود میشود، زیرا همه نمونهها باید دارای مقادیر ویژگی مورد نیاز مورد نیاز مدل ML باشند. در نتیجه، مطالعات مرتبط از دادههای باز مقیاس بزرگ، مانند اطلس ژنوم سرطان (TCGA) Pan-Cancer Atlas (PanCan) استفاده کردهاند. [۴۰]. با این حال، زمانی که تنها بخشی از انواع دادههای omics در دسترس هستند، مانند دادههای جمعآوریشده آیندهنگر از کنسرسیوم نوآوری بانک زیستی کرهای Sarcoma (SBIC)، روشهای تحلیلی یکپارچه موجود نمیتوانند اعمال شوند. بنابراین، روشی برای ادغام کارآمد منابع داده های مختلف omics با حفظ ویژگی های مستقل هر جنبه ضروری است. [۴۱].
ادغام داده های ناقص و کامل برای تجزیه و تحلیل می تواند منجر به افزایش در دسترس بودن نمونه ها و در نتیجه انتظارات برای بهبود عملکرد شود. کائو و گائو [۴۲] GLUE (جاسازی یکپارچه پیوند شده با نمودار)، یک چارچوب مدولار برای یکپارچه سازی داده های چند omics تک سلولی جفت نشده و استنباط تعاملات نظارتی به طور همزمان پیشنهاد شده است. این مدل با استفاده از دانش بیولوژیکی برای مدلسازی صریح تعاملات تنظیمی بین لایهای که فضاهای عملکردی سلسله مراتبی را با یک نمودار مبتنی بر دانش (“گراف راهنما”) به هم متصل میکند، دادههای omics را از منابع مختلف ادغام و تجزیه و تحلیل میکند و به طور موثر حالتهای سلولی متنوع را ثبت میکند. دو و همکاران [۴۳] از ماسکهای گمشده برای یادگیری توزیع شرطی الگوها و ویژگیهای دیده نشده استفاده میکند. با یادگیری صریح توزیعهای شرطی ویژگیهای پوشانده شده خاص (یا فرمهای) زمانی که ویژگیها (یا روشهای) بدون نقاب ارائه میشد، آنها تجزیه و تحلیل یکپارچه دادههای omics را انجام دادند و به دقت بالایی در وظایف ترجمه بین دامنهای دست یافتند.
این مطالعه یک مدل جدید هوش مصنوعی (AI) و استراتژیهای یادگیری را پیشنهاد میکند که میتواند به طور موثر از دادههای ناقصی که اغلب در مجموعه دادههای omics برای پان سرطان یافت میشود، استفاده کند. در این مقاله، “داده های کامل” به داده هایی اطلاق می شود که در آن تمام داده های omics مورد استفاده وجود دارند. به عنوان مثال، هنگام استفاده از بیان ژن mRNA، بیان ایزوفرم mRNA و متیلاسیون DNA در چند omics، موردی که هر سه نوع داده omics وجود دارند را می توان “داده کامل” نامید. «دادههای ناقص» به دادههایی اطلاق میشود که در آنها برخی از دادههای omics مورد استفاده وجود ندارد. در همان مثال چند omics که برای “داده های کامل” استفاده می شود، موردی که در آن داده متیلاسیون DNA وجود ندارد را می توان به عنوان “داده ناقص” نام برد (شکل ۱).
بنابراین، در مطالعه حاضر، یک مدل هوش مصنوعی منفرد با قابلیت مدیریت دادههای کامل و ناقص طراحی شد. برای اجازه دادن به ورودی نمونه هایی با داده های omics از دست رفته در مدل AI، استراتژی padding را برای جایگزینی داده های omics گمشده با ۰ انتخاب کردیم (شکل ۲). برای دادههای omics (بیان ژن mRNA، بیان ایزوفرم mRNA و متیلاسیون DNA)، نمونههایی با مقادیر تمام ستون (نماد ژن) ۰ در توزیع دادههای واقعی ظاهر نشدند (شکلهای S1-S3). بنابراین فرض بر این بود که مدل هوش مصنوعی چنین مقادیری را در غیاب داده های واقعی تشخیص می دهد. علاوه بر این، یک مدل هوش مصنوعی برای استنباط داده های گمشده omics با یادگیری از داده های omics ورودی جزئی طراحی شده است. اگر دادههای omics تولید شده برای دادههای از دست رفته مشابه مقادیر واقعی باشند، میتوانند نقاط دادهای را جایگزین کنند که در چند omics وجود ندارند. علاوه بر این، اگر داده های omics تولید شده برای جاسازی استفاده شود، توزیع حاصل شبیه به جاسازی بر اساس داده های واقعی خواهد بود. در نهایت، سودمندی رویکرد جدید در برابر روشهای قبلی که استفاده از دادههای ناقص را مجاز نمیدانست، تایید شد. برای این منظور، یک تابع پیشبینی فنوتیپ به مدل اضافه شد و عملکرد آن مورد ارزیابی قرار گرفت.
مدل پیشنهادی از دو جزء کلیدی تشکیل شده است: یک مدل تولیدکننده چند omics مبتنی بر VAE که میتواند الگوهای ژنتیکی تومورها را بر اساس دادههای omics مختلف بیاموزد و یک مدل طبقهبندی گسترده که میتواند فنوتیپهای سرطان را پیشبینی کند. تجزیه و تحلیل جامع تطبیق پذیری مدل را تأیید کرد. به طور خاص، دادههای چند نمونه یا دادههای omics با بخشهای گمشده، مانند دادههای SBIC کرهای، میتوانند برای یادگیری استفاده شوند. علاوه بر این، روش جدید توسعهیافته، تولید دادههای ژنومی مجازی را که شبیه دادههای ژنومی واقعی بر اساس استنتاج دادههای omics از دست رفته است، امکانپذیر میسازد.
۲٫ مواد و روشها
۲٫۱٫ منبع داده
۲٫۱٫۱٫ پان سرطان TCGA (PanCan)
پایگاه داده باز TCGA PanCan داده های جهش را برای بیش از ۱۰۰۰۰ نمونه از ۳۳ نوع سرطان یکپارچه می کند. دادههای TCGA PanCan به طور گسترده در تحقیقات پزشکی دقیق، از جمله در آموزش مدلهای هوش مصنوعی برای کشف نشانگرهای تشخیص سرطان استفاده میشود.
این مطالعه از نمونههای زیستی و دادههای SBIC برای تحقیقات پزشکی و بهداشتی استفاده کرد. تمام داده های PanCan از پلت فرم Xena دانشگاه کالیفرنیا سانتا کروز (UCSC) دانلود شد [۴۴]. دادهها پس از هر یک از مجموعههای پیشپردازش نهایی دادهها ادغام شدند و نرمالسازی حداکثر حداقل برای به دست آوردن مقادیر بین ۰ و ۱ اعمال شد.
۲٫۱٫۲٫ شبکه بیوبانک کره-SBIC
هدف SBIC، به عنوان بخشی از پروژه Biobank کره، ایجاد یک ثبت ملی برای حمایت از تحقیقات در مورد سرطانهای نادر و ترویج تحقیقات ترجمهای با ادغام و جمعآوری دادهها برای مواد مختلف مرتبط با انسان و متعاقباً تولید دادههای جهش برای سارکوم (SARC) است. داده های SBIC در این مطالعه با همکاری پروژه کنسرسیوم برای ساخت بانک زیستی سارکوم کره ای استفاده شد.
برای استفاده به عنوان ورودی در مدل پیشنهادی، دادههای SBIC، مانند دادههای PanCan، پس از هر یک از مراحل پیشپردازش نهایی دادهها و نرمالسازی حداکثر حداقل برای به دست آوردن مقادیر بین ۰ و ۱ یکپارچه شدند.
۲٫۲٫ انواع داده ها
۲٫۲٫۱٫ داده های بیان ژن mRNA
بیان ژن فرآیندی است که در آن اطلاعات از یک ژن برای سنتز یک محصول ژن عملکردی استفاده می شود که محصولات نهایی، یعنی پروتئین یا RNA غیر کدکننده را تولید می کند و در نهایت بر فنوتیپ سلولی تأثیر می گذارد. بسیاری از مطالعات از داده های بیان ژن برای ارزیابی حالت های تومور و پروفایل مولکولی استفاده می کنند [۳۷,۴۵]. دادههای بیان ژن mRNA PanCan شامل ۶۰۴۹۸ نماد ژن مربوط به ۱۰۵۳۵ نمونه است. داده های بیان ژن mRNA SBIC شامل ۲۵۲۶۸ نماد ژن متعلق به ۴۵ نمونه است. در این مطالعه، ما فقط ۱۰۴۹۶ نمونه با دادههای فنوتیپ را در مورد PanCan وارد کردیم، زیرا مدل پیشنهادی یک کار یادگیری نظارت شده را برای طبقهبندی فنوتیپهای سرطان انجام میدهد. علاوه بر این، برای ادغام داده های PanCan و SBIC، داده های یکپارچه جدید با استفاده از ۲۳۱۹۱ نماد ژن مشترک بین دو مجموعه داده تولید شد. قطعات در هر کیلو باز از رونوشت در میلیون (FPKM) مقادیر برای دادههای مربوطه با استفاده از RNA-seq با حداکثر کردن انتظار (RSEM؛ log-log-transformation) شدند.۲(FPKM + 0.001)).
۲٫۲٫۲٫ داده های بیان ایزوفرم mRNA
ایزوفرم های ژن mRNA هایی هستند که از یک مکان با مکان های شروع رونویسی مشخص، توالی های DNA کدکننده پروتئین و/یا مناطق ترجمه نشده تولید می شوند که می توانند عملکرد ژن را تغییر دهند. [۴۶]. مطالعات اخیر نشان داده است که چندین ایزوفرم ژن به طور مستقیم در تغییر شکل و رشد تومور عمل می کنند [۴۷]. داده های بیان ایزوفرم mRNA PanCan شامل ۱۹۷۰۴۵ نماد ژن برای ۱۰۵۳۵ نمونه و داده های بیان ایزوفرم mRNA SBIC حاوی ۲۵۲۶۸ نماد ژن برای ۴۵ نمونه است. از دادههای PanCan، تنها ۱۰۴۹۵ نمونه با دادههای فنوتیپ گنجانده شد و ۲۳۱۹۱ نماد ژن اضافی که با مجموعه داده SBIC به اشتراک گذاشته شده بودند، گنجانده شدند. مقادیر FPKM برای داده های مربوطه با استفاده از RSEM (log2(FPKM + 0.001)).
۲٫۲٫۳٫ داده های متیلاسیون DNA
متیلاسیون DNA یک مکانیسم اپی ژنتیکی است که در آن یک گروه متیل به موقعیت C5 سیتوزین منتقل می شود تا ۵-متیل سیتوزین را تشکیل دهد. متیلاسیون DNA بیان ژن را با به کارگیری پروتئین های دخیل در مهار ژن یا با مهار اتصال فاکتورهای رونویسی به DNA تنظیم می کند. با توجه به اینکه متیلاسیون DNA در یک منطقه خاص می تواند به طور مستقیم با بیان انکوژن مرتبط باشد، در حال حاضر به عنوان یک شاخص اصلی و هدف سرطان مورد مطالعه قرار می گیرد. [۴۸]. دادههای متیلاسیون DNA PanCan شامل ۳۹۶۰۶۵ شناسه متیلاسیون برای ۹۶۳۹ نمونه است. داده های SBIC شامل داده های متیلاسیون DNA نمی شود. از داده های PanCan، نمونه هایی غیر از ۹۶۰۲ با داده های فنوتیپ حذف شدند. علاوه بر این، شناسههای متیلاسیون غیر از ۲۶۹۲۷۳ با مقدار NaN حذف شدند. داده های مربوطه از UCSC Xena دانلود شد. دادههای متیلاسیون DNA با استفاده از فراداده از شناسه متیلاسیون قبلی به یک ساختار مبتنی بر نماد ژنی دوباره قالببندی شدند. مقدار بتا، مقدار میانگین در سراسر شناسههای متیلاسیون هر نماد ژن بود.
۲٫۲٫۴٫ داده های فنوتیپ
دادههای فنوتیپ ترکیبی (۱۱۳۶۹ مورد) از نمونهها در مجموعه دادههای PanCan و SBIC، شامل پارامترهای مختلف از دادههای گذشتهنگر، بهعنوان مثال، نوع سرطان، نوع نمونه، محل اولیه، رویداد تومور، جنس، نژاد و مرحله را تشکیل میدهد. فنوتیپ های مورد استفاده در یادگیری مدل و تجزیه و تحلیل نتایج، نوع سرطان، محل اولیه و نوع نمونه بودند.
انواع سرطان مورد بررسی عبارت بودند از: کارسینوم قشر آدرنال، کارسینوم اوروتلیال مثانه، کارسینوم مهاجم پستان (BRCA)، کارسینوم سلول سنگفرشی دهانه رحم، آدنوکارسینوم آندوسرویکال، کلانژیوکارسینوم، آدنوکارسینوم کولون، نئوپلاسم لنفوئیدی منتشر شده توسط سلول های B-سلوموفورم، e گردن . کارسینوم سلول سنگفرشی، کروموفوب کلیه، کارسینوم سلول شفاف کلیه (KIRC)، کارسینوم سلول پاپیلاری کلیه کلیه، لوسمی حاد میلوئیدی، گلیوما درجه پایین مغز، کارسینوم کبد سلولی، آدنوکارسینوم ریه، کارسینوم سلول سنگفرشی ریه، مزوتلیوما سرلوکارسینوما، آدنوکارسینوم، فئوکروموسیتوم و پاراگانگلیوما، آدنوکارسینوم پروستات، آدنوکارسینوم رکتوم، SARC، ملانوم پوستی، آدنوکارسینوم معده (STAD)، تومورهای سلول زایای بیضه، کارسینوم تیروئید، تیموما، کارسینوم آندومتریال جسم رحمی (UC) و.
محل های اولیه مورد بررسی عبارت بودند از غده فوق کلیوی، مجرای صفراوی و کیسه صفرا، مثانه، مغز استخوان، مغز، سینه، کاردیا، مغز، رحم رحم، قشر غده فوق کلیوی، مری، چشم، سر و گردن، روده، کلیه، کبد، ریه، غدد لنفاوی، دهان، تخمدان، لوزالمعده، صفاق، پلور، غده پروستات، پوست، معده، زیر جلدی و بافت نرم، بیضه، تیموس، غده تیروئید، زبان و رحم.
نمونههای مورد بررسی عبارت بودند از: نوع اضافی جدید اولیه، متاستاتیک، سرطان محیطی مشتق از خون اولیه، تومور اولیه، تومور عودکننده، و انواع طبیعی بافت جامد.
۲٫۳٫ بالشتک
سه نوع داده omics استفاده شد: بیان ژن mRNA، بیان ایزوفرم mRNA و داده متیلاسیون DNA. برخی از نمونه ها تنها یک یا دو نوع داده omics را نشان می دهند (جدول ۱).
استراتژی padding برای پردازش داده ها و استنباط ها در هر نمونه اعمال شد. برای هر نمونه داده omics، مجموعه padding به عنوان تفاوت بین اتحاد همه نمونه های داده omics و مجموعه هر نمونه داده omics بیان شد. مقدار padding برابر ۰ واحد شد. اندازه اتحادیه نمونه برای همه ژنوم ها ۱۱۳۶۹ بود و داده های padding برای بیان ۱۰۳۴ ژن و ۱۰۳۵ ایزوفرم و مقادیر بتا برای سایت های متیلاسیون ۱۹۷۳ تولید شد.
۲٫۴٫ ساختار مدل
مدل پیشنهادی بر اساس یادگیری نیمه نظارتی با افزودن یک مدل پیشبینی به مدل مولد ساختار یافته بود. مدل مولد چند omics الگوهای ژنتیکی تومور را بر اساس چندین نوع داده omics برای جاسازی در یک بردار با ابعاد پایین شناسایی میکند. مدل طبقه بندی گسترش یافته استنباط هایی را در مورد فنوتیپ نوع سرطان داده شده انجام می دهد. علاوه بر این، برای نمونههایی با یک یا چند نوع داده omics از دست رفته، padding برای تولید انعطافپذیر جاسازی اضافه میشود، حتی در غیاب دادههای omics خاص در ارجاع به سایرین.
۲٫۵٫ جزئیات پیاده سازی
مدل پیشنهادی با استفاده از PyTorch Lightning (نسخه ۱٫۶٫۳) طراحی شده است. [۴۹]که یک رابط پیشرفته برای PyTorch (نسخه ۱٫۱۱٫۰) فراهم می کند. [۵۰]. به طور کلی، این مدل شامل شبکه های عصبی خطی با تابع فعال سازی واحد خطی اصلاح شده و نرمال سازی لایه است. فراپارامترها به مقادیر بهینه خود در محدوده جستجو تنظیم شدند (جدول ۲).
مدل مولد چند omics بر اساس یک VAE اصلاح شده با سه لایه ساخته شده است: رمزگذار گسترش یافته، لایه Concat و رمزگشای توسعه یافته. لایه Expanded Encoder شامل م رمزگذارها اندازه داده های ورودی برای هر رمزگذار معادل تعداد هر نقطه داده omics است، در حالی که یک رمزگذار از لایه هایی تشکیل شده است که بردارهایی با اندازه های ۱۰۰۰، ۵۰۰ و ۱۰۰ ایجاد می کند. م تعداد انواع داده های omics مورد استفاده در یادگیری است. دو نقش به لایه Concat اختصاص داده شده است. ابتدا، بردارهای ایجاد شده توسط لایه Expanded Encoder را با خروجی بردار رمزگذاری نهایی به یک بردار واحد متصل می کند. دوم، پارامترسازی مجدد VAE با خروجی بردار نهفته را متوجه می شود. اندازه بردار پنهان، به عنوان خروجی نهایی لایه مربوطه، ۱۰۰ است. لایه Expanded Decoder شامل لایه ای است که ورودی بردار نهفته را برای تولید بردارهایی با اندازه های ۵۰۰ یا ۱۰۰۰ و لایه ای که بردارهایی با اندازه هایی تولید می کند، می گیرد. با ویژگی های هر نوع داده omics مطابقت دارد. خروجی نهایی هر لایه رمزگشا برای بازسازی داده های omics اصلی کار می کند.
مدل طبقه بندی توسعه یافته شامل چندین مدل است که هر کدام دارای ساختار تک لایه ای هستند. دادههای جاسازی برای پیشبینی دادههای فنوتیپ استفاده میشوند و نتیجه یادگیری به مدل تولیدی منتقل میشود.
۲٫۶٫ استراتژی های یادگیری
برای تلاش برای یادگیری مدل پیشنهادی باید سه معیار رعایت شود. اول، مدل باید حتی در غیاب داده های omics خاص در نمونه یادگیری عمل کند. ثانیاً، مدل باید قادر به استنباط حتی در مواردی که دادههای omics از دست رفته باشد، باشد. سوم، استفاده همزمان از داده های ناقص باید به بهبود عملکرد کمک کند. برای این کار، مراحل بهینهسازی پارامتر در مدل مولد چند omics و مدل طبقهبندی توسعهیافته در استراتژیهای یادگیری تعریف شد.
۲٫۶٫۱٫ مدل تولیدی چند Omics
مدل مولتی omics دارای طراحی مبتنی بر VAE است. VAE یک شبکه عصبی عمیق است که میتواند منیفولدها را در دادههای خام با ابعاد بالا شناسایی کند تا ویژگیهای مفیدی برای عملیاتهای دیگر مانند طبقهبندی و رگرسیون ایجاد کند. در ساختار VAE، داده های ورودی x از رمزگذار عبور کنید تا بردار پنهان z را با داده های ویژگی و بردار تولید کنید ز از رمزگشا عبور می کند و داده های خروجی مشابهی را با داده های ورودی تولید می کند x. اتلاف در مدل مولد چند omics، مانند تلفات عمومی در ساختارهای VAE، بر اساس اتحاد تلفات بازسازی است که نشان دهنده تفاوت در داده های ورودی است. x از داده ها g بازسازی شده توسط رمزگشا و از دست دادن منظم که بردار نهفته z را پس از نمونه برداری با پارامترسازی مجدد برای پیروی از توزیع نرمال کنترل می کند.
استراتژی های یادگیری بین مدل مولد چند omics و VAE های عمومی متفاوت است. اولی تکنیک padding را برای استفاده از اطلاعات تا حد امکان، حتی در غیاب دادههای omics خاص به کار میبرد. با padding، داده های از دست رفته مقادیر ۰ اختصاص می یابد و بازسازی مربوطه ممکن است یادگیری مدل را محدود کند. از این رو، ضرر منتسب به padding با استفاده از فیلتری که بین داده های واقعی و داده های padding متمایز می شود، در محاسبه ضرر بازسازی حذف شد. علاوه بر این، ضرر نهایی از مدل طبقهبندی توسعهیافته با استنباطهای مربوط به فنوتیپهای سرطان در نظر گرفته شد تا بازسازی دادههای اصلی بتواند نتایج یادگیری را برای دادههای فنوتیپ ترکیب کند.
۲٫۶٫۲٫ گسترش مدل طبقه بندی
مدل طبقه بندی گسترش یافته شامل سه مدل است که سه پارامتر (نوع سرطان، محل اولیه و نوع نمونه) را با ساختار تک لایه خطی در هر مدل پیش بینی می کند. هر مدل طبقه بندی، بردار نهفته را از مدل مولد چند omics به عنوان ورودی برای پیش بینی فنوتیپ دریافت می کند. به جای از دست دادن آنتروپی متقاطع که معمولاً برای مدلهای طبقهبندی عمومی استفاده میشود، تلفات کانونی را محاسبه کردیم. [۵۱]که می تواند مشکل عدم تعادل طبقاتی را بهبود بخشد. زیان نهایی مدل طبقه بندی توسعه یافته به عنوان مجموع ضررهای هر مدل طبقه بندی محاسبه شد.
۲٫۷٫ ارزیابی عملکرد
برچسب طبقهبندی مورد استفاده در مدل پیشنهادی «فنوتیپهایی با مشکل عدم تعادل کلاس» بود، بهعنوان مثال، تفاوتهای اساسی در مقدار دادهها در بین کلاسها. از این رو، امتیاز F1 برای هر کلاس محاسبه شد و میانگین وزنی با توجه به درصد داده ها در هر کلاس برای تخمین نمره کل F1 (امتیاز F1 وزنی) به دست آمد تا از ارزیابی دقیق عملکرد مدل اطمینان حاصل شود. امتیاز F1 وزنی با استفاده از Scikit-learn محاسبه شد [۵۲]. علاوه بر این، برای تأیید اینکه مدل پیشنهادی میتواند برای استنتاج در مواردی که دادههای اومیکس از دست رفته است، استفاده شود، از میانگین خطای مطلق استفاده شد و دادههای omics خاص با دادههای padding جایگزین شدند و با دادههای بازسازیشده برای نمونههایی با دادههای omics کامل مقایسه شدند. . ما از کتابخانه Scikit-learn برای محاسبات t-SNE و Bokeh استفاده کردیم [۵۳] کتابخانه برای تجسم
۴٫ بحث
تکنیکهای جاسازی معمولاً روابط مهم وابسته به کار را در فضاهای ویژگی با ابعاد بالا استخراج میکنند و از آنها در تحلیل پاییندستی استفاده میکنند. بسیاری از مطالعات قبلی بر تکنیکهای تعبیه مستقل تکیه کردهاند [۳۴,۳۵,۳۶,۳۷]; با این حال، آنها نمونههای کمتری را برای طبقهبندی و وظایف پیشبینی زیستپزشکی شامل شدند. برای پرداختن به این مسائل، منطق جاسازی را با افزودن دادههای omics مجازی، که شبیه دادههای omics واقعی هستند، بررسی کردیم.
در این مطالعه، کاربرد روش جدید توسعهیافته نسبت به روشهای مرسوم که استفاده از دادههای ناقص را مجاز نمیدانند تأیید شد. علاوه بر این، دادههای omics مجازی که شبیه دادههای omics واقعی بر اساس استنباطهای مربوط به دادههای omics از دست رفته هستند، توسط دو وظیفه تولید شدند: طبقهبندی فنوتیپ و تولید omics مجازی، با استفاده از دادههای جاسازی. در کار طبقهبندی فنوتیپ، یک آزمایش مقایسه عملکرد بین مدل چند omics موجود، که میتواند فقط دادههای کامل را یاد بگیرد، و مدل پیشنهادی، که میتواند دادههای ناقص را نیز یاد بگیرد، انجام شد. میانگین عملکرد مدل از طریق اعتبارسنجی متقاطع K-fold (K = 5) اندازهگیری شد. مقایسه عملکرد بر روی مدل “۱۱۱” که فقط بر روی داده های کامل آموزش داده شده است، مدل “OUR” آموزش داده شده بر روی داده های ناقص نیز انجام شد، و مدل های “۱۱۰” و “۰۰۱” که فقط بر روی داده های omics جزئی آموزش دیده اند. در نتیجه، مدل «OUR» که با دادههای ناقص آموزش داده شد، بالاترین میانگین عملکرد را در هر فنوتیپ داشت (نوع سرطان «OUR»: ۰٫۹۵۴۹، محل اولیه: ۰٫۹۲۱۲، نوع نمونه: ۰٫۹۷۱۲) (شکل ۳). علاوه بر این، ما عملکرد را پس از آموزش مدل پیشنهادی با استفاده از دادههای omics اضافی مقایسه کردیم. مدل پیشنهادی بر روی سه مجموعه داده omics (بیان ژن mRNA، بیان ایزوفرم mRNA و متیلاسیون DNA) آموزش داده شد، در حالی که مدل آموزشی اضافی بر روی چهار مجموعه داده omics (بیان ژن mRNA، بیان ایزوفرم mRNA، متیلاسیون DNA و رشته بالغ miRNA آموزش داده شد. بیان). میانگین عملکرد مدل ها از طریق اعتبارسنجی متقاطع K-fold (K = 5) اندازه گیری شد. تفاوت عملکرد معنی داری بین دو مدل وجود نداشت (نوع سرطان “OUR”: 0.9549، محل اولیه: ۰٫۹۲۱۲، نوع نمونه: ۰٫۹۷۱۲، نوع سرطان “OUR+”: 0.9586، محل اولیه: ۰٫۹۱۷۵، نوع نمونه: ۰٫۹۷۱۷).
از نظر بهبود عملکرد، مدل پیشنهادی در مقایسه با مدل پایه (مدلی که فقط بر روی دادههای کامل آموزش میدهد) پیشرفت قابلتوجهی نشان نداد. با این حال، به طور قابل توجهی، مدل پیشنهادی ما حتی در غیاب دادههای کامل میتواند به خوبی یاد بگیرد. برای نشان دادن این، آزمایشهای مقایسه عملکرد را برای شرایط شدید که دادههای کامل به ندرت در دسترس هستند، انجام دادیم. شکل ۴ نشان میدهد که مدل پیشنهادی میتواند عملکرد طبقهبندی را حفظ کند، در حالی که مدل معمولی که میتواند فقط دادههای کامل را یاد بگیرد، افت عملکرد شدیدی را در غیاب نسبی دادههای کامل در دادههای آموزشی (۹۹٫۹۰٪) نشان میدهد. در اینجا، “۹۹٫۹۰٪” مجموعه داده ای است که در آن ۹۹٫۹٪ از داده های کامل در داده های آموزشی با داده های ناقص جایگزین شده است. بنابراین، تعداد دادههای کامل در دادههای آموزشی کم بود (تنها ۳)، که مانع از آموزش صحیح مدل موجود میشد. در مقابل، با معرفی یک استراتژی padding، مدل پیشنهادی میتواند با یادگیری ادامه دهد که میتواند نتایج معنیداری را حتی در موقعیتهای شدید و فاقد اطلاعات کامل ایجاد کند.
شکل ۵ نتایج اندازهگیری میانگین شباهت بین دادههای omics مجازی و دادههای omics واقعی تولید شده از طریق مدل پایه (“۱۱۱”)، که فقط بر روی دادههای کامل آموخته شده است، و مدل پیشنهادی (“OUR”) را نشان میدهد. که بر روی داده های ناقص نیز آموخته است. برای سه نوع داده واقعی omics، مدل پیشنهادی دادههای omics مجازی را با شباهت بیشتری نسبت به دادههای مدل پایه تولید کرد (مدل پایه – بیان ژن mRNA: 0.9436، بیان ایزوفرم mRNA: 0.9387، متیلاسیون DNA: 0.9653؛ مدل پیشنهادی – بیان ژن mRNA: 0.9699، بیان mRNA ایزوفرم: ۰٫۹۵۳۳، متیلاسیون DNA: 0.9656).
مدل پیشنهادی با توانایی آن در تولید دادههای omics مجازی با کیفیت بالا برای دادههای omics از دست رفته مشخص میشود. این تابع در ساختار مدل پایه قابل انجام نیست. شکل ۶ این ویژگی ها را نشان می دهد. داده های ناقص (“۰۱۱″، “۱۰۱” و “۱۱۰”) تولید شده با حذف داده های omics خاص از داده های کامل (“۱۱۱”) به عنوان داده های ورودی مدل تنظیم شدند. اندازهگیری شباهت بین دادههای omics واقعی و دادههای omics مجازی تولید شده از دادههای ناقص، شباهت میانگین کسینوس بالای سه نوع داده omics 0.9646 را نشان داد (بیان ژن mRNA: 0.9704، بیان ایزوفرم mRNA: 0.9555، متیلاسیون DNA: 0.9677).
در مرحله بعد، ما تجسمهایی را انجام دادیم تا بفهمیم آیا مدل پیشنهادی میتواند منابع دادههای مختلف omics را با حفظ مکمل بودن در انواع دادههای omics و کاهش نویز ویژگیهای تا حدی مستقل به طور موثر یکپارچه کند. از طریق t-SNE، ما تشکیل خوشهها را برای سه فنوتیپ (نوع سرطان، محل اولیه و نوع نمونه) تجسم کردیم (شکل ۷، شکلهای S4 و S5). در اینجا، ما تشکیل خوشه های متعددی از انواع سرطان های خاص، مانند BRCA، UCEC، KIRC، و STAD را به تصویر کشیدیم (شکل ۷). این را می توان به عنوان اعوجاج به دلیل تشکیل خوشه های جداگانه بسته به وجود یا عدم وجود داده های padding توضیح داد. برای حل این اعوجاج، اثربخشی دادههای omics مجازی را در کار ایجاد omics مجازی تأیید کردیم. برای این منظور، ما padding را با دادههای omics مجازی تولید شده توسط آموزش مدل جایگزین کردیم و مدل را دوباره آموزش دادیم. تعبیههای تولید شده از مدل بازآموزی شده با t-SNE کاهش ابعادی پیدا کرد و تشکیل خوشهها برای سه فنوتیپ (نوع سرطان، محل اولیه و نوع نمونه) مشاهده شد. مشابه مورد قبلی، داده های جاسازی تشکیل خوشه را برای سه فنوتیپ تایید کرد (شکل ۸، شکل S18 و S19). علاوه بر این، در مقایسه با تجسم قبلی (شکل ۷)، داده های خاصی (به عنوان مثال، BRCA، UCEC، KIRC، و STAD) که خوشه های متعددی را برای همان کارسینوم تشکیل می دادند، همگرا شدند، که نشان می دهد اعوجاج خوشه برطرف شده است (شکل ۸).
در نهایت، تعیین کردیم که آیا دادههای omics مجازی تولید شده توسط مدل پیشنهادی با دادههای omics واقعی در توزیع در فضای پنهان متفاوت است یا خیر. برای این منظور، ادغام داده های واقعی و مجازی برای یک نوع داده تک omics از طریق t-SNE مشاهده شد و تفاوت در توزیع در فضای پنهان مقایسه شد. بر اساس نوع سرطان، دادههای omics مجازی خوشههای مشابهی با دادههای omics واقعی در فضای پنهان تشکیل دادند (شکل ۹).
به طور خلاصه، رویکرد جدید توسعهیافته در این مطالعه، استفاده از چند omics را به حداکثر میرساند. برای نمونههایی با دادههای omics ناقص، نتایج یادگیری از دادههای omics خاص با دادههای یادگیری از نمونههایی با اطلاعات کامل ادغام شد و تعبیه متعاقب آن کیفیت و انعطافپذیری بالایی را نشان داد. علاوه بر این، جاسازی منجر به تولید دادههای omics مجازی شد که شبیه دادههای omics واقعی بود.
این مطالعه دارای محدودیت های خاصی است. اول، استراتژیهای ما فقط برای تعداد محدودی از کارها، از جمله پیشبینی فنوتیپ سرطان، پیشبینی محل اولیه، و پیشبینی نوع نمونه، توسعه و تأیید شدند. با این حال، با توسعه بیشتر، استراتژی را می توان به راحتی بهبود بخشید تا سایر وظایف طبقه بندی و پیش بینی را شامل شود، مانند شناسایی هدف، شناسایی منشاء بافت و امضاهای بیان ژن خاص، و پیش بینی های چندوجهی. علاوه بر این، سایر انواع داده های تجربی، مانند RNA-seq تک سلولی و تنظیم RNA درون زا، در نهایت می توانند شامل شوند. با این حال، همانطور که از آزمایش مقایسه آموزش با دادههای omics اضافی مشهود است، افزودن دادهها به سادگی برای تجزیه و تحلیل دقیق روابط بین انواع دادههای omics و افزایش عملکرد کافی نیست. دوم، انتخاب برچسبگذاری سایت اولیه (۳۲ کلاس بیش از ۱۰۰ برچسب) باید بررسی شود زیرا میتواند در یک نمونه برای یک سایت اولیه چالش برانگیز باشد. با این حال، این موضوع تمرکز این مطالعه نبود. در مطالعات آینده، تکنیکهای پیشرفته مانند مکانیسمهای توجه و شبکههای عصبی نموداری را میتوان برای تجزیه و تحلیل جامع روابط بین بیماران یا omics مورد استفاده قرار داد، بنابراین اجازه میدهد سهم وزنی از هر نوع داده توسط دادههای omics مجازی جهانی منعکس شود.
۵٫ نتیجه گیری
مدلی با جاسازی دادههای SARC برای جمعیت کره از SBIC (به سمت ایجاد یک ثبت ملی برای سرطانهای نادر) توسعه داده شد. با این حال، به دلیل تعداد ناکافی نمونهها در SBIC کرهای برای یادگیری با یک مدل هوش مصنوعی، دادههای مرتبط با سرطان در دسترس عموم در TCGA، از جمله انواع دادههای ژنومی مختلف (از رونوشتها تا اپی ژنومها)، استفاده شد. دادههای SBIC KBN (شبکه بانک زیستی کره) حاوی انواع دادههای محدودتری است، مانند دادههای بیان ژن mRNA و دادههای بیان ایزوفرم mRNA.
برای یک مدل هوش مصنوعی، تحقیقات قبلی نشان داده است که داده های چند omics، در مقایسه با داده های تک omics، می توانند ویژگی های ژنتیکی سرطان را با دقت بیشتری نشان دهند. با این وجود، داده های چند omics اغلب ناقص هستند و کاربرد مدل هوش مصنوعی را محدود می کنند. به عنوان مثال، داده های SBIC کره ناقص هستند. بنابراین، تنها داده های omics جزئی از TCGA می تواند استفاده شود. با توجه به مجموعه گسترده ای از داده های ژنتیکی مرتبط با سرطان، استفاده از بخش هایی از پایگاه های داده باز در مقیاس بزرگ در موارد ناقص داده ها یک محدودیت عمده است.
رویکرد پیشنهادی جدید، استفاده از دادههای ناقص را به حداکثر میرساند. پس از ادغام داده های PanCan و SBIC، مقادیر بیان ژن mRNA، بیان ایزوفرم mRNA و متیلاسیون DNA به عنوان داده های ورودی استفاده شد. نمونههایی که دادههای omics را نداشتند با padding درمان شدند. در حالی که مشخصات داده را برای یادگیری توسط مدل های AI تنظیم می کند، استراتژی padding بر روند یادگیری تأثیر نمی گذارد. به عنوان مثال، زمانی که یک نمونه معین فاقد دادههای متیلاسیون DNA باشد، بالشتک در محاسبه تلفات بازسازی برای متیلاسیون DNA لحاظ نمیشود. در یک سری مراحل، مدلی برای جاسازی با قابلیت گسترش بالا برای امکان استفاده حداکثری از دادههای omics طراحی شد و جاسازی تولید شده کیفیت و انعطافپذیری بالایی را نشان داد.
ما تأیید کردیم که استراتژی یادگیری پیشنهادی ما عملکرد طبقهبندی بالایی را حفظ میکند و به پراکندگی دادهها برای رسیدگی به مسائل مرتبط با دادههای omics ناقص پاسخ قوی میدهد. انتظار می رود نتایج این مطالعه برای تحقیقات گسترده omics ارزشمند باشد. همچنین انتظار میرود روش جدید در همه حوزههای مبتنی بر هوش مصنوعی قابل اجرا باشد.
با این حال، معماری VAE مورد استفاده در مطالعه ما ممکن است برای گرفتن ویژگیهای کلیدی در توزیعهای پیچیده یا با ابعاد بالا، مانند دادههای omics، مشکل داشته باشد. این مشکل به این دلیل به وجود می آید که فرض یک توزیع ساده، مانند توزیع گاوسی در فضای پنهان، ممکن است به اندازه کافی پیچیدگی توزیع داده را منعکس نکند. علاوه بر این، فضای پنهانی که از طریق VAE یاد میشود ممکن است بهطور پیچیدهای در هم تنیده باشد، که میتواند تفسیر فرآیندهای تولید داده و پیشبینی مدل را پیچیده کند.
برای پرداختن به این مسائل، ما قصد داریم مدلی را طراحی کنیم که بتواند پیچیدگی توزیع داده ها را با استفاده از معماری VAE مبتنی بر ترانسفورماتور بهتر به تصویر بکشد. علاوه بر این، ما قصد داریم فرآیندی را ادغام کنیم که به محققان اجازه میدهد با تجسم تولید دادهها و فرآیندهای پیشبینی فنوتیپ سرطان از طریق تجسم توجه، خروجیهای مدل را درک و تفسیر کنند.
منبع: https://www.mdpi.com/2673-2688/5/3/78