۱٫ مقدمه
سرطان یکی از شایع ترین علل مرگ و میر در میان زنان است که سرطان سینه (BRCA) یکی از شایع ترین علل مرگ و میر ناشی از سرطان در زنان است. [۱]. در قاره آمریکا موارد شناسایی شده مربوط به سرطان سینه با نرخ مرگ و میر ۱۹۰ در هر ۱۰۰۰۰۰ مورد است. [۲]. سرطان ریه، به ویژه آدنوکارسینوم ریه (LUAD)، بالاترین میزان بروز را در میان زنان دارد [۳,۴]. سرطان تخمدان (OV) به دلیل چالش های قابل توجه در تشخیص، یکی از کشنده ترین انواع سرطان در نظر گرفته می شود [۵]. آدنوکارسینوم کولون (COAD) سومین سرطان شایع در سراسر جهان است که هر سال تقریباً یک میلیون بیمار را تحت تأثیر قرار می دهد. [۶,۷]. در سطح جهانی، سرطان تیروئید (THCA) در زنان سه برابر شایعتر است که اغلب قبل از ۳۰ سالگی تشخیص داده میشود. [۸,۹]. با توجه به اهمیت بهداشت جهانی آن، اقدامات دولتی و علمی به فوریت مورد نیاز است. کشورهای با درآمد پایین و متوسط معمولاً با بار سرطان بیشتری مواجه هستند، با دسترسی محدود به اقدامات پیشگیری و درمان سرطان، که در نتیجه نرخ بقای کمتری را به دنبال دارد. تشخیص زودهنگام با شناسایی بیماری در مراحل اولیه، نقش حیاتی در بهبود نتایج سرطان ایفا می کند. [۱۰]. تکنیکهای هوش مصنوعی (AI) به طور فزایندهای در جنبههای مختلف تحقیقات سرطان و مراقبت از بیمار استفاده میشوند و به تشخیص، پیشآگهی، نظارت و تجزیه و تحلیل انواع مختلف سرطان کمک میکنند. [۱۱,۱۲].
مطالعات به چالش ها و نگرانی های مرتبط با اجرای موثر این مدل ها در سرطان شناسی پرداخته اند. چوآ و همکاران در مطالعه خود. اشاره کرد که سرطان شرایط متمایز با الگوهای منحصر به فرد و پیچیده را در بر می گیرد [۱۳]. ابعاد بالای داده ها نیز مانع مهمی است. یک رویکرد رایج برای پرداختن به این مشکل، انتخاب ویژگی است که شامل انتخاب زیرمجموعه ای از داده ها بدون نیاز به اعمال تبدیل است. [۱۴]. موضوع دیگری که توسط Moncada و همکاران برجسته شده است. عدم شفافیت در برخی مدلها است، زیرا بسیاری از آنها اغلب جعبههای سیاهی در نظر گرفته میشوند که از طریق الگوریتمهای پیچیده و تفسیر دشواری عمل میکنند. این عدم شفافیت، اعتماد بیماران و پزشکان را به پیشبینیهای مدلها محدود میکند [۱۵].
در تلاش برای کاهش این موضوع، تکنیکهای هوش مصنوعی قابل توضیح (XAI) برای درک اینکه این مدلها چگونه تصمیمگیری میکنند و کدام ویژگیها یا ورودیها بیشترین تأثیر را بر پیشبینی مدل دارند، استفاده شدهاند. [۱۶,۱۷]. تکنیک SHAP (Shapley Additive Explanations) بخشی از جعبه ابزار XAI است و برای توضیح خروجی برخی از مدل های یادگیری ماشین (ML) و یادگیری عمیق (DL) بر مقادیر SHAP تکیه دارد. [۱۸].
در این زمینه، این کار استفاده از یک تکنیک XAI بر اساس مقادیر SHAP را برای شناسایی مرتبطترین ویژگیها در یک مشکل طبقهبندی چند طبقه در میان پنج نوع عودکننده سرطان در زنان پیشنهاد میکند. این طبقه بندی بر اساس داده های بیان ژن RNA-seq استخراج شده از اطلس ژنوم سرطان (TCGA) است. داده ها به مدل های سنتی ML بر اساس درخت تصمیم اعمال شد. بنابراین، این کار کمک های خاص زیر را انجام می دهد:
-
استفاده از تکنیک SHAP به عنوان روشی برای کاهش ابعاد ویژگی ورودی.
-
استفاده از یک روش XAI برای توضیح رفتار طبقه بندی کننده ها بر اساس کتابخانه SHAP در زبان برنامه نویسی پایتون.
-
توسعه مدلهای با کارایی بالا با استفاده از تاثیرگذارترین مقادیر بیان ژن RNA-seq انتخاب شده توسط SHAP.
-
تجزیه و تحلیل ژن های کلیدی شناسایی شده توسط تکنیک SHAP.
۲٫ آثار مرتبط
چندین مطالعه از تکنیک های یادگیری ماشینی برای به دست آوردن بینش در مورد توسعه و ویژگی های انواع مختلف سرطان استفاده کرده اند. در کارشان، [۱۹] یک سیستم تشخیص اولیه خودکار برای سرطان پستان با استفاده از ماشین بردار پشتیبان (SVM)، رگرسیون لجستیک (LR)، K-Nearest Neighbors (KNN)، درخت تصمیم (DT)، Naive Bayes، و جنگل تصادفی (RF) توسعه داده است. آنها با استفاده از مجموعه داده سرطان پستان ویسکانسین (WBCD) که حاوی اطلاعاتی در مورد اندازه و شکل سلولهای تومور است، سرطان سینه را به عنوان خوشخیم یا بدخیم طبقهبندی کردند و مقادیر دقت را به دست میآورند. به .
مطالعه Vural و همکاران. از تکنیکهای یادگیری ماشینی بدون نظارت برای خوشهبندی پروفایلهای جهش جسمی دادههای سرطان پستان از TCGA استفاده کرد. [۲۰]. آنها سه گروه را به دست آوردند و سپس آنها را بررسی کردند و بین مرحله بیماری بیماران و هر خوشه رابطه مشاهده کردند. سپس، تکنیکهای یادگیری ماشینی تحت نظارت برای طبقهبندی بیماران سرطان پستان ناشناخته در خوشههای قبلاً یافتشده، به کار گرفته شد. دقت با استفاده از مدل جنگل تصادفی
در کار رام و همکاران. [۲۱]طبقه بندی و انتخاب ویژگی برای سرطان کولون، سرطان پروستات و لوسمی با استفاده از داده های بیان ژن انجام شد. در تحقیق، مقادیر دقت به دست آمده با استفاده از الگوریتم جنگل تصادفی بوده است برای سرطان روده بزرگ برای سرطان پروستات و برای سرطان خون ژنهای شناساییشده از این طبقهبندیها برای مشاهده تأثیر آنها بر سرطان مورد تجزیه و تحلیل قرار گرفتند و نقش مهم آنها در پیشرفت آسیبشناسی مربوطه آشکار شد.
یک روش انتخاب ویژگی، همراه با مدل SVM، به دادههای بیان ژن با هدف طبقهبندی نمونهها به دو زیرگروه سرطان ریه اعمال شد: آدنوکارسینوم ریه و سرطان سلول سنگفرشی ریه. لیست ویژگی های انتخاب شده حاوی ژن هایی است که بیان متفاوتی را بین دو نوع سرطان نشان می دهند. سپس از این لیست برای آموزش مدل SVM استفاده شد و نویسندگان مقادیر دقت را از به بسته به انتخابگرهای ویژگی مورد استفاده قبل از طبقه بندی [۲۲].
در مطالعه ارائه شده در [۲۳]نویسندگان از دادههای بیان ژن برای تشخیص سرطان تخمدان با استفاده از پنج الگوریتم یادگیری ماشینی استفاده کردند: مدل خطی تعمیمیافته (GLM)، طبقهبندی و درختان رگرسیون (CART)، نزدیکترین همسایههای K (KNN)، ماشین بردار پشتیبان (SVM) و جنگل تصادفی. در بین این الگوریتمها، جنگل تصادفی بهترین عملکرد را نشان داد و به حساسیتی دست یافت. و یک ویژگی از برای تشخیص سرطان بافت تخمدان
اکثر مطالعاتی که از بیان ژن برای پیشبینی سرطان استفاده میکنند، در زمینه یادگیری عمیق هستند [۲۴]. تکنیکهای رایج شامل شبکههای عصبی کانولوشن (CNN)، شبکههای عصبی کاملاً متصل (FCNN) و شبکههای عصبی تکراری (RNN) هستند. این مطالعات اغلب شامل وظایف طبقه بندی چند طبقه ای برای انواع مختلف سرطان است. در یک رویکرد، نویسندگان دادههای RNA-seq را به تصاویر دو بعدی تبدیل کردند و یک CNN چند لایه را اعمال کردند. این رویکرد به دقت آزمون کلی دست یافت [۲۵]. در همین راستا، مطالعه دیگری [۲۶] از توالیهای RNA-seq تبدیل شده به تصاویر دو بعدی برای انواع سرطان استفاده کرد و از معماری CNN استفاده کرد و به دقتی دست یافت. .
همانطور که قبلا ذکر شد، برای به دست آوردن پذیرش و ادغام در سرطان شناسی، ترکیب تکنیک هایی که امکان تجسم و درک فرآیندهای تصمیم گیری مدل را فراهم می کند، ارزشمند است. در کار آنها ر. [۱۸] از طبقهبندی چند طبقهای برای تشخیص زیرشاخههای سرطان سینه استفاده کرد. نویسندگان از مدلهای SVM، جنگل تصادفی، درختان بسیار تصادفی (ERTs)، و تقویت گرادیان شدید (XGB) برای به دست آوردن نتایج پیشبینی استفاده کردند. متعاقباً، آنها از تکنیک SHAP برای شناسایی مجموعه ای از ویژگی هایی که بر این مدل ها تأثیر می گذارد، استفاده کردند. مقادیر دقت بهدستآمده از به .
تکنیک SHAP در تحقیقات مرتبط با سرطان نیز استفاده شده است [۲۷,۲۸]. حسن و همکاران از مدلهای یادگیری ماشینی استفاده شده برای سونوگرافی و تصاویر تشدید مغناطیسی برای تشخیص سرطان پروستات، با دستیابی به مقادیر دقت مختلف از به [۲۷]. پس از آن، نتایج این مدلها تحت تکنیک SHAP قرار گرفت تا دلایل طبقهبندی هر نمونه به عنوان خوشخیم یا بدخیم مشخص شود. یاپ و همکاران از نمونه های داده RNA-seq از بیان ژنوتیپ-بافت در ۴۷ بافت مختلف استفاده کرد. آنها این دادهها را در معماری چند لایه CNN اعمال کردند و نتایج دقت را در محدودهای مختلف به دست آوردند به [۲۸]. تکنیک SHAP برای شناسایی مرتبطترین ویژگیها و درک فرآیندهای بیولوژیکی درگیر در تمایز و عملکرد بافت به کار گرفته شد.
۳٫ مواد و روشها
این مطالعه از دادههای بیان ژن استفاده کرد که شامل اندازهگیریهای کمی RNAهای پیامرسان موجود در یک نمونه داده شده نسبت به یک شرایط فیزیولوژیکی خاص است. مجموعه داده شامل پنج نوع عود کننده سرطان در زنان (BRCA، LUAD، THCA، OV، و COAD) بود که در مجموع ۳۰۵۷ نمونه و ۲۱۴۸۰ ویژگی را شامل می شد. در ابتدا، مجموعه داده توسط سه تکنیک یادگیری ماشینی به طور گسترده مورد استفاده قرار گرفت (شکل ۱ را ببینید). متعاقباً، مدلها تحت کتابخانه SHAP قرار گرفتند تا بفهمند کدام ویژگیها در فرآیند تصمیمگیری هر مدل مرتبطتر هستند. یک ماتریس مجزا حاوی مقادیر SHAP مربوط به تاثیرگذارترین ویژگیها در فرآیند تصمیمگیری هر مدل برای طبقهبندی پنج تومور بهدست آمد. سپس ویژگیها بر اساس اهمیت آنها در پیشبینی خروجی مدل، با آستانهای بیشتر یا مساوی انتخاب شدند. . مقادیر زیر این آستانه به طور قابل توجهی به بهبود عملکرد تکنیک های مورد استفاده کمک نمی کند (شکل ۱ را ببینید).
در مرحله بعد، یک لیست ترکیبی از ژنهای منحصربهفرد از هر ماتریس مقادیر SHAP با استفاده از درختهای تصمیم، جنگل تصادفی، XGBoost، Gaussian Naive Bayes (Gaussian NB) و Bernoulli Naive Bayes (Bernoulli NB) تولید و پردازش شد تا مشخص شود که آیا پیشبینی خوب است یا خیر. می توان از یک لیست کاهش یافته به دست آورد. کل گردش کار توضیح داده شده در بالا در شکل ۱ نشان داده شده است.
۳٫۱٫ پایگاه داده
داده های RNA-seq از پروژه اطلس ژنوم سرطان (TCGA) از طریق پایگاه داده GDC (Genomic Data Commons) به دست آمد. [۲۹]. مجموعه داده ها با استفاده از نرم افزار آماری R نسخه ۴٫۲٫۰ با بسته TCGAbiolinks دانلود شدند. [۳۰]. تابع GDCquery در TCGAbiolinks برای جستجو و دانلود داده های ژنومی از TCGA در پایگاه داده GDC استفاده شد. این به چندین پارامتر از جمله پروژه، میراث، data.category، data.type، platform، file.type، experimental.strategy و sample.type نیاز داشت.
پارامتر پروژه فهرستی از داده ها را مشخص می کند که باید دانلود شوند. برای مشکل در دست، پنج کد پروژه مربوط به پنج نوع سرطان ارائه شد: “TCGA-BRCA”، “TCGA-COAD”، “TCGA-OV”، “TCGA-LUAD”، و “TCGA-THCA”. پارامتر قدیمی برای به دست آوردن داده های هماهنگ روی “FALSE” تنظیم شد، به این معنی که تمام داده های تولید شده توسط TCGA از طریق خط لوله GDC یکسان برای سازگاری پردازش شدند.
آرگومانهای “data.category” و “data.type” برای فیلتر کردن فایلهای دادهای که قرار است دانلود شوند، به ترتیب با “Gene expression” و “Gene expression quantification” استفاده شد. برای دانلود داده ها از پلتفرم “Illumina HiSeq” استفاده شد. با انتخاب “نتایج” به عنوان آرگومان “file.type”، پایگاه داده قدیمی فیلتر شد و “RNA-seq” به عنوان آرگومان “experimental.strategy” برای تولید نمایه های عبارت انتخاب شد. علاوه بر این، نمونههای تومور با استفاده از «تومور اولیه» به عنوان آرگومان «نوع نمونه» انتخاب شدند.
ماتریس داده به دست آمده شامل نمونه هایی از پنج تومور مختلف (نمونه تومور اولیه) بود و برای ایجاد مجموعه داده RNA-seq استفاده شد. این مجموعه داده شامل نمونه هایی از سرطان سینه (BRCA)، آدنوکارسینوم ریه (LUAD)، سرطان تیروئید (THCA)، سرطان تخمدان (OV) و آدنوکارسینوم کولون (COAD) بود که در مجموع ۳۰۵۷ نمونه تومور به دست آمده از پنج نوع سرطان، با ۲۹۴۸۸ نمونه رایج ژن ها
۳٫۲٫ پیش پردازش داده ها
پیش پردازش داده های بیان با استفاده از بسته TCGAbiolinks انجام شد. تابع TCGAanalyzePreprocessing برای عادی سازی داده ها استفاده شد، در حالی که تابع TCGAanalyzeNormalization برای عادی سازی استفاده شد.
در نهایت، تابع TCGAnalyzeFiltering با qnt.cut 0.25 اعمال شد، به این معنی که همه ژنها با شدت متوسط بیشتر از این آستانه حفظ شدند. پس از اعمال این فرآیند، مشخص شد که ۲۲۱۱۵ ژن اطلاعاتی هستند، در حالی که ۷۳۷۳ ژن نامربوط در نظر گرفته شده و از تجزیه و تحلیل بیشتر حذف شدند.
همانطور که در شکل ۲ نشان داده شده است، BRCA به حساب می آید از بافت های سرطانی در مجموعه داده، به دنبال LUAD در و THCA در . سرطان کولون و سرطان تخمدان در تعداد کمتری وجود دارند که فقط نشان دهنده آن هستند و به ترتیب.
در این زمینه، تعادل داده ها نه تنها برای بهبود عملکرد شبکه بلکه برای جلوگیری از مسائلی مانند بیش از حد مناسب به دلیل تعداد نامتناسب نمونه ها در مقایسه با سایر انواع سرطان ضروری است. داده های نامتعادل همچنین می تواند منجر به نتایج مغرضانه شود و یادگیری و تعمیم موثر مدل های یادگیری ماشین را چالش برانگیز کند. چندین تکنیک برای رفع عدم تعادل داده ها استفاده می شود و در این کار از نمونه گیری مجدد داده ها استفاده شده است.
نمونهگیری مجدد داده شامل نمونهگیری کمتر از کلاس اکثریت برای متعادل کردن مجموعه داده با کلاس اقلیت (COAD) است. بنابراین، ۴۲۱ نمونه به طور تصادفی از هر کلاس موجود در مجموعه داده استخراج شد. در نتیجه، مجموعه داده آموزشی مورد استفاده برای مدلها شامل ۲۱۰۵ نمونه بود که نشاندهنده پنج نوع بافت سرطانی بود که از ۰ تا ۴ برچسبگذاری شده بودند و هر برچسب با یک کلاس مرتبط است. بخشی از نمونههای باقیمانده برای آزمایش عملکرد شبکه استفاده شد، در حالی که سایر نمونهها برای این تحلیل نامربوط در نظر گرفته شدند.
هدف این مطالعه شناسایی تاثیرگذارترین ژنها در طبقهبندی انواع سرطان با استفاده از روش SHAP برای بهبود تفسیرپذیری مدلهای یادگیری ماشینی است. در حالی که اکثر مطالعات در مورد طبقهبندی سرطان با استفاده از دادههای بیان ژن بر به حداکثر رساندن دقت پیشبینی تمرکز میکنند، رویکرد اتخاذ شده بر استفاده از تکنیکهای قابل توضیح که عوامل مؤثر در تصمیمگیری مدل را شناسایی میکنند، تأکید میکند. این استراتژی مکانیسمهای بیولوژیکی زیربنایی را تجزیه و تحلیل میکند و در عین حال سازگاری مدل را حفظ میکند و از تکنیکهایی مانند نمونهبرداری کم برای رسیدگی به عدم تعادل طبقاتی استفاده میکند.
۳٫۳٫ الگوریتم های یادگیری ماشین
یادگیری ماشینی (ML) زیرمجموعهای از هوش مصنوعی (AI) است که بر توسعه الگوریتمهای مبتنی بر مدلهای آماری آموزشدیده بر روی مجموعه دادههای ارائهشده به مدل تمرکز دارد. انواع مختلفی از الگوریتمهای ML وجود دارد که عمدتاً به چهار دسته تقسیم میشوند که بر اساس الگوی یادگیری متفاوت هستند: یادگیری تحت نظارت، یادگیری بدون نظارت، یادگیری نیمه نظارتی و یادگیری تقویتی. [۳۱,۳۲,۳۳,۳۴]. مدلهای رگرسیون و طبقهبندی به عنوان تکنیکهای یادگیری تحت نظارت در نظر گرفته میشوند. الگوریتم هایی مانند درخت تصمیم، جنگل تصادفی، ماشین بردار پشتیبان و رگرسیون لجستیک به طور گسترده در مسائل طبقه بندی استفاده می شوند.
۳٫۳٫۱٫ درختان تصمیم
درختان تصمیم یک راه متداول برای نشان دادن فرآیند تصمیم گیری از طریق ساختار شاخه ای شبیه به درخت هستند که تفکر انسان را هنگام تصمیم گیری شبیه سازی می کند. [۳۵]. آنها از گره های مختلفی تشکیل شده اند که توسط گره ریشه آغاز شده اند که به عنوان گره تصمیم نیز شناخته می شود. گره ریشه به شاخهها تقسیم میشود و گرههای دیگر و در نتیجه خروجیهای جدیدی تولید میکند که توسط تابع هزینه پردازش میشوند. ویژگی با بهترین هزینه، گره ریشه آن شاخه در نظر گرفته می شود و تا رسیدن به شاخه نهایی که به عنوان برگ نیز شناخته می شود، تحت تقسیمات بعدی قرار می گیرد که نشان دهنده نتیجه نهایی الگوریتم است.
مفاهیم آنتروپی و بهره به طور گسترده ای برای اندازه گیری سطح تصادفی یک ویژگی استفاده می شود. ابتدا آنتروپی کلاس و آنتروپی هر صفت با استفاده از معادلات (۱) و (۲) محاسبه می شود. سپس، به دست آوردن اطلاعات برای همه ویژگی ها را می توان با بیان کرد
کجا مربوط به احتمالات هر کلاس در مجموعه S، متعلق به کلاس است منو n با تعداد کلاس های موجود مطابقت دارد. آنتروپی هر ویژگی در یک شاخه مربوطه به صورت زیر محاسبه می شود:
کجا مربوط به مجموعه کودکان حاضر در شاخه است. بنابراین معادله بهره به صورت زیر بیان می شود:
۳٫۳٫۲٫ جنگل تصادفی
الگوریتم جنگل تصادفی از نظر محاسباتی برای کارهای رگرسیون و طبقهبندی چند کلاسه مؤثر است. در ابتدا توسط بریمن اجرا شد [۳۶] و بر اساس مفهوم یادگیری گروهی، با استفاده از مجموعه ای از درختان تصمیم گیری تصادفی در فرآیند یادگیری است [۳۶,۳۷]. آموزش با انتخاب، از طریق bootstrapping، یک زیرمجموعه تصادفی متفاوت از اندازه آغاز می شود
ن از داده های ورودی برای هر درخت هرس نشده، به صورت بیان شده است
که در آن بردار هر ویژگی را نشان می دهد م پیش بینی کننده ها، در حالی که با پاسخ مورد انتظار همراه است.
در مرحله بعد، تقسیم گره ها در هر درخت جداگانه با یافتن بهترین تقسیمات تعیین می شود متر مرتبط با هر گره، جایی که متر یک زیرمجموعه پیشبینیکننده بهطور تصادفی انتخاب شده از کل مجموعه اندازه پیشبینیکننده موجود است مکجا متر“م. در نتیجه درخت های تصمیم در مدل شرایط متفاوتی برای گره های خود خواهند داشت و در نتیجه ساختارهای متفاوتی ایجاد می شود [۳۶,۳۸,۳۹]. در نهایت، با جمعآوری نتایج حاصل از این درختهای تصمیم چندگانه، با استفاده از اکثریت آرا برای طبقهبندی و محاسبه میانگینهای نتایج فردی برای رگرسیون، پیشبینی انجام میشود. [۴۰].
۳٫۳٫۳٫ افزایش گرادیان شدید – XGBoost
تکنیکهای تقویتی چندین تکنیک یادگیری ساده را برای ایجاد یک مدل قویتر ترکیب میکنند. هر طبقهبندی ضعیف تلاش میکند تا طبقهبندی نمونههایی را که توسط طبقهبندیکننده ضعیف قبلی به اشتباه طبقهبندی شدهاند، بهبود بخشد، با هدف افزایش دقت پیشبینی مدل در مقایسه با یک مدل یادگیری منفرد. چندین الگوریتم یادگیری ماشین مبتنی بر این تکنیک هستند، از جمله AdaBoost، تقویت گرادیان، و XGBoost، با تکنیک های درخت تصمیم در بسیاری از این چارچوب ها گنجانده شده است.
الگوریتم XGBoost تکنیک تقویت گرادیان را همراه با ویژگیهای دیگری با هدف بهبود خود الگوریتم، از جمله منابع محاسباتی مرتبط با سختافزار و مفهوم منظمسازی، ترکیب میکند. XGBoost به دنبال بهینه سازی تابع هزینه از دست دادن با به حداقل رساندن گرادیان آن در هر تکرار است تا بهترین درخت را با کمترین خطای ممکن به دست آورد. تابع هزینه از دست دادن به صورت بیان می شود
کجا با عبارت قاعده مند شدن تابع هدف مطابقت دارد Lکه پیچیدگی مدل را اندازه گیری می کند. در این معادله، T تعداد برگهای درختان را نشان میدهد و w نشاندهنده امتیاز خروجی برگها، کنترل حداقل بهره لازم برای تقسیم یک گره داخلی است. [۴۱,۴۲].
۳٫۳٫۴٫ بیز ساده – NB
Naive Bayes یک طبقه بندی کننده احتمالی ساده و در عین حال موثر است که به طور گسترده در کاربردهایی مانند طبقه بندی متن، داده کاوی و مراقبت های بهداشتی استفاده می شود. [۴۳,۴۴,۴۵]. الگوریتم بر اساس قضیه بیز است که احتمال یک نمونه را محاسبه می کند متعلق به یک طبقه خاص با فرض اینکه همه صفات (یا ویژگی ها) مستقل از یکدیگر هستند، مقدمه ای به عنوان فرض “ساده لوحانه” استقلال شناخته می شود.
تصمیم طبقه بندی کننده بر اساس مقایسه احتمالات شرطی طبقات است که در زیر نشان داده شده است. اگر
سپس نمونه به عنوان متعلق به کلاس طبقه بندی می شود . در غیر این صورت، اگر
نمونه به عنوان متعلق به کلاس طبقه بندی می شود . به طور کلی، به کلاسی اختصاص داده می شود که احتمال پسین را به حداکثر می رساند . با توجه به قضیه بیز، احتمال پسین توسط
کجا نشان دهنده احتمال مشاهده نمونه است با توجه به اینکه متعلق به کلاس است و احتمال قبلی کلاس است . چون ساده لوح بیز استقلال صفات، احتمال مشترک را فرض می کند را می توان به عنوان حاصل ضرب احتمالات فردی هر ویژگی تجزیه کرد، یعنی
کجا از ویژگی های نمونه می باشد . این ساده سازی به Naive Bayes اجازه می دهد تا از نظر محاسباتی کارآمد باشد و آن را برای مسائل طبقه بندی در مقیاس بزرگ مناسب می کند.
این فرض محاسبه را ساده میکند، زیرا به این معنی است که میتوانیم هر ویژگی را هنگام تخمین این احتمالات مستقل در نظر بگیریم:
جایی که احتمالات ، … را می توان از داده های ورودی در طول آموزش محاسبه کرد [۴۴]. انواع مختلفی از الگوریتم های Naive Bayes وجود دارد، از جمله مدل گاوسی، که معمولاً برای داده های پیوسته استفاده می شود که در آن هر کلاس از توزیع احتمال گاوسی پیروی می کند. [۴۵]. از سوی دیگر، طبقهبندیکننده برنولی نایو بیز برای موارد باینری ایدهآل است، زیرا الگوریتم فرض میکند که مشخصه رخ میدهد یا رخ نمیدهد، به این معنی که دادهها گسسته هستند و از توزیع برنولی پیروی میکنند. [۴۶].
۳٫۳٫۵٫ هوش مصنوعی قابل توضیح
بیشتر مدلهای هوش مصنوعی، از جمله یادگیری عمیق، به دلیل چالش در درک فرآیندهای تصمیمگیری، میتوانند به عنوان جعبههای سیاه دیده شوند. این عدم شفافیت میتواند در بسیاری از زمینهها مشکل ایجاد کند که درک اینکه مدلهای هوش مصنوعی چگونه تصمیمگیری میکنند بسیار مهم است.
در این زمینه، توضیحپذیری یک مدل، قابلیت اطمینان، شفافیت و تفسیرپذیری نتایج مدل هوش مصنوعی را افزایش میدهد و به طور بالقوه کاهش هزینههای محاسباتی مرتبط با بسیاری از این تکنیکها را در صورت اعمال بر مجموعههای داده بزرگ ممکن میسازد. [۴۲]. هوش مصنوعی قابل توضیح (XAI) یک زمینه نوظهور در هوش مصنوعی است که میتواند تشخیص دهد که کدام ویژگیها در فرآیندهای تصمیمگیری الگوریتمهای هوش مصنوعی بدون به خطر انداختن عملکرد آنها مرتبط هستند.
بر اساس تئوری بازی، توضیحات افزودنی Shapley (SHAP) روشی است که میتواند مرتبطترین ویژگیها را در نتایج پیشبینی مدلهای یادگیری ماشین بر اساس مقادیر SHAP تفسیر کند. [۱۸]. مقادیر SHAP را می توان برای توضیح خروجی هر مدل یادگیری ماشینی، از جمله شبکه های عصبی، درخت های تصمیم گیری و مدل های خطی، با محاسبه اهمیت نسبی هر ویژگی در پیش بینی مدل به کار برد. [۴۷,۴۸]. این ما را قادر میسازد بفهمیم که چگونه مدل پیشبینی میکند و کدام ویژگیهای ورودی بیشترین تأثیر را بر خروجی دارند، که به صورت ریاضی به شرح زیر است.
کجا م تعداد ویژگی های ورودی را نشان می دهد، نشان دهنده یک ثابت زمانی است که همه ورودی ها وجود ندارند، و نشان دهنده ویژگی مشاهده شده است من. مقدار SHAP برای هر ویژگی، توسط لوندبرگ پیشنهاد و شرح داده شد [۴۹].
۳٫۴٫ آموزش مدل
برای آموزش مدل، داده ها به طور تصادفی تقسیم و به مجموعه های آموزشی و اعتبار سنجی در نسبت ۸۰% به ۲۰% تقسیم شدند. برای ارزیابی و اعتبارسنجی عملکرد مدلها از اعتبارسنجی متقابل استفاده شد. ارزش از ک = ۱۰ از طریق یک فرآیند جستجو انتخاب شد که تعداد بهینه چینها را بر اساس بهترین عملکرد مدلها شناسایی کرد.
فراپارامترها نقش مهمی در عملکرد، تعمیم و تفسیر مدلهای هوش مصنوعی دارند. یک فرآیند تنظیم فراپارامتر کامل برای تعیین بهترین پارامترهای آموزشی انجام شد.
بنابراین، تنظیمات دستی برای پارامترهای مدل کلیدی بر اساس منحنی های آموزشی مدل انجام شد. برای الگوریتم DT، عمق درخت ۳ برای جلوگیری از درختان عمیق اتخاذ شد. حداکثر تعداد برگ ۵ و معیار انتخاب گره آنتروپی بود. در مورد مدل RF، یکی از پارامترهای حیاتی که باید تنظیم شود، تعداد درختان منفرد و حداقل تعداد نمونه مورد نیاز برای تقسیم یک گره داخلی است. بنابراین مقادیر انتخاب شده به ترتیب ۱۰۰ و ۲ به همراه پارامتر عمق حداکثر ۳ بودند. برای انتخاب گره از تابع تلفات لگاریتمی استفاده شد. [۵۰].
در XGB، تابع softmax برای بهینه سازی احتمالات کلاس استفاده شد، زیرا این یک مسئله چند کلاسه است. حداکثر عمق درختان مدل های پایه روی ۳ تنظیم شد [۵۱]. همانطور که در شکل ۳ نشان داده شده است، منحنی های یادگیری برای هر مدل برای مشاهده رفتارهای آنها در طول فرآیند آموزش با افزایش حجم نمونه ایجاد شد.
امتیاز آموزشی در تمام مجموعه های آموزشی برای همه مدل ها به طور مداوم بالا باقی ماند. با این حال، همانطور که در شکل ۳ مشاهده شد، با افزایش اندازه داده های آموزشی، امتیاز اعتبار سنجی افزایش یافت. منحنی های یادگیری یک شکاف اولیه بین امتیازهای آموزشی و اعتبار سنجی را نشان می دهند، به ویژه در منحنی XGBoost (شکل ۳c) و منحنی درخت تصمیم (شکل ۳a)، که در آن تفاوت قابل توجهی در زمانی که کمتر از ۶۰۰ نمونه استفاده شد مشهود است. این شکاف نشان دهنده بیش از حد مناسب شدن بالقوه در مراحل اولیه تمرین است. با این وجود، با افزایش تعداد نمونهها و تکرارهای بیشتر مدلها، عملکرد اعتبار سنجی بهبود یافت و شکاف بین نمرات آموزش و اعتبار سنجی کاهش یافت، به ویژه زمانی که بیش از ۱۰۰۰ نمونه وجود داشت. در مقابل، مدل جنگل تصادفی (شکل ۳b) رابطه پایدار تری بین دقت آموزش و اعتبارسنجی در طول فرآیند، با اختلافات کوچکتر، حفظ کرد، که نشان دهنده خطر کمتری برای اضافه کردن از همان ابتدا است.
ارقام هیچ شواهدی از برازش بیش از حد در مدل های تحلیل شده نشان نمی دهند. بلکه موضوعی مربوط به مقیاس منحنی های آموزشی است. در شکل ۳a، محور y از ۰٫۹۴ تا ۱٫۰۰ مقیاس بندی شده است، که ممکن است این تصور را از شکاف مهم تری بین منحنی های آموزشی و اعتبار سنجی ایجاد کند. با این حال، می توان مشاهده کرد که دقت اعتبار سنجی نزدیک به دقت آموزشی باقی می ماند که نشان دهنده قابلیت تعمیم خوب مدل است. در شکل ۳b,c، مقیاس محور y مشابه است، اما پراکندگی بین منحنی ها، به خصوص برای مجموعه های نمونه بزرگتر، کوچکتر است. این نشان میدهد که با افزایش تعداد نمونهها، تفاوت بین منحنیهای آموزش و اعتبارسنجی برای همه مدلها کاهش مییابد. این نشان میدهد که مدلها به خوبی بدون نشانههایی از برازش زیاد تعمیم مییابند.
همه منحنی ها نشان دهنده یک مبادله خوب بین سوگیری و واریانس هستند و نشان می دهند که اندازه نمونه مورد استفاده برای آموزش مدل کافی بوده است، زیرا مدل ها با تعداد قابل توجهی از نمونه ها تثبیت شده اند. تفاوت کاهش یافته بین منحنی های آموزش و اعتبار سنجی عدم وجود بیش از حد برازش را تأیید می کند، که نشان می دهد مدل می تواند به خوبی تعمیم یابد. این یافته ها با نتایج ارائه شده در زیر مطابقت دارند (جدول ۱ را ببینید).
۴٫ نتایج
۴٫۱٫ آموزش مدلهای یادگیری ماشینی برای پیشبینی انواع سرطان با استفاده از دادههای RNA-Seq بر اساس فهرست کامل ژن
نتایج اولیه این مطالعه با استفاده از یک لیست جامع از ژن ها، شامل ۳۰۵۷ نمونه و ۲۱۴۸۰ نوع ژن تولید شد. دقت، دقت، حساسیت، و معیارهای امتیاز F1 برای ارزیابی عملکرد مدلهای اعمال شده برای طبقهبندی پنج نوع تومور عودکننده در زنان با استفاده از فهرست کامل ژن مورد استفاده قرار گرفت. در نتیجه، معیارهای عملکرد نشاندهنده مقادیر متوسط بهدستآمده در همه تاها هستند، همانطور که در ستون «ویژگیهای اصلی» در جدول ۱ نشان داده شده است.
جنگل تصادفی بهترین عملکرد را با دقت بدست آورد و دقتی از . در جایگاه دوم XGBoost قرار گرفت که دقت، دقت، حساسیت و مقادیر امتیاز F1 را نیز به نمایش گذاشت. . الگوریتم درخت تصمیم نیز عملکرد خوبی را با مقادیر بیش از حد نشان داد در تمام معیارهای پذیرفته شده شایان ذکر است که گروه های تجزیه و تحلیل شده متعلق به انواع تومورهای بسیار ناهمگن هستند که ممکن است عملکرد بالای مدل های به کار گرفته شده از جمله DTs را توضیح دهد.
انحراف معیار می تواند واریانس مدل ها را در طول آموزش نشان دهد. برای اعتبارسنجی متقاطع ۱۰ برابری، انحراف استاندارد برای مدل DT از نظر دقت ; برای RF بود ; و برای XGB، این بود . بنابراین، انحراف استاندارد کمتر به معنای واریانس کمتر است.
۴٫۲٫ انتخاب ویژگی با استفاده از ارزیابی عملکرد مدل SHAP و ML
متعاقباً، روش SHAP در سه مدل برای شناسایی تأثیرگذارترین ویژگیها در فرآیندهای تصمیمگیری آنها اعمال شد. این سه مدل (RF، DT و XGB) برای برنامه SHAP انتخاب شدند زیرا با توجه به حجم زیاد داده های ورودی اصلی، مناسب تر و کارآمدتر هستند. بهعلاوه، توضیح مدلهای مبتنی بر درخت آسانتر است، زیرا ساختار سلسله مراتبی آنها تفسیر سهم هر ویژگی را تسهیل میکند و SHAP را به ابزاری ایدهآل برای شناسایی تأثیر هر ژن در طبقهبندی سرطان و کاهش تعداد متغیرها (ویژگیها) تبدیل میکند. یک مجموعه داده از طریق انتخاب ویژگی، به تعیین دقیق ترین ژن ها کمک می کند.
در این زمینه، پس از آموزش طبقهبندیکنندهها، تکنیک SHAP برای محاسبه مقادیر Shapley بر روی دادههای آموزشی اعمال شد. فرآیند انتخاب ویژگی مبتنی بر SHAP، ژنها را بر اساس مقادیر Shapley رتبهبندی میکند و آنهایی را که بیشترین اهمیت را برای پیشبینی مدل دارند حفظ میکند. در پایان فرآیند انتخاب، در مجموع ۲۲۳ ژن به دست آمد که ۱۲۲ ژن از مدل RF، ۱۱ ژن از مدل DT و ۹۰ ژن از XGB استخراج شد. در این میان، ۱۹۴ ژن منحصر به فرد بودند. تعداد نهایی ژن های استخراج شده کمتر از ۱% (۲۱۴۸۱) از مجموعه ژن اصلی را نشان می دهد. بحث در مورد ژن های کلیدی شناسایی شده توسط این تکنیک در بخش ۴٫۳ ارائه شده است.
همانطور که در شکل ۱ نشان داده شده است، مرحله نهایی تجزیه و تحلیل ما شامل آموزش مجدد پنج مدل انتخاب شده برای این مطالعه تنها با استفاده از لیست ژن کاهش یافته و منحصر به فرد انتخاب شده توسط SHAP بود. در جدول ۱، دقت و مقادیر دقت همه مدلها را در هنگام استفاده از ژنهای انتخابشده توسط SHAP برای مشاهده اینکه آیا این فهرست کاهشیافته میتواند عملکرد مدل مشابه یا بهبودیافتهای را ارائه دهد، برجسته میکنیم، و نشان میدهد که SHAP میتواند به طور موثر به عنوان یک تکنیک انتخاب ویژگی به کار رود. .
مدلهایی که ژنهای SHAP را از آنها استخراج کردیم، افزایش جزئی در دقت و مقادیر دقت آنها (<1%) نشان دادند. مدلهای دیگری که تحت فرآیند انتخاب ویژگی با استفاده از مقادیر SHAP قرار نگرفتند نیز بهبودهایی را در معیارهای خود تجربه کردند. دقت مدل NB برنولی از افزایش یافت به و دقت از بهبود یافته است به .
اگرچه SHAP مستقیماً برای مدلهای ساده بیز (Gaussian NB و Bernoulli NB) اعمال نشد، مجموعه ژن کاهشیافته و منحصربهفرد انتخاب شده توسط SHAP در همه مدلها مؤثر بود. قابل ذکر است، حتی برای مدلهای Naive Bayes، که با مدلهای اصلی SHAP کاربردی متفاوت هستند، ویژگیهای انتخابی طبقهبندی دقیقی را در بین کلاسهای تومور ممکن میسازد، و عملکرد قوی را نشان میدهد. این نتایج نشان می دهد که ژن های انتخاب شده توسط SHAP به اندازه کافی جامع هستند تا از طبقه بندی دقیق با هزینه محاسباتی کمتر اطمینان حاصل کنند. این SHAP را به عنوان یک تکنیک انتخاب ویژگی قوی تثبیت می کند، زیرا ژن هایی که شناسایی می کند حتی در مدل های احتمالی عملکرد خوبی دارند.
۴٫۳٫ ژن های SHAP
شکل ۴، شکل ۵ و شکل ۶ سهم هر ژن را هنگام اعمال روش SHAP در پیشبینی مدلهای DT، RF و XGB نشان میدهد و آنها را به ترتیب تأثیر نزولی رتبهبندی میکند. نمودار خلاصه تأثیرگذارترین ویژگی ها را بر اساس مقادیر متوسط SHAP برجسته می کند. در زمینه یک کار طبقهبندی چند طبقه، نمودار خلاصه ویژگیها را بر اساس سهم کلی آنها در همه کلاسها با استفاده از رنگهای خاصی که هر کلاس را نشان میدهند، رتبهبندی میکند.
می توان مشاهده کرد که الگوی مشارکت ژن SHAP در بین سه کلاس مدل (DT، RF، و XGB) متفاوت است. در مدل DT، تنها ۱۱ ژن SHAP در نظر گرفته شد (شکل ۴ را ببینید). از بین این ژنها، تنها PAX8 در طبقهبندی همه کلاسها نقش داشته و آن را برای این مدل مناسبترین است. ۱۰ ژن باقیمانده تنها به چند کلاس کمک کردند که در میان آنها مقادیر نامتعادلی وجود داشت.
از سوی دیگر، مدل RF منجر به ۱۲۲ ژن SHAP شد (شکل ۵ را ببینید). ۲۰ ژن برتر در این مدل به هر پنج کلاس ارزیابی شده کمک کردند. اگرچه مشارکتها در همه طبقات متعادل نبودند، اما همچنان مرتبط تلقی میشدند. شایان ذکر است که برخی از ژن ها سهم قابل توجهی در طبقات خاص داشتند که اغلب به هزینه سایرین انجام می شد. به عنوان مثال، ژنهای EMX2 و TSHR به ترتیب سهم بیشتری در کلاسهای OV و THCA داشتند.
مدل XGB، به نوبه خود، ژن های SHAP را نشان داد که عمدتاً به یک کلاس کمک می کردند (شکل ۶ را ببینید). در میان ۲۰ ژن برتر با بیشترین تأثیر بر طبقه بندی، ژن TG (تیروگلوبولین) برجسته است که در درجه اول به کلاس THCA کمک می کند و آن را تنها نماینده این نوع تومور می کند. برای کلاس COAD، ژن های شناسایی شده شامل CDX1 (هوموباکس ۱ نوع دمی)، FABP1 (پروتئین پیوند دهنده اسیدهای چرب ۱) و GPA33 (گلیکوپروتئین A33) بود. در کلاس OV، ژنهای مربوطه عبارت بودند از SOX17 (فاکتور رونویسی جعبه SRY 17)، MEIS1 (MEIS homeobox 1)، EMX2 (همیوباکس spiracles خالی ۲)، و RPL10AP6 (پروتئین ریبوزومی L10a شبه ۶). مشاهدات برای کلاس BRCA ژن هایی مانند HKDC1 (شامل دامنه هگزوکیناز ۱)، LMX1B (فاکتور رونویسی هومئوباکس LIM 1 بتا)، GATA3 (پروتئین اتصال GATA 3)، TRPS1 (سرکوب کننده رونویسی GATA binding 1) و FOXA2 (forkhead) را نشان داد. ) A2). برای کلاس LUAD، ژن های شناسایی شده شامل SFTPA2 (پروتئین سورفکتانت A2)، NAPSA (نپسین A آسپارتیک پپتیداز)، TBX4 (فاکتور رونویسی جعبه T 4)، SFTPA1 (پروتئین سورفکتانت A1)، HAND2 (مشتقات قلب و تاج عصبی بیان شده ۲) بودند. )، TFPI (بازدارنده مسیر فاکتور بافتی)، و FGG (زنجیره گامای فیبرینوژن). به طور خلاصه، نتایج نشان میدهد که مدلهای DT، RF و XGB الگوهای متمایز مشارکت ژن SHAP را در طبقهبندی نمونه نشان میدهند.
۵٫ بحث
در این مطالعه از روش SHAP برای انتخاب ویژگی استفاده شد. مقادیر SHAP اهمیت هر ویژگی را در مدل منعکس می کند و طبقه بندی ویژگی ها را بر اساس ارتباط آنها امکان پذیر می کند. رویکرد مبتنی بر SHAP برای انتخاب ویژگی ثابت کرده است که نسبت به سایر استراتژیهای کاهش ابعاد برتری دارد و در عین حال تفسیرپذیری نتایج بهدستآمده را نیز افزایش میدهد. [۵۲].
به طور کلی، روش انتخاب ویژگی مبتنی بر ارزش SHAP در کاهش ویژگی موفق بوده و منجر به بهبود معیارهای عملکرد و تعمیمپذیری به مدلهای خارجی میشود. [۵۳,۵۴]. سانتوس و همکاران از تکنیک SHAP برای انتخاب ویژگی هایی برای تشخیص، طبقه بندی و برآورد شدت با استفاده از مدل SVM استفاده کرد. مشابه با رویکرد کاهش یافته فهرست ژن در طبقه بندی سرطان، SHAP مجموعه ای کوچکتر و متمرکزتر از ویژگی ها را تولید کرد که منجر به بهبود دقت می شود. [۵۳]. سادایی و همکاران یک ابزار انتخاب ویژگی مبتنی بر SHAP را معرفی کرد که برای عملکرد بهتر و تفسیرپذیری مدلها بر اساس دادههای حوزههای مختلف مراقبتهای بهداشتی طراحی شده است. [۵۴]. نتایج ما را می توان تا حدی با مطالعه مهند محمد و همکارانش مقایسه کرد [۵۵]که از یک رویکرد یادگیری عمیق از طریق انباشتن مجموعه ها برای طبقه بندی همان پنج نوع تومور استفاده می کند. در آن کار، نویسندگان از LASSO به عنوان تکنیک انتخاب ویژگی استفاده کردند و تنها ۱۷۳ ژن را انتخاب کردند. این منجر به بهترین نتایج متوسط، با دقت هنوز کمی پایین تر از بدون مرحله LASSO به دست آمد. در مقایسه با مطالعه ما، انتخاب ویژگی با استفاده از SHAP تأثیر مهم تری بر دقت داشت و منجر به بهبود کلی در عملکرد مدل شد. به عنوان مثال، مدل NB گاوسی به دقتی دست یافت تنها با استفاده از ژن های انتخاب شده توسط SHAP.
مزیت اصلی استفاده از تکنیک XAI در دادههای بیولوژیکی و بالینی، توانایی تفسیر نتایج و ارتباط آنها با پدیدههای طبقهبندیشده توسط مدل است. یک مطالعه با پایگاه داده گسترده RNA-seq شامل ۴۷ بافت نشان داد که ژنهای انتخاب شده بر اساس مقادیر SHAP برای توضیح یک شبکه عصبی کانولوشن، فرآیندهای بیولوژیکی مورد انتظار مربوط به تمایز و عملکرد این بافتها را منعکس میکنند. [۲۸].
به همان اندازه مهم است که تأکید شود ژنهای شناساییشده با روش SHAP ممکن است لزوماً ارتباط مستقیمی با ژنهای بیان شده متفاوت نشان ندهند. با این حال، آنها هنوز هم می توانند از نزدیک با پدیده مورد مطالعه مرتبط باشند. این نشان میدهد که این روش میتواند بینشهای جدیدی را در مورد دادههای رونویسی آشکار کند [۵۶].
هنگام استفاده از تکنیک SHAP برای مدلهای یادگیری ماشین، نشان دادیم که ژنها در هر مدل آزمایش شده به طور متفاوتی در پیشبینیها نقش دارند. بگذارید روی ژن های انتخاب شده توسط SHAP برای مدل XGBoost تمرکز کنیم. مقادیر SHAP اختصاص داده شده به این ژن ها در درجه اول با یک کلاس تومور منفرد مرتبط است که نشان دهنده رابطه بین ژن و نوع خاصی از تومور است. ما ژن های کلیدی انتخاب شده توسط SHAP را در مدل XGB بررسی خواهیم کرد و تعیین خواهیم کرد که آیا آنها با کلاس تومور نشان داده شده با مقدار SHAP ارتباط دارند یا خیر.
ژن TG پروتئین پیش ساز هورمون های تیروئید را رمزگذاری می کند که برای رشد، تکامل و تنظیم متابولیک ضروری هستند. [۵۷]. TG فراوان ترین محصول ژنی است که مختص تیروئید است [۵۸].
ژن CDX1 نقش مهمی در توسعه اپیتلیوم روده ایفا می کند [۵۹]. ژن FABP1 پروتئینی را کد می کند که نقش اساسی در متابولیسم اسیدهای چرب دارد و به طور خاص در بافت های مختلف بیان می شود. مشاهده شده است که تقریبا موارد COAD – آدنوکارسینوم کولون – نرخ های مثبت بیان FABP1 را نشان می دهند [۶۰]. ژن GPA33 عضوی از ابرخانواده ایمونوگلوبولین ها است و در آن وجود دارد تومورهای روده بزرگ [۶۱]. بنابراین، ادبیات از نتیجه SHAP پشتیبانی می کند که این سه ژن را با کلاس COAD مرتبط می کند.
ژن SOX17 یک تنظیم کننده اصلی در سرطان تخمدان است [۶۲]. ژن MEIS1 در زمینه های مختلف از جمله نقش آن در آپوپتوز سلول های گرانولوزای تخمدان مورد مطالعه قرار گرفته است. [۶۳]. ژن EMX2 یک عامل رونویسی اساسی در تشکیل سیستم ادراری تناسلی است و به شدت در تخمدان بیان می شود. [۶۴].
ژن HKDC1 بیش از حد بیان می شود و باعث تکثیر سلول های سرطان سینه می شود [۶۵]. ژن LMX1B که یک فاکتور رونویسی را کد می کند، یک علامت متیلاسیون خاص برای بافت پستان نشان می دهد. [۶۶]. علاوه بر این، این ژن به عنوان یک نشانگر زیستی قوی برای شناسایی و نظارت بر سرطان پستان موضعی شناسایی شده است. [۶۷]. ژن GATA3 به عنوان قویترین فاکتور رونویسی در سلولهای اپیتلیال مجرای غده پستانی در نظر گرفته میشود و تقریباً در آن جهش یافته است. از موارد سرطان سینه [۶۸]. ژن TRPS1 یک نشانگر بسیار حساس و اختصاصی برای سرطان سینه است و بر خلاف GATA3، در زیرگروه سه گانه منفی نیز به شدت بیان می شود. [۶۹]. ژن FOXA2 در تکثیر و نگهداری سلول های بنیادی تومور، به ویژه در سرطان سینه سه گانه منفی نقش دارد. [۷۰].
ژنهای SFTPA1 و SFTPA2 پروتئینهای سورفکتانت را کد میکنند که برای عملکرد آلوئولهای ریوی ضروری هستند. [۷۱]. NAPSA ژنی است که توسط پنوموسیت های نوع II و ماکروفاژهای آلوئولی بیان می شود و به عنوان یک نشانگر زیستی بالقوه برای آدنوکارسینوم ریه شناخته شده است. [۷۲]. ژن TBX4 یک فاکتور رونویسی است که در میان سایر سلول ها، فیبروبلاست های ریوی را تنظیم می کند. [۷۳]. اگرچه هیچ ادبیاتی وجود ندارد که مستقیماً ژن HAND2 را به ریه مرتبط کند، اما شایان ذکر است که همتای آنتیسنس آن (HAND2-AS1) نقش سرکوبکنندهای در سلولهای سرطان ریه دارد. [۷۴]. ژن TFPI یک ضد انعقاد قوی را کد می کند که با ترومبوز ورید عمقی و متاستاز در سرطان ریه مرتبط است. [۷۵]. ژن دیگری که نقش اساسی در انعقاد خون دارد FGG است که به عنوان نشانگر زیستی پیش آگهی سرطان ریه توصیه شده است. [۷۶].
بر اساس بحث قبلی، ما یک رابطه بین ژن های انتخاب شده توسط SHAP و یک کلاس تومور خاص مشاهده کرده ایم. این رابطه با تجزیه و تحلیل زیست شناسی شناخته شده هر یک از ۲۰ ژن برتر انتخاب شده توسط SHAP در مدل XGBoost ایجاد شد (جدول ۲ را ببینید). تجزیه و تحلیل با استفاده از مقادیر SHAP برای شناسایی موثرترین ژن ها در طبقه بندی انواع سرطان، همانطور که در جدول ۲ ذکر شده است، امکان پذیر است. به عنوان مثال، TG یک نشانگر به خوبی تثبیت شده برای سرطان تیروئید (THCA) است. [۷۷,۷۸]در حالی که NAPSA به دلیل ارتباط آن با آدنوکارسینوم ریه (LUAD) شناخته شده است. [۷۹,۸۰]. به طور مشابه، SOX17 و FABP1 به ترتیب با سرطان تخمدان (OV) و آدنوکارسینوم کولون (COAD) مرتبط هستند. [۸۱,۸۲,۸۳,۸۴]. مقادیر SHAP بینش هایی را در مورد اینکه آیا بیان بالاتر این ژن ها به طور مثبت یا منفی با احتمال یک نوع سرطان خاص همبستگی دارد، ارائه می دهد، و یک لایه تفسیری معنی دار به ارتباط ژن-سرطان مشخص شده در جدول ۲ اضافه می کند.
تجزیه و تحلیل ژن های شناسایی شده توسط SHAP و ارائه شده در جدول ۲ ارتباط بیولوژیکی آنها را در مسیرهای سرطانی شناخته شده نشان می دهد و از اهمیت آنها فراتر از اهمیت آماری در مدل حمایت می کند. به عنوان مثال، ژن TG که به طور گسترده به عنوان یک نشانگر برای THCA شناخته می شود، برای تولید هورمون های تیروئید که نقش مهمی در تنظیم متابولیسم و رشد سلولی دارند، ضروری است، فرآیندهایی که اغلب در نئوپلاسم های تیروئید مختل می شوند. [۷۷,۷۸]. ژن NAPSA، مرتبط با LUAD، به طور مطمئنی به عنوان نشانگر زیستی برای تشخیص این نوع سرطان ریه از سایر نئوپلاسم ها استفاده می شود و در نتیجه پتانسیل تشخیصی آن را افزایش می دهد. [۷۹,۸۰].
علاوه بر این، ژن FABP1 که در متابولیسم اسیدهای چرب دخیل است، به شدت در بافتهای کولون بیان میشود و اغلب در COAD یافت میشود، جایی که بیان بالا آن ممکن است نشاندهنده تغییرات متابولیکی مشترک این تومورها باشد. [۸۱,۸۲]. ژن SOX17 نقش مهمی در تنظیم رشد ایفا می کند و یک فاکتور اصلی بیان شده در OV است که بر تکثیر و تهاجم سلولی تأثیر می گذارد. [۸۳,۸۴]. این ارتباط نشان میدهد که ژنهای برجستهشده از نظر آماری در مدل مرتبط هستند و اهمیت بیولوژیکی در مسیرها و فرآیندهای مرتبط با انواع سرطان خاص ثابت شدهاند.
۶٫ نتیجه گیری
این مطالعه هوش مصنوعی قابل توضیح را برای دادههای بیان ژن RNA-seq، با تمرکز بر پنج نوع تومور: BRCA، LUAD، THCA، OV، و COAD اعمال کرد. تکنیک SHAP در مدلهای مختلف مبتنی بر درخت، از جمله درختهای تصمیم، جنگل تصادفی و XGBoost برای انجام انتخاب ویژگی استفاده شد. مدلهای جدید که منحصراً با ژنهای انتخابشده توسط SHAP آموزش دیدهاند، در مقایسه با مدلهایی که از همه ژنهای موجود استفاده میکنند، سطح دقت خود را حفظ کردند. جالب اینجاست که حتی مدلهای Gaussian Naive Bayes و Bernoulli Naive Bayes که تحت انتخاب ویژگی قرار نگرفتند، هنگام آموزش با ژنهای انتخاب شده توسط SHAP از مدلهای دیگر، عملکرد خوبی داشتند. این نشان میدهد که ویژگیهای انتخابشده بهطور مؤثری بین کلاسها، صرفنظر از مدل اولیه، متمایز میشوند. علاوه بر این، ما تفسیرپذیری نتایج SHAP را برای هر مدل ارزیابی کردیم. قابلتوجه، ژنهای انتخابشده توسط SHAP از مدل XGBoost تنها با یکی از کلاسها مرتبط بودند و تفسیر نتایج را سادهتر میکردند. استراتژی به کار گرفته شده امکان انتخاب مهم ترین ژن ها را بدون به خطر انداختن عملکرد مدل فراهم می کند، در حالی که شفافیت و توضیح کلی را نیز افزایش می دهد. به نظر می رسد استفاده از XGBoost در ترکیب با SHAP یک رویکرد امیدوارکننده برای شناسایی نشانگرهای زیستی در طبقه بندی های چند کلاسه باشد.
منبع: https://www.mdpi.com/2673-2688/6/1/2