استفاده از هوش مصنوعی قابل توضیح برای کشف ژن‌های تاثیرگذار در مدل‌های یادگیری ماشین

۱٫ مقدمه

سرطان یکی از شایع ترین علل مرگ و میر در میان زنان است که سرطان سینه (BRCA) یکی از شایع ترین علل مرگ و میر ناشی از سرطان در زنان است. [۱]. در قاره آمریکا

۳۰ %

موارد شناسایی شده مربوط به سرطان سینه با نرخ مرگ و میر ۱۹۰ در هر ۱۰۰۰۰۰ مورد است. [۲]. سرطان ریه، به ویژه آدنوکارسینوم ریه (LUAD)، بالاترین میزان بروز را در میان زنان دارد [۳,۴]. سرطان تخمدان (OV) به دلیل چالش های قابل توجه در تشخیص، یکی از کشنده ترین انواع سرطان در نظر گرفته می شود [۵]. آدنوکارسینوم کولون (COAD) سومین سرطان شایع در سراسر جهان است که هر سال تقریباً یک میلیون بیمار را تحت تأثیر قرار می دهد. [۶,۷]. در سطح جهانی، سرطان تیروئید (THCA) در زنان سه برابر شایع‌تر است که اغلب قبل از ۳۰ سالگی تشخیص داده می‌شود. [۸,۹]. با توجه به اهمیت بهداشت جهانی آن، اقدامات دولتی و علمی به فوریت مورد نیاز است. کشورهای با درآمد پایین و متوسط معمولاً با بار سرطان بیشتری مواجه هستند، با دسترسی محدود به اقدامات پیشگیری و درمان سرطان، که در نتیجه نرخ بقای کمتری را به دنبال دارد. تشخیص زودهنگام با شناسایی بیماری در مراحل اولیه، نقش حیاتی در بهبود نتایج سرطان ایفا می کند. [۱۰]. تکنیک‌های هوش مصنوعی (AI) به طور فزاینده‌ای در جنبه‌های مختلف تحقیقات سرطان و مراقبت از بیمار استفاده می‌شوند و به تشخیص، پیش‌آگهی، نظارت و تجزیه و تحلیل انواع مختلف سرطان کمک می‌کنند. [۱۱,۱۲].

مطالعات به چالش ها و نگرانی های مرتبط با اجرای موثر این مدل ها در سرطان شناسی پرداخته اند. چوآ و همکاران در مطالعه خود. اشاره کرد که سرطان شرایط متمایز با الگوهای منحصر به فرد و پیچیده را در بر می گیرد [۱۳]. ابعاد بالای داده ها نیز مانع مهمی است. یک رویکرد رایج برای پرداختن به این مشکل، انتخاب ویژگی است که شامل انتخاب زیرمجموعه ای از داده ها بدون نیاز به اعمال تبدیل است. [۱۴]. موضوع دیگری که توسط Moncada و همکاران برجسته شده است. عدم شفافیت در برخی مدل‌ها است، زیرا بسیاری از آنها اغلب جعبه‌های سیاهی در نظر گرفته می‌شوند که از طریق الگوریتم‌های پیچیده و تفسیر دشواری عمل می‌کنند. این عدم شفافیت، اعتماد بیماران و پزشکان را به پیش‌بینی‌های مدل‌ها محدود می‌کند [۱۵].

در تلاش برای کاهش این موضوع، تکنیک‌های هوش مصنوعی قابل توضیح (XAI) برای درک اینکه این مدل‌ها چگونه تصمیم‌گیری می‌کنند و کدام ویژگی‌ها یا ورودی‌ها بیشترین تأثیر را بر پیش‌بینی مدل دارند، استفاده شده‌اند. [۱۶,۱۷]. تکنیک SHAP (Shapley Additive Explanations) بخشی از جعبه ابزار XAI است و برای توضیح خروجی برخی از مدل های یادگیری ماشین (ML) و یادگیری عمیق (DL) بر مقادیر SHAP تکیه دارد. [۱۸].

در این زمینه، این کار استفاده از یک تکنیک XAI بر اساس مقادیر SHAP را برای شناسایی مرتبط‌ترین ویژگی‌ها در یک مشکل طبقه‌بندی چند طبقه در میان پنج نوع عودکننده سرطان در زنان پیشنهاد می‌کند. این طبقه بندی بر اساس داده های بیان ژن RNA-seq استخراج شده از اطلس ژنوم سرطان (TCGA) است. داده ها به مدل های سنتی ML بر اساس درخت تصمیم اعمال شد. بنابراین، این کار کمک های خاص زیر را انجام می دهد:

استفاده از تکنیک SHAP به عنوان روشی برای کاهش ابعاد ویژگی ورودی.
استفاده از یک روش XAI برای توضیح رفتار طبقه بندی کننده ها بر اساس کتابخانه SHAP در زبان برنامه نویسی پایتون.
توسعه مدل‌های با کارایی بالا با استفاده از تاثیرگذارترین مقادیر بیان ژن RNA-seq انتخاب شده توسط SHAP.
تجزیه و تحلیل ژن های کلیدی شناسایی شده توسط تکنیک SHAP.

۲٫ آثار مرتبط

چندین مطالعه از تکنیک های یادگیری ماشینی برای به دست آوردن بینش در مورد توسعه و ویژگی های انواع مختلف سرطان استفاده کرده اند. در کارشان، [۱۹] یک سیستم تشخیص اولیه خودکار برای سرطان پستان با استفاده از ماشین بردار پشتیبان (SVM)، رگرسیون لجستیک (LR)، K-Nearest Neighbors (KNN)، درخت تصمیم (DT)، Naive Bayes، و جنگل تصادفی (RF) توسعه داده است. آنها با استفاده از مجموعه داده سرطان پستان ویسکانسین (WBCD) که حاوی اطلاعاتی در مورد اندازه و شکل سلول‌های تومور است، سرطان سینه را به عنوان خوش‌خیم یا بدخیم طبقه‌بندی کردند و مقادیر دقت را به دست می‌آورند.

۹۴ %

به

۹۷ %

مطالعه Vural و همکاران. از تکنیک‌های یادگیری ماشینی بدون نظارت برای خوشه‌بندی پروفایل‌های جهش جسمی داده‌های سرطان پستان از TCGA استفاده کرد. [۲۰]. آنها سه گروه را به دست آوردند و سپس آنها را بررسی کردند و بین مرحله بیماری بیماران و هر خوشه رابطه مشاهده کردند. سپس، تکنیک‌های یادگیری ماشینی تحت نظارت برای طبقه‌بندی بیماران سرطان پستان ناشناخته در خوشه‌های قبلاً یافت‌شده، به کار گرفته شد.

۷۰ %

دقت با استفاده از مدل جنگل تصادفی

در کار رام و همکاران. [۲۱]طبقه بندی و انتخاب ویژگی برای سرطان کولون، سرطان پروستات و لوسمی با استفاده از داده های بیان ژن انجام شد. در تحقیق، مقادیر دقت به دست آمده با استفاده از الگوریتم جنگل تصادفی بوده است

۸۵٫۴۵ %

برای سرطان روده بزرگ

۶۶٫۶۶ %

برای سرطان پروستات و

۱۰۰ %

برای سرطان خون ژن‌های شناسایی‌شده از این طبقه‌بندی‌ها برای مشاهده تأثیر آن‌ها بر سرطان مورد تجزیه و تحلیل قرار گرفتند و نقش مهم آن‌ها در پیشرفت آسیب‌شناسی مربوطه آشکار شد.

یک روش انتخاب ویژگی، همراه با مدل SVM، به داده‌های بیان ژن با هدف طبقه‌بندی نمونه‌ها به دو زیرگروه سرطان ریه اعمال شد: آدنوکارسینوم ریه و سرطان سلول سنگفرشی ریه. لیست ویژگی های انتخاب شده حاوی ژن هایی است که بیان متفاوتی را بین دو نوع سرطان نشان می دهند. سپس از این لیست برای آموزش مدل SVM استفاده شد و نویسندگان مقادیر دقت را از

۹۱٫۰۰ %

به

۹۶٫۷۰ %

بسته به انتخابگرهای ویژگی مورد استفاده قبل از طبقه بندی [۲۲].

در مطالعه ارائه شده در [۲۳]نویسندگان از داده‌های بیان ژن برای تشخیص سرطان تخمدان با استفاده از پنج الگوریتم یادگیری ماشینی استفاده کردند: مدل خطی تعمیم‌یافته (GLM)، طبقه‌بندی و درختان رگرسیون (CART)، نزدیک‌ترین همسایه‌های K (KNN)، ماشین بردار پشتیبان (SVM) و جنگل تصادفی. در بین این الگوریتم‌ها، جنگل تصادفی بهترین عملکرد را نشان داد و به حساسیتی دست یافت.

۹۶ %

و یک ویژگی از

۸۳ %

برای تشخیص سرطان بافت تخمدان

اکثر مطالعاتی که از بیان ژن برای پیش‌بینی سرطان استفاده می‌کنند، در زمینه یادگیری عمیق هستند [۲۴]. تکنیک‌های رایج شامل شبکه‌های عصبی کانولوشن (CNN)، شبکه‌های عصبی کاملاً متصل (FCNN) و شبکه‌های عصبی تکراری (RNN) هستند. این مطالعات اغلب شامل وظایف طبقه بندی چند طبقه ای برای انواع مختلف سرطان است. در یک رویکرد، نویسندگان داده‌های RNA-seq را به تصاویر دو بعدی تبدیل کردند و یک CNN چند لایه را اعمال کردند. این رویکرد به دقت آزمون کلی دست یافت

۹۶٫۹۰ %

[۲۵]. در همین راستا، مطالعه دیگری [۲۶] از توالی‌های RNA-seq تبدیل شده به تصاویر دو بعدی برای انواع سرطان استفاده کرد و از معماری CNN استفاده کرد و به دقتی دست یافت.

۹۵٫۶۵ %

همانطور که قبلا ذکر شد، برای به دست آوردن پذیرش و ادغام در سرطان شناسی، ترکیب تکنیک هایی که امکان تجسم و درک فرآیندهای تصمیم گیری مدل را فراهم می کند، ارزشمند است. در کار آنها ر. [۱۸] از طبقه‌بندی چند طبقه‌ای برای تشخیص زیرشاخه‌های سرطان سینه استفاده کرد. نویسندگان از مدل‌های SVM، جنگل تصادفی، درختان بسیار تصادفی (ERTs)، و تقویت گرادیان شدید (XGB) برای به دست آوردن نتایج پیش‌بینی استفاده کردند. متعاقباً، آنها از تکنیک SHAP برای شناسایی مجموعه ای از ویژگی هایی که بر این مدل ها تأثیر می گذارد، استفاده کردند. مقادیر دقت به‌دست‌آمده از

۶۱ %

به

۷۷ %

تکنیک SHAP در تحقیقات مرتبط با سرطان نیز استفاده شده است [۲۷,۲۸]. حسن و همکاران از مدل‌های یادگیری ماشینی استفاده شده برای سونوگرافی و تصاویر تشدید مغناطیسی برای تشخیص سرطان پروستات، با دستیابی به مقادیر دقت مختلف از

۸۰ %

به

۹۷ %

[۲۷]. پس از آن، نتایج این مدل‌ها تحت تکنیک SHAP قرار گرفت تا دلایل طبقه‌بندی هر نمونه به عنوان خوش‌خیم یا بدخیم مشخص شود. یاپ و همکاران از نمونه های داده RNA-seq از بیان ژنوتیپ-بافت در ۴۷ بافت مختلف استفاده کرد. آن‌ها این داده‌ها را در معماری چند لایه CNN اعمال کردند و نتایج دقت را در محدوده‌ای مختلف به دست آوردند

۷۰ %

به

۱۰۰ %

[۲۸]. تکنیک SHAP برای شناسایی مرتبط‌ترین ویژگی‌ها و درک فرآیندهای بیولوژیکی درگیر در تمایز و عملکرد بافت به کار گرفته شد.

۳٫ مواد و روشها

این مطالعه از داده‌های بیان ژن استفاده کرد که شامل اندازه‌گیری‌های کمی RNA‌های پیام‌رسان موجود در یک نمونه داده شده نسبت به یک شرایط فیزیولوژیکی خاص است. مجموعه داده شامل پنج نوع عود کننده سرطان در زنان (BRCA، LUAD، THCA، OV، و COAD) بود که در مجموع ۳۰۵۷ نمونه و ۲۱۴۸۰ ویژگی را شامل می شد. در ابتدا، مجموعه داده توسط سه تکنیک یادگیری ماشینی به طور گسترده مورد استفاده قرار گرفت (شکل ۱ را ببینید). متعاقباً، مدل‌ها تحت کتابخانه SHAP قرار گرفتند تا بفهمند کدام ویژگی‌ها در فرآیند تصمیم‌گیری هر مدل مرتبط‌تر هستند. یک ماتریس مجزا حاوی مقادیر SHAP مربوط به تاثیرگذارترین ویژگی‌ها در فرآیند تصمیم‌گیری هر مدل برای طبقه‌بندی پنج تومور به‌دست آمد. سپس ویژگی‌ها بر اساس اهمیت آن‌ها در پیش‌بینی خروجی مدل، با آستانه‌ای بیشتر یا مساوی انتخاب شدند.

۰٫۰۱ %

. مقادیر زیر این آستانه به طور قابل توجهی به بهبود عملکرد تکنیک های مورد استفاده کمک نمی کند (شکل ۱ را ببینید).

در مرحله بعد، یک لیست ترکیبی از ژن‌های منحصربه‌فرد از هر ماتریس مقادیر SHAP با استفاده از درخت‌های تصمیم، جنگل تصادفی، XGBoost، Gaussian Naive Bayes (Gaussian NB) و Bernoulli Naive Bayes (Bernoulli NB) تولید و پردازش شد تا مشخص شود که آیا پیش‌بینی خوب است یا خیر. می توان از یک لیست کاهش یافته به دست آورد. کل گردش کار توضیح داده شده در بالا در شکل ۱ نشان داده شده است.

۳٫۱٫ پایگاه داده

داده های RNA-seq از پروژه اطلس ژنوم سرطان (TCGA) از طریق پایگاه داده GDC (Genomic Data Commons) به دست آمد. [۲۹]. مجموعه داده ها با استفاده از نرم افزار آماری R نسخه ۴٫۲٫۰ با بسته TCGAbiolinks دانلود شدند. [۳۰]. تابع GDCquery در TCGAbiolinks برای جستجو و دانلود داده های ژنومی از TCGA در پایگاه داده GDC استفاده شد. این به چندین پارامتر از جمله پروژه، میراث، data.category، data.type، platform، file.type، experimental.strategy و sample.type نیاز داشت.

پارامتر پروژه فهرستی از داده ها را مشخص می کند که باید دانلود شوند. برای مشکل در دست، پنج کد پروژه مربوط به پنج نوع سرطان ارائه شد: “TCGA-BRCA”، “TCGA-COAD”، “TCGA-OV”، “TCGA-LUAD”، و “TCGA-THCA”. پارامتر قدیمی برای به دست آوردن داده های هماهنگ روی “FALSE” تنظیم شد، به این معنی که تمام داده های تولید شده توسط TCGA از طریق خط لوله GDC یکسان برای سازگاری پردازش شدند.

آرگومان‌های “data.category” و “data.type” برای فیلتر کردن فایل‌های داده‌ای که قرار است دانلود شوند، به ترتیب با “Gene expression” و “Gene expression quantification” استفاده شد. برای دانلود داده ها از پلتفرم “Illumina HiSeq” استفاده شد. با انتخاب “نتایج” به عنوان آرگومان “file.type”، پایگاه داده قدیمی فیلتر شد و “RNA-seq” به عنوان آرگومان “experimental.strategy” برای تولید نمایه های عبارت انتخاب شد. علاوه بر این، نمونه‌های تومور با استفاده از «تومور اولیه» به عنوان آرگومان «نوع نمونه» انتخاب شدند.

ماتریس داده به دست آمده شامل نمونه هایی از پنج تومور مختلف (نمونه تومور اولیه) بود و برای ایجاد مجموعه داده RNA-seq استفاده شد. این مجموعه داده شامل نمونه هایی از سرطان سینه (BRCA)، آدنوکارسینوم ریه (LUAD)، سرطان تیروئید (THCA)، سرطان تخمدان (OV) و آدنوکارسینوم کولون (COAD) بود که در مجموع ۳۰۵۷ نمونه تومور به دست آمده از پنج نوع سرطان، با ۲۹۴۸۸ نمونه رایج ژن ها

۳٫۲٫ پیش پردازش داده ها

پیش پردازش داده های بیان با استفاده از بسته TCGAbiolinks انجام شد. تابع TCGAanalyzePreprocessing برای عادی سازی داده ها استفاده شد، در حالی که تابع TCGAanalyzeNormalization برای عادی سازی استفاده شد.

در نهایت، تابع TCGAnalyzeFiltering با qnt.cut 0.25 اعمال شد، به این معنی که همه ژن‌ها با شدت متوسط بیشتر از این آستانه حفظ شدند. پس از اعمال این فرآیند، مشخص شد که ۲۲۱۱۵ ژن اطلاعاتی هستند، در حالی که ۷۳۷۳ ژن نامربوط در نظر گرفته شده و از تجزیه و تحلیل بیشتر حذف شدند.

همانطور که در شکل ۲ نشان داده شده است، BRCA به حساب می آید

۳۶٫۳۴ %

از بافت های سرطانی در مجموعه داده، به دنبال LUAD در

۱۷٫۶۳ %

و THCA در

۱۶٫۵۲ %

. سرطان کولون و سرطان تخمدان در تعداد کمتری وجود دارند که فقط نشان دهنده آن هستند

۱۵٫۷۳ %

۱۴٫۷۵ %

به ترتیب.

در این زمینه، تعادل داده ها نه تنها برای بهبود عملکرد شبکه بلکه برای جلوگیری از مسائلی مانند بیش از حد مناسب به دلیل تعداد نامتناسب نمونه ها در مقایسه با سایر انواع سرطان ضروری است. داده های نامتعادل همچنین می تواند منجر به نتایج مغرضانه شود و یادگیری و تعمیم موثر مدل های یادگیری ماشین را چالش برانگیز کند. چندین تکنیک برای رفع عدم تعادل داده ها استفاده می شود و در این کار از نمونه گیری مجدد داده ها استفاده شده است.

نمونه‌گیری مجدد داده شامل نمونه‌گیری کمتر از کلاس اکثریت برای متعادل کردن مجموعه داده با کلاس اقلیت (COAD) است. بنابراین، ۴۲۱ نمونه به طور تصادفی از هر کلاس موجود در مجموعه داده استخراج شد. در نتیجه، مجموعه داده آموزشی مورد استفاده برای مدل‌ها شامل ۲۱۰۵ نمونه بود که نشان‌دهنده پنج نوع بافت سرطانی بود که از ۰ تا ۴ برچسب‌گذاری شده بودند و هر برچسب با یک کلاس مرتبط است. بخشی از نمونه‌های باقی‌مانده برای آزمایش عملکرد شبکه استفاده شد، در حالی که سایر نمونه‌ها برای این تحلیل نامربوط در نظر گرفته شدند.

هدف این مطالعه شناسایی تاثیرگذارترین ژن‌ها در طبقه‌بندی انواع سرطان با استفاده از روش SHAP برای بهبود تفسیرپذیری مدل‌های یادگیری ماشینی است. در حالی که اکثر مطالعات در مورد طبقه‌بندی سرطان با استفاده از داده‌های بیان ژن بر به حداکثر رساندن دقت پیش‌بینی تمرکز می‌کنند، رویکرد اتخاذ شده بر استفاده از تکنیک‌های قابل توضیح که عوامل مؤثر در تصمیم‌گیری مدل را شناسایی می‌کنند، تأکید می‌کند. این استراتژی مکانیسم‌های بیولوژیکی زیربنایی را تجزیه و تحلیل می‌کند و در عین حال سازگاری مدل را حفظ می‌کند و از تکنیک‌هایی مانند نمونه‌برداری کم برای رسیدگی به عدم تعادل طبقاتی استفاده می‌کند.

۳٫۳٫ الگوریتم های یادگیری ماشین

یادگیری ماشینی (ML) زیرمجموعه‌ای از هوش مصنوعی (AI) است که بر توسعه الگوریتم‌های مبتنی بر مدل‌های آماری آموزش‌دیده بر روی مجموعه داده‌های ارائه‌شده به مدل تمرکز دارد. انواع مختلفی از الگوریتم‌های ML وجود دارد که عمدتاً به چهار دسته تقسیم می‌شوند که بر اساس الگوی یادگیری متفاوت هستند: یادگیری تحت نظارت، یادگیری بدون نظارت، یادگیری نیمه نظارتی و یادگیری تقویتی. [۳۱,۳۲,۳۳,۳۴]. مدل‌های رگرسیون و طبقه‌بندی به عنوان تکنیک‌های یادگیری تحت نظارت در نظر گرفته می‌شوند. الگوریتم هایی مانند درخت تصمیم، جنگل تصادفی، ماشین بردار پشتیبان و رگرسیون لجستیک به طور گسترده در مسائل طبقه بندی استفاده می شوند.

۳٫۳٫۱٫ درختان تصمیم

درختان تصمیم یک راه متداول برای نشان دادن فرآیند تصمیم گیری از طریق ساختار شاخه ای شبیه به درخت هستند که تفکر انسان را هنگام تصمیم گیری شبیه سازی می کند. [۳۵]. آنها از گره های مختلفی تشکیل شده اند که توسط گره ریشه آغاز شده اند که به عنوان گره تصمیم نیز شناخته می شود. گره ریشه به شاخه‌ها تقسیم می‌شود و گره‌های دیگر و در نتیجه خروجی‌های جدیدی تولید می‌کند که توسط تابع هزینه پردازش می‌شوند. ویژگی با بهترین هزینه، گره ریشه آن شاخه در نظر گرفته می شود و تا رسیدن به شاخه نهایی که به عنوان برگ نیز شناخته می شود، تحت تقسیمات بعدی قرار می گیرد که نشان دهنده نتیجه نهایی الگوریتم است.

مفاهیم آنتروپی و بهره به طور گسترده ای برای اندازه گیری سطح تصادفی یک ویژگی استفاده می شود. ابتدا آنتروپی کلاس و آنتروپی هر صفت با استفاده از معادلات (۱) و (۲) محاسبه می شود. سپس، به دست آوردن اطلاعات برای همه ویژگی ها را می توان با بیان کرد

$E n تی r O ص y (اس) = \sum_{من = ۱}^{n} - ص_{من} ل O g_{۲} ص_{من}$

(۱)

کجا $ص_{من}$ مربوط به احتمالات هر کلاس در مجموعه S، متعلق به کلاس است منو n با تعداد کلاس های موجود مطابقت دارد. آنتروپی هر ویژگی در یک شاخه مربوطه به صورت زیر محاسبه می شود:

$E (الف) = \sum_{جی = ۱}^{n} \frac{| {اس}_{x} |}{| اس |} * E n تی r O ص y ({اس}_{x})$

(۲)

کجا ${اس}_{x}$ مربوط به مجموعه کودکان حاضر در شاخه است. بنابراین معادله بهره به صورت زیر بیان می شود:

$جی (اس ، الف) = E n تی r O ص y (اس) - E (الف) .$

(۳)

۳٫۳٫۲٫ جنگل تصادفی

الگوریتم جنگل تصادفی از نظر محاسباتی برای کارهای رگرسیون و طبقه‌بندی چند کلاسه مؤثر است. در ابتدا توسط بریمن اجرا شد [۳۶] و بر اساس مفهوم یادگیری گروهی، با استفاده از مجموعه ای از درختان تصمیم گیری تصادفی در فرآیند یادگیری است [۳۶,۳۷]. آموزش با انتخاب، از طریق bootstrapping، یک زیرمجموعه تصادفی متفاوت از اندازه آغاز می شود ن از داده های ورودی برای هر درخت هرس نشده، به صورت بیان شده است

$د = [(x_{۱} ، y_{۱}) ، \dots ، (x_{ن} ، y_{ن})]$

(۴)

که در آن بردار هر ویژگی $x_{من} = {(x_{من ، ۱} ، \dots ، x_{من ، م})}^{تی}$ را نشان می دهد م پیش بینی کننده ها، در حالی که $y_{من}$ با پاسخ مورد انتظار همراه است.

در مرحله بعد، تقسیم گره ها در هر درخت جداگانه با یافتن بهترین تقسیمات تعیین می شود متر مرتبط با هر گره، جایی که متر یک زیرمجموعه پیش‌بینی‌کننده به‌طور تصادفی انتخاب شده از کل مجموعه اندازه پیش‌بینی‌کننده موجود است مکجا متر“م. در نتیجه درخت های تصمیم در مدل شرایط متفاوتی برای گره های خود خواهند داشت و در نتیجه ساختارهای متفاوتی ایجاد می شود [۳۶,۳۸,۳۹]. در نهایت، با جمع‌آوری نتایج حاصل از این درخت‌های تصمیم چندگانه، با استفاده از اکثریت آرا برای طبقه‌بندی و محاسبه میانگین‌های نتایج فردی برای رگرسیون، پیش‌بینی انجام می‌شود. [۴۰].

۳٫۳٫۳٫ افزایش گرادیان شدید – XGBoost

تکنیک‌های تقویتی چندین تکنیک یادگیری ساده را برای ایجاد یک مدل قوی‌تر ترکیب می‌کنند. هر طبقه‌بندی ضعیف تلاش می‌کند تا طبقه‌بندی نمونه‌هایی را که توسط طبقه‌بندی‌کننده ضعیف قبلی به اشتباه طبقه‌بندی شده‌اند، بهبود بخشد، با هدف افزایش دقت پیش‌بینی مدل در مقایسه با یک مدل یادگیری منفرد. چندین الگوریتم یادگیری ماشین مبتنی بر این تکنیک هستند، از جمله AdaBoost، تقویت گرادیان، و XGBoost، با تکنیک های درخت تصمیم در بسیاری از این چارچوب ها گنجانده شده است.

الگوریتم XGBoost تکنیک تقویت گرادیان را همراه با ویژگی‌های دیگری با هدف بهبود خود الگوریتم، از جمله منابع محاسباتی مرتبط با سخت‌افزار و مفهوم منظم‌سازی، ترکیب می‌کند. XGBoost به دنبال بهینه سازی تابع هزینه از دست دادن با به حداقل رساندن گرادیان آن در هر تکرار است تا بهترین درخت را با کمترین خطای ممکن به دست آورد. تابع هزینه از دست دادن به صورت بیان می شود

$L = \sum_{من = ۱}^{ن} L (y_{من} ، y)) + \sum_{ک = ۱}^{ک} اوه (f_{ک})$

(۵)

کجا $اوه (f) = ج تی + \frac{۱}{۲} ل \sum_{جی = ۱}^{تی} w^{۲}$ با عبارت قاعده مند شدن تابع هدف مطابقت دارد Lکه پیچیدگی مدل را اندازه گیری می کند. در این معادله، T تعداد برگ‌های درختان را نشان می‌دهد و w نشان‌دهنده امتیاز خروجی برگ‌ها، کنترل حداقل بهره لازم برای تقسیم یک گره داخلی است. [۴۱,۴۲].

۳٫۳٫۴٫ بیز ساده – NB

Naive Bayes یک طبقه بندی کننده احتمالی ساده و در عین حال موثر است که به طور گسترده در کاربردهایی مانند طبقه بندی متن، داده کاوی و مراقبت های بهداشتی استفاده می شود. [۴۳,۴۴,۴۵]. الگوریتم بر اساس قضیه بیز است که احتمال یک نمونه را محاسبه می کند

X

متعلق به یک طبقه خاص

ج_{من}

با فرض اینکه همه صفات (یا ویژگی ها) مستقل از یکدیگر هستند، مقدمه ای به عنوان فرض “ساده لوحانه” استقلال شناخته می شود.

تصمیم طبقه بندی کننده بر اساس مقایسه احتمالات شرطی طبقات است که در زیر نشان داده شده است. اگر

$پ (ج_{۱} | X) > پ (ج_{۲} | X) ،$

(۶)

سپس نمونه $X$ به عنوان متعلق به کلاس طبقه بندی می شود $ج_{۱}$ . در غیر این صورت، اگر

$پ (ج_{۲} | X) > پ (ج_{۱} | X) ،$

(۷)

نمونه به عنوان متعلق به کلاس طبقه بندی می شود $ج_{۲}$ . به طور کلی، $X$ به کلاسی اختصاص داده می شود که احتمال پسین را به حداکثر می رساند $پ (ج_{من} | X)$ . با توجه به قضیه بیز، احتمال پسین $پ (ج_{من} | X)$ توسط

$پ (ج_{من} | X) = \frac{پ (X | ج_{من}) پ (ج_{من})}{پ (X)} ،$

(۸)

کجا $پ (X | ج_{من})$ نشان دهنده احتمال مشاهده نمونه است $X$ با توجه به اینکه متعلق به کلاس است $ج_{من}$ و $پ (ج_{من})$ احتمال قبلی کلاس است $ج_{من}$ . چون ساده لوح بیز استقلال صفات، احتمال مشترک را فرض می کند $پ (X | ج_{من})$ را می توان به عنوان حاصل ضرب احتمالات فردی هر ویژگی تجزیه کرد، یعنی

$پ (X | ج_{من}) = پ (X_{۱} | ج_{من}) پ (X_{۲} | ج_{من}) \dots پ (X_{n} | ج_{من}) ،$

(۹)

کجا $X_{۱} ، X_{۲} ، \dots ، X_{n}$ از ویژگی های نمونه می باشد $X$ . این ساده سازی به Naive Bayes اجازه می دهد تا از نظر محاسباتی کارآمد باشد و آن را برای مسائل طبقه بندی در مقیاس بزرگ مناسب می کند.

این فرض محاسبه را ساده می‌کند، زیرا به این معنی است که می‌توانیم هر ویژگی را هنگام تخمین این احتمالات مستقل در نظر بگیریم:

$پ (ج_{من} | X) = \prod_{جی = ۱}^{د} پ (x_{جی} | ج_{من})$

(۱۰)

جایی که احتمالات $پ (ج_{من})$ ، $پ (x_{۱} | ج_{من})$ … $پ (x_{د} | ج_{من})$ را می توان از داده های ورودی در طول آموزش محاسبه کرد [۴۴]. انواع مختلفی از الگوریتم های Naive Bayes وجود دارد، از جمله مدل گاوسی، که معمولاً برای داده های پیوسته استفاده می شود که در آن هر کلاس از توزیع احتمال گاوسی پیروی می کند. [۴۵]. از سوی دیگر، طبقه‌بندی‌کننده برنولی نایو بیز برای موارد باینری ایده‌آل است، زیرا الگوریتم فرض می‌کند که مشخصه رخ می‌دهد یا رخ نمی‌دهد، به این معنی که داده‌ها گسسته هستند و از توزیع برنولی پیروی می‌کنند. [۴۶].

۳٫۳٫۵٫ هوش مصنوعی قابل توضیح

بیشتر مدل‌های هوش مصنوعی، از جمله یادگیری عمیق، به دلیل چالش در درک فرآیندهای تصمیم‌گیری، می‌توانند به عنوان جعبه‌های سیاه دیده شوند. این عدم شفافیت می‌تواند در بسیاری از زمینه‌ها مشکل ایجاد کند که درک اینکه مدل‌های هوش مصنوعی چگونه تصمیم‌گیری می‌کنند بسیار مهم است.

در این زمینه، توضیح‌پذیری یک مدل، قابلیت اطمینان، شفافیت و تفسیرپذیری نتایج مدل هوش مصنوعی را افزایش می‌دهد و به طور بالقوه کاهش هزینه‌های محاسباتی مرتبط با بسیاری از این تکنیک‌ها را در صورت اعمال بر مجموعه‌های داده بزرگ ممکن می‌سازد. [۴۲]. هوش مصنوعی قابل توضیح (XAI) یک زمینه نوظهور در هوش مصنوعی است که می‌تواند تشخیص دهد که کدام ویژگی‌ها در فرآیندهای تصمیم‌گیری الگوریتم‌های هوش مصنوعی بدون به خطر انداختن عملکرد آنها مرتبط هستند.

بر اساس تئوری بازی، توضیحات افزودنی Shapley (SHAP) روشی است که می‌تواند مرتبط‌ترین ویژگی‌ها را در نتایج پیش‌بینی مدل‌های یادگیری ماشین بر اساس مقادیر SHAP تفسیر کند. [۱۸]. مقادیر SHAP را می توان برای توضیح خروجی هر مدل یادگیری ماشینی، از جمله شبکه های عصبی، درخت های تصمیم گیری و مدل های خطی، با محاسبه اهمیت نسبی هر ویژگی در پیش بینی مدل به کار برد. [۴۷,۴۸]. این ما را قادر می‌سازد بفهمیم که چگونه مدل پیش‌بینی می‌کند و کدام ویژگی‌های ورودی بیشترین تأثیر را بر خروجی دارند، که به صورت ریاضی به شرح زیر است.

$f (x) = g (X^{“}) = ϕ_{۰} + \sum_{من = ۱}^{م} ϕ_{من} x_{من}^{“}$

(۱۱)

کجا م تعداد ویژگی های ورودی را نشان می دهد، $ϕ_{۰}$ نشان دهنده یک ثابت زمانی است که همه ورودی ها وجود ندارند، و $x_{من}^{“}$ نشان دهنده ویژگی مشاهده شده است من. مقدار SHAP برای هر ویژگی، $ϕ_{من}$ توسط لوندبرگ پیشنهاد و شرح داده شد [۴۹].

۳٫۴٫ آموزش مدل

برای آموزش مدل، داده ها به طور تصادفی تقسیم و به مجموعه های آموزشی و اعتبار سنجی در نسبت ۸۰% به ۲۰% تقسیم شدند. برای ارزیابی و اعتبارسنجی عملکرد مدل‌ها از اعتبارسنجی متقابل استفاده شد. ارزش از ک = ۱۰ از طریق یک فرآیند جستجو انتخاب شد که تعداد بهینه چین‌ها را بر اساس بهترین عملکرد مدل‌ها شناسایی کرد.

فراپارامترها نقش مهمی در عملکرد، تعمیم و تفسیر مدل‌های هوش مصنوعی دارند. یک فرآیند تنظیم فراپارامتر کامل برای تعیین بهترین پارامترهای آموزشی انجام شد.

بنابراین، تنظیمات دستی برای پارامترهای مدل کلیدی بر اساس منحنی های آموزشی مدل انجام شد. برای الگوریتم DT، عمق درخت ۳ برای جلوگیری از درختان عمیق اتخاذ شد. حداکثر تعداد برگ ۵ و معیار انتخاب گره آنتروپی بود. در مورد مدل RF، یکی از پارامترهای حیاتی که باید تنظیم شود، تعداد درختان منفرد و حداقل تعداد نمونه مورد نیاز برای تقسیم یک گره داخلی است. بنابراین مقادیر انتخاب شده به ترتیب ۱۰۰ و ۲ به همراه پارامتر عمق حداکثر ۳ بودند. برای انتخاب گره از تابع تلفات لگاریتمی استفاده شد. [۵۰].

در XGB، تابع softmax برای بهینه سازی احتمالات کلاس استفاده شد، زیرا این یک مسئله چند کلاسه است. حداکثر عمق درختان مدل های پایه روی ۳ تنظیم شد [۵۱]. همانطور که در شکل ۳ نشان داده شده است، منحنی های یادگیری برای هر مدل برای مشاهده رفتارهای آنها در طول فرآیند آموزش با افزایش حجم نمونه ایجاد شد.

امتیاز آموزشی در تمام مجموعه های آموزشی برای همه مدل ها به طور مداوم بالا باقی ماند. با این حال، همانطور که در شکل ۳ مشاهده شد، با افزایش اندازه داده های آموزشی، امتیاز اعتبار سنجی افزایش یافت. منحنی های یادگیری یک شکاف اولیه بین امتیازهای آموزشی و اعتبار سنجی را نشان می دهند، به ویژه در منحنی XGBoost (شکل ۳c) و منحنی درخت تصمیم (شکل ۳a)، که در آن تفاوت قابل توجهی در زمانی که کمتر از ۶۰۰ نمونه استفاده شد مشهود است. این شکاف نشان دهنده بیش از حد مناسب شدن بالقوه در مراحل اولیه تمرین است. با این وجود، با افزایش تعداد نمونه‌ها و تکرارهای بیشتر مدل‌ها، عملکرد اعتبار سنجی بهبود یافت و شکاف بین نمرات آموزش و اعتبار سنجی کاهش یافت، به ویژه زمانی که بیش از ۱۰۰۰ نمونه وجود داشت. در مقابل، مدل جنگل تصادفی (شکل ۳b) رابطه پایدار تری بین دقت آموزش و اعتبارسنجی در طول فرآیند، با اختلافات کوچکتر، حفظ کرد، که نشان دهنده خطر کمتری برای اضافه کردن از همان ابتدا است.

ارقام هیچ شواهدی از برازش بیش از حد در مدل های تحلیل شده نشان نمی دهند. بلکه موضوعی مربوط به مقیاس منحنی های آموزشی است. در شکل ۳a، محور y از ۰٫۹۴ تا ۱٫۰۰ مقیاس بندی شده است، که ممکن است این تصور را از شکاف مهم تری بین منحنی های آموزشی و اعتبار سنجی ایجاد کند. با این حال، می توان مشاهده کرد که دقت اعتبار سنجی نزدیک به دقت آموزشی باقی می ماند که نشان دهنده قابلیت تعمیم خوب مدل است. در شکل ۳b,c، مقیاس محور y مشابه است، اما پراکندگی بین منحنی ها، به خصوص برای مجموعه های نمونه بزرگتر، کوچکتر است. این نشان می‌دهد که با افزایش تعداد نمونه‌ها، تفاوت بین منحنی‌های آموزش و اعتبارسنجی برای همه مدل‌ها کاهش می‌یابد. این نشان می‌دهد که مدل‌ها به خوبی بدون نشانه‌هایی از برازش زیاد تعمیم می‌یابند.

همه منحنی ها نشان دهنده یک مبادله خوب بین سوگیری و واریانس هستند و نشان می دهند که اندازه نمونه مورد استفاده برای آموزش مدل کافی بوده است، زیرا مدل ها با تعداد قابل توجهی از نمونه ها تثبیت شده اند. تفاوت کاهش یافته بین منحنی های آموزش و اعتبار سنجی عدم وجود بیش از حد برازش را تأیید می کند، که نشان می دهد مدل می تواند به خوبی تعمیم یابد. این یافته ها با نتایج ارائه شده در زیر مطابقت دارند (جدول ۱ را ببینید).

۴٫ نتایج

۴٫۱٫ آموزش مدل‌های یادگیری ماشینی برای پیش‌بینی انواع سرطان با استفاده از داده‌های RNA-Seq بر اساس فهرست کامل ژن

نتایج اولیه این مطالعه با استفاده از یک لیست جامع از ژن ها، شامل ۳۰۵۷ نمونه و ۲۱۴۸۰ نوع ژن تولید شد. دقت، دقت، حساسیت، و معیارهای امتیاز F1 برای ارزیابی عملکرد مدل‌های اعمال شده برای طبقه‌بندی پنج نوع تومور عودکننده در زنان با استفاده از فهرست کامل ژن مورد استفاده قرار گرفت. در نتیجه، معیارهای عملکرد نشان‌دهنده مقادیر متوسط به‌دست‌آمده در همه تاها هستند، همانطور که در ستون «ویژگی‌های اصلی» در جدول ۱ نشان داده شده است.

جنگل تصادفی بهترین عملکرد را با دقت بدست آورد $۹۹٫۴۰ %$ و دقتی از $۹۹٫۴۳ %$ . در جایگاه دوم XGBoost قرار گرفت که دقت، دقت، حساسیت و مقادیر امتیاز F1 را نیز به نمایش گذاشت. $۹۹٫۰۰ %$ . الگوریتم درخت تصمیم نیز عملکرد خوبی را با مقادیر بیش از حد نشان داد $۹۷ %$ در تمام معیارهای پذیرفته شده شایان ذکر است که گروه های تجزیه و تحلیل شده متعلق به انواع تومورهای بسیار ناهمگن هستند که ممکن است عملکرد بالای مدل های به کار گرفته شده از جمله DTs را توضیح دهد.

انحراف معیار می تواند واریانس مدل ها را در طول آموزش نشان دهد. برای اعتبارسنجی متقاطع ۱۰ برابری، انحراف استاندارد برای مدل DT از نظر دقت $۰٫۰۰۸۹$ ; برای RF بود $۰٫۰۰۳۷۰۹$ ; و برای XGB، این بود $۰٫۰۰۳۵۶$ . بنابراین، انحراف استاندارد کمتر به معنای واریانس کمتر است.

۴٫۲٫ انتخاب ویژگی با استفاده از ارزیابی عملکرد مدل SHAP و ML

متعاقباً، روش SHAP در سه مدل برای شناسایی تأثیرگذارترین ویژگی‌ها در فرآیندهای تصمیم‌گیری آنها اعمال شد. این سه مدل (RF، DT و XGB) برای برنامه SHAP انتخاب شدند زیرا با توجه به حجم زیاد داده های ورودی اصلی، مناسب تر و کارآمدتر هستند. به‌علاوه، توضیح مدل‌های مبتنی بر درخت آسان‌تر است، زیرا ساختار سلسله مراتبی آن‌ها تفسیر سهم هر ویژگی را تسهیل می‌کند و SHAP را به ابزاری ایده‌آل برای شناسایی تأثیر هر ژن در طبقه‌بندی سرطان و کاهش تعداد متغیرها (ویژگی‌ها) تبدیل می‌کند. یک مجموعه داده از طریق انتخاب ویژگی، به تعیین دقیق ترین ژن ها کمک می کند.

در این زمینه، پس از آموزش طبقه‌بندی‌کننده‌ها، تکنیک SHAP برای محاسبه مقادیر Shapley بر روی داده‌های آموزشی اعمال شد. فرآیند انتخاب ویژگی مبتنی بر SHAP، ژن‌ها را بر اساس مقادیر Shapley رتبه‌بندی می‌کند و آن‌هایی را که بیشترین اهمیت را برای پیش‌بینی مدل دارند حفظ می‌کند. در پایان فرآیند انتخاب، در مجموع ۲۲۳ ژن به دست آمد که ۱۲۲ ژن از مدل RF، ۱۱ ژن از مدل DT و ۹۰ ژن از XGB استخراج شد. در این میان، ۱۹۴ ژن منحصر به فرد بودند. تعداد نهایی ژن های استخراج شده کمتر از ۱% (۲۱۴۸۱) از مجموعه ژن اصلی را نشان می دهد. بحث در مورد ژن های کلیدی شناسایی شده توسط این تکنیک در بخش ۴٫۳ ارائه شده است.

همانطور که در شکل ۱ نشان داده شده است، مرحله نهایی تجزیه و تحلیل ما شامل آموزش مجدد پنج مدل انتخاب شده برای این مطالعه تنها با استفاده از لیست ژن کاهش یافته و منحصر به فرد انتخاب شده توسط SHAP بود. در جدول ۱، دقت و مقادیر دقت همه مدل‌ها را در هنگام استفاده از ژن‌های انتخاب‌شده توسط SHAP برای مشاهده اینکه آیا این فهرست کاهش‌یافته می‌تواند عملکرد مدل مشابه یا بهبودیافته‌ای را ارائه دهد، برجسته می‌کنیم، و نشان می‌دهد که SHAP می‌تواند به طور موثر به عنوان یک تکنیک انتخاب ویژگی به کار رود. .

مدل‌هایی که ژن‌های SHAP را از آنها استخراج کردیم، افزایش جزئی در دقت و مقادیر دقت آنها (<1%) نشان دادند. مدل‌های دیگری که تحت فرآیند انتخاب ویژگی با استفاده از مقادیر SHAP قرار نگرفتند نیز بهبودهایی را در معیارهای خود تجربه کردند. دقت مدل NB برنولی از افزایش یافت $۹۷٫۹۴ %$ به $۹۸٫۹۷ %$ و دقت از بهبود یافته است $۹۷٫۱۴ %$ به $۹۸٫۹۶ %$ .

اگرچه SHAP مستقیماً برای مدل‌های ساده بیز (Gaussian NB و Bernoulli NB) اعمال نشد، مجموعه ژن کاهش‌یافته و منحصربه‌فرد انتخاب شده توسط SHAP در همه مدل‌ها مؤثر بود. قابل ذکر است، حتی برای مدل‌های Naive Bayes، که با مدل‌های اصلی SHAP کاربردی متفاوت هستند، ویژگی‌های انتخابی طبقه‌بندی دقیقی را در بین کلاس‌های تومور ممکن می‌سازد، و عملکرد قوی را نشان می‌دهد. این نتایج نشان می دهد که ژن های انتخاب شده توسط SHAP به اندازه کافی جامع هستند تا از طبقه بندی دقیق با هزینه محاسباتی کمتر اطمینان حاصل کنند. این SHAP را به عنوان یک تکنیک انتخاب ویژگی قوی تثبیت می کند، زیرا ژن هایی که شناسایی می کند حتی در مدل های احتمالی عملکرد خوبی دارند.

۴٫۳٫ ژن های SHAP

شکل ۴، شکل ۵ و شکل ۶ سهم هر ژن را هنگام اعمال روش SHAP در پیش‌بینی مدل‌های DT، RF و XGB نشان می‌دهد و آنها را به ترتیب تأثیر نزولی رتبه‌بندی می‌کند. نمودار خلاصه تأثیرگذارترین ویژگی ها را بر اساس مقادیر متوسط SHAP برجسته می کند. در زمینه یک کار طبقه‌بندی چند طبقه، نمودار خلاصه ویژگی‌ها را بر اساس سهم کلی آنها در همه کلاس‌ها با استفاده از رنگ‌های خاصی که هر کلاس را نشان می‌دهند، رتبه‌بندی می‌کند.

می توان مشاهده کرد که الگوی مشارکت ژن SHAP در بین سه کلاس مدل (DT، RF، و XGB) متفاوت است. در مدل DT، تنها ۱۱ ژن SHAP در نظر گرفته شد (شکل ۴ را ببینید). از بین این ژن‌ها، تنها PAX8 در طبقه‌بندی همه کلاس‌ها نقش داشته و آن را برای این مدل مناسب‌ترین است. ۱۰ ژن باقیمانده تنها به چند کلاس کمک کردند که در میان آنها مقادیر نامتعادلی وجود داشت.

از سوی دیگر، مدل RF منجر به ۱۲۲ ژن SHAP شد (شکل ۵ را ببینید). ۲۰ ژن برتر در این مدل به هر پنج کلاس ارزیابی شده کمک کردند. اگرچه مشارکت‌ها در همه طبقات متعادل نبودند، اما همچنان مرتبط تلقی می‌شدند. شایان ذکر است که برخی از ژن ها سهم قابل توجهی در طبقات خاص داشتند که اغلب به هزینه سایرین انجام می شد. به عنوان مثال، ژن‌های EMX2 و TSHR به ترتیب سهم بیشتری در کلاس‌های OV و THCA داشتند.

مدل XGB، به نوبه خود، ژن های SHAP را نشان داد که عمدتاً به یک کلاس کمک می کردند (شکل ۶ را ببینید). در میان ۲۰ ژن برتر با بیشترین تأثیر بر طبقه بندی، ژن TG (تیروگلوبولین) برجسته است که در درجه اول به کلاس THCA کمک می کند و آن را تنها نماینده این نوع تومور می کند. برای کلاس COAD، ژن های شناسایی شده شامل CDX1 (هوموباکس ۱ نوع دمی)، FABP1 (پروتئین پیوند دهنده اسیدهای چرب ۱) و GPA33 (گلیکوپروتئین A33) بود. در کلاس OV، ژن‌های مربوطه عبارت بودند از SOX17 (فاکتور رونویسی جعبه SRY 17)، MEIS1 (MEIS homeobox 1)، EMX2 (همیوباکس spiracles خالی ۲)، و RPL10AP6 (پروتئین ریبوزومی L10a شبه ۶). مشاهدات برای کلاس BRCA ژن هایی مانند HKDC1 (شامل دامنه هگزوکیناز ۱)، LMX1B (فاکتور رونویسی هومئوباکس LIM 1 بتا)، GATA3 (پروتئین اتصال GATA 3)، TRPS1 (سرکوب کننده رونویسی GATA binding 1) و FOXA2 (forkhead) را نشان داد. ) A2). برای کلاس LUAD، ژن های شناسایی شده شامل SFTPA2 (پروتئین سورفکتانت A2)، NAPSA (نپسین A آسپارتیک پپتیداز)، TBX4 (فاکتور رونویسی جعبه T 4)، SFTPA1 (پروتئین سورفکتانت A1)، HAND2 (مشتقات قلب و تاج عصبی بیان شده ۲) بودند. )، TFPI (بازدارنده مسیر فاکتور بافتی)، و FGG (زنجیره گامای فیبرینوژن). به طور خلاصه، نتایج نشان می‌دهد که مدل‌های DT، RF و XGB الگوهای متمایز مشارکت ژن SHAP را در طبقه‌بندی نمونه نشان می‌دهند.

۵٫ بحث

در این مطالعه از روش SHAP برای انتخاب ویژگی استفاده شد. مقادیر SHAP اهمیت هر ویژگی را در مدل منعکس می کند و طبقه بندی ویژگی ها را بر اساس ارتباط آنها امکان پذیر می کند. رویکرد مبتنی بر SHAP برای انتخاب ویژگی ثابت کرده است که نسبت به سایر استراتژی‌های کاهش ابعاد برتری دارد و در عین حال تفسیرپذیری نتایج به‌دست‌آمده را نیز افزایش می‌دهد. [۵۲].

به طور کلی، روش انتخاب ویژگی مبتنی بر ارزش SHAP در کاهش ویژگی موفق بوده و منجر به بهبود معیارهای عملکرد و تعمیم‌پذیری به مدل‌های خارجی می‌شود. [۵۳,۵۴]. سانتوس و همکاران از تکنیک SHAP برای انتخاب ویژگی هایی برای تشخیص، طبقه بندی و برآورد شدت با استفاده از مدل SVM استفاده کرد. مشابه با رویکرد کاهش یافته فهرست ژن در طبقه بندی سرطان، SHAP مجموعه ای کوچکتر و متمرکزتر از ویژگی ها را تولید کرد که منجر به بهبود دقت می شود. [۵۳]. سادایی و همکاران یک ابزار انتخاب ویژگی مبتنی بر SHAP را معرفی کرد که برای عملکرد بهتر و تفسیرپذیری مدل‌ها بر اساس داده‌های حوزه‌های مختلف مراقبت‌های بهداشتی طراحی شده است. [۵۴]. نتایج ما را می توان تا حدی با مطالعه مهند محمد و همکارانش مقایسه کرد [۵۵]که از یک رویکرد یادگیری عمیق از طریق انباشتن مجموعه ها برای طبقه بندی همان پنج نوع تومور استفاده می کند. در آن کار، نویسندگان از LASSO به عنوان تکنیک انتخاب ویژگی استفاده کردند و تنها ۱۷۳ ژن را انتخاب کردند. این منجر به بهترین نتایج متوسط، با دقت

۹۹٫۴۵ %

هنوز کمی پایین تر از

۹۹٫۴۸ %

بدون مرحله LASSO به دست آمد. در مقایسه با مطالعه ما، انتخاب ویژگی با استفاده از SHAP تأثیر مهم تری بر دقت داشت و منجر به بهبود کلی در عملکرد مدل شد. به عنوان مثال، مدل NB گاوسی به دقتی دست یافت

۹۹٫۶۳ %

تنها با استفاده از ژن های انتخاب شده توسط SHAP.

مزیت اصلی استفاده از تکنیک XAI در داده‌های بیولوژیکی و بالینی، توانایی تفسیر نتایج و ارتباط آنها با پدیده‌های طبقه‌بندی‌شده توسط مدل است. یک مطالعه با پایگاه داده گسترده RNA-seq شامل ۴۷ بافت نشان داد که ژن‌های انتخاب شده بر اساس مقادیر SHAP برای توضیح یک شبکه عصبی کانولوشن، فرآیندهای بیولوژیکی مورد انتظار مربوط به تمایز و عملکرد این بافت‌ها را منعکس می‌کنند. [۲۸].

به همان اندازه مهم است که تأکید شود ژن‌های شناسایی‌شده با روش SHAP ممکن است لزوماً ارتباط مستقیمی با ژن‌های بیان شده متفاوت نشان ندهند. با این حال، آنها هنوز هم می توانند از نزدیک با پدیده مورد مطالعه مرتبط باشند. این نشان می‌دهد که این روش می‌تواند بینش‌های جدیدی را در مورد داده‌های رونویسی آشکار کند [۵۶].

هنگام استفاده از تکنیک SHAP برای مدل‌های یادگیری ماشین، نشان دادیم که ژن‌ها در هر مدل آزمایش شده به طور متفاوتی در پیش‌بینی‌ها نقش دارند. بگذارید روی ژن های انتخاب شده توسط SHAP برای مدل XGBoost تمرکز کنیم. مقادیر SHAP اختصاص داده شده به این ژن ها در درجه اول با یک کلاس تومور منفرد مرتبط است که نشان دهنده رابطه بین ژن و نوع خاصی از تومور است. ما ژن های کلیدی انتخاب شده توسط SHAP را در مدل XGB بررسی خواهیم کرد و تعیین خواهیم کرد که آیا آنها با کلاس تومور نشان داده شده با مقدار SHAP ارتباط دارند یا خیر.

ژن TG پروتئین پیش ساز هورمون های تیروئید را رمزگذاری می کند که برای رشد، تکامل و تنظیم متابولیک ضروری هستند. [۵۷]. TG فراوان ترین محصول ژنی است که مختص تیروئید است [۵۸].

ژن CDX1 نقش مهمی در توسعه اپیتلیوم روده ایفا می کند [۵۹]. ژن FABP1 پروتئینی را کد می کند که نقش اساسی در متابولیسم اسیدهای چرب دارد و به طور خاص در بافت های مختلف بیان می شود. مشاهده شده است که تقریبا

۷۰ %

موارد COAD – آدنوکارسینوم کولون – نرخ های مثبت بیان FABP1 را نشان می دهند [۶۰]. ژن GPA33 عضوی از ابرخانواده ایمونوگلوبولین ها است و در آن وجود دارد

۹۵ %

تومورهای روده بزرگ [۶۱]. بنابراین، ادبیات از نتیجه SHAP پشتیبانی می کند که این سه ژن را با کلاس COAD مرتبط می کند.

ژن SOX17 یک تنظیم کننده اصلی در سرطان تخمدان است [۶۲]. ژن MEIS1 در زمینه های مختلف از جمله نقش آن در آپوپتوز سلول های گرانولوزای تخمدان مورد مطالعه قرار گرفته است. [۶۳]. ژن EMX2 یک عامل رونویسی اساسی در تشکیل سیستم ادراری تناسلی است و به شدت در تخمدان بیان می شود. [۶۴].

ژن HKDC1 بیش از حد بیان می شود و باعث تکثیر سلول های سرطان سینه می شود [۶۵]. ژن LMX1B که یک فاکتور رونویسی را کد می کند، یک علامت متیلاسیون خاص برای بافت پستان نشان می دهد. [۶۶]. علاوه بر این، این ژن به عنوان یک نشانگر زیستی قوی برای شناسایی و نظارت بر سرطان پستان موضعی شناسایی شده است. [۶۷]. ژن GATA3 به عنوان قوی‌ترین فاکتور رونویسی در سلول‌های اپیتلیال مجرای غده پستانی در نظر گرفته می‌شود و تقریباً در آن جهش یافته است.

۱۰ %

از موارد سرطان سینه [۶۸]. ژن TRPS1 یک نشانگر بسیار حساس و اختصاصی برای سرطان سینه است و بر خلاف GATA3، در زیرگروه سه گانه منفی نیز به شدت بیان می شود. [۶۹]. ژن FOXA2 در تکثیر و نگهداری سلول های بنیادی تومور، به ویژه در سرطان سینه سه گانه منفی نقش دارد. [۷۰].

ژن‌های SFTPA1 و SFTPA2 پروتئین‌های سورفکتانت را کد می‌کنند که برای عملکرد آلوئول‌های ریوی ضروری هستند. [۷۱]. NAPSA ژنی است که توسط پنوموسیت های نوع II و ماکروفاژهای آلوئولی بیان می شود و به عنوان یک نشانگر زیستی بالقوه برای آدنوکارسینوم ریه شناخته شده است. [۷۲]. ژن TBX4 یک فاکتور رونویسی است که در میان سایر سلول ها، فیبروبلاست های ریوی را تنظیم می کند. [۷۳]. اگرچه هیچ ادبیاتی وجود ندارد که مستقیماً ژن HAND2 را به ریه مرتبط کند، اما شایان ذکر است که همتای آنتی‌سنس آن (HAND2-AS1) نقش سرکوب‌کننده‌ای در سلول‌های سرطان ریه دارد. [۷۴]. ژن TFPI یک ضد انعقاد قوی را کد می کند که با ترومبوز ورید عمقی و متاستاز در سرطان ریه مرتبط است. [۷۵]. ژن دیگری که نقش اساسی در انعقاد خون دارد FGG است که به عنوان نشانگر زیستی پیش آگهی سرطان ریه توصیه شده است. [۷۶].

بر اساس بحث قبلی، ما یک رابطه بین ژن های انتخاب شده توسط SHAP و یک کلاس تومور خاص مشاهده کرده ایم. این رابطه با تجزیه و تحلیل زیست شناسی شناخته شده هر یک از ۲۰ ژن برتر انتخاب شده توسط SHAP در مدل XGBoost ایجاد شد (جدول ۲ را ببینید). تجزیه و تحلیل با استفاده از مقادیر SHAP برای شناسایی موثرترین ژن ها در طبقه بندی انواع سرطان، همانطور که در جدول ۲ ذکر شده است، امکان پذیر است. به عنوان مثال، TG یک نشانگر به خوبی تثبیت شده برای سرطان تیروئید (THCA) است. [۷۷,۷۸]در حالی که NAPSA به دلیل ارتباط آن با آدنوکارسینوم ریه (LUAD) شناخته شده است. [۷۹,۸۰]. به طور مشابه، SOX17 و FABP1 به ترتیب با سرطان تخمدان (OV) و آدنوکارسینوم کولون (COAD) مرتبط هستند. [۸۱,۸۲,۸۳,۸۴]. مقادیر SHAP بینش هایی را در مورد اینکه آیا بیان بالاتر این ژن ها به طور مثبت یا منفی با احتمال یک نوع سرطان خاص همبستگی دارد، ارائه می دهد، و یک لایه تفسیری معنی دار به ارتباط ژن-سرطان مشخص شده در جدول ۲ اضافه می کند.

تجزیه و تحلیل ژن های شناسایی شده توسط SHAP و ارائه شده در جدول ۲ ارتباط بیولوژیکی آنها را در مسیرهای سرطانی شناخته شده نشان می دهد و از اهمیت آنها فراتر از اهمیت آماری در مدل حمایت می کند. به عنوان مثال، ژن TG که به طور گسترده به عنوان یک نشانگر برای THCA شناخته می شود، برای تولید هورمون های تیروئید که نقش مهمی در تنظیم متابولیسم و رشد سلولی دارند، ضروری است، فرآیندهایی که اغلب در نئوپلاسم های تیروئید مختل می شوند. [۷۷,۷۸]. ژن NAPSA، مرتبط با LUAD، به طور مطمئنی به عنوان نشانگر زیستی برای تشخیص این نوع سرطان ریه از سایر نئوپلاسم ها استفاده می شود و در نتیجه پتانسیل تشخیصی آن را افزایش می دهد. [۷۹,۸۰].

علاوه بر این، ژن FABP1 که در متابولیسم اسیدهای چرب دخیل است، به شدت در بافت‌های کولون بیان می‌شود و اغلب در COAD یافت می‌شود، جایی که بیان بالا آن ممکن است نشان‌دهنده تغییرات متابولیکی مشترک این تومورها باشد. [۸۱,۸۲]. ژن SOX17 نقش مهمی در تنظیم رشد ایفا می کند و یک فاکتور اصلی بیان شده در OV است که بر تکثیر و تهاجم سلولی تأثیر می گذارد. [۸۳,۸۴]. این ارتباط نشان می‌دهد که ژن‌های برجسته‌شده از نظر آماری در مدل مرتبط هستند و اهمیت بیولوژیکی در مسیرها و فرآیندهای مرتبط با انواع سرطان خاص ثابت شده‌اند.

۶٫ نتیجه گیری

این مطالعه هوش مصنوعی قابل توضیح را برای داده‌های بیان ژن RNA-seq، با تمرکز بر پنج نوع تومور: BRCA، LUAD، THCA، OV، و COAD اعمال کرد. تکنیک SHAP در مدل‌های مختلف مبتنی بر درخت، از جمله درخت‌های تصمیم، جنگل تصادفی و XGBoost برای انجام انتخاب ویژگی استفاده شد. مدل‌های جدید که منحصراً با ژن‌های انتخاب‌شده توسط SHAP آموزش دیده‌اند، در مقایسه با مدل‌هایی که از همه ژن‌های موجود استفاده می‌کنند، سطح دقت خود را حفظ کردند. جالب اینجاست که حتی مدل‌های Gaussian Naive Bayes و Bernoulli Naive Bayes که تحت انتخاب ویژگی قرار نگرفتند، هنگام آموزش با ژن‌های انتخاب شده توسط SHAP از مدل‌های دیگر، عملکرد خوبی داشتند. این نشان می‌دهد که ویژگی‌های انتخاب‌شده به‌طور مؤثری بین کلاس‌ها، صرف‌نظر از مدل اولیه، متمایز می‌شوند. علاوه بر این، ما تفسیرپذیری نتایج SHAP را برای هر مدل ارزیابی کردیم. قابل‌توجه، ژن‌های انتخاب‌شده توسط SHAP از مدل XGBoost تنها با یکی از کلاس‌ها مرتبط بودند و تفسیر نتایج را ساده‌تر می‌کردند. استراتژی به کار گرفته شده امکان انتخاب مهم ترین ژن ها را بدون به خطر انداختن عملکرد مدل فراهم می کند، در حالی که شفافیت و توضیح کلی را نیز افزایش می دهد. به نظر می رسد استفاده از XGBoost در ترکیب با SHAP یک رویکرد امیدوارکننده برای شناسایی نشانگرهای زیستی در طبقه بندی های چند کلاسه باشد.

منبع: https://www.mdpi.com/2673-2688/6/1/2