این بخش نتایج همه طبقهبندیکنندهها را با جزئیات ارائه میکند و اثرات مختلف Unigram و TF-IDF را بر طبقهبندی متن برای هر مدل نشان میدهد. پس از پیش پردازش مجموعه داده و استخراج ویژگی ها، مجموعه داده به طبقه بندی کننده ها داده می شود تا مشخص شود که آیا یک توییت اسپم است یا خیر. بخش های زیر نتایج این دو آزمایش را خلاصه می کند.
۵٫۱٫ نتایج
مدلهای پیشنهادی شامل RF بهعنوان مدل یادگیری گروهی، LSTM بهعنوان مدل یادگیری عمیق، و SVM و NB بهعنوان مدلهای کلاسیک یادگیری ماشین، در زبان برنامهنویسی پایتون با استفاده از مجموعه دادههای فوقالذکر پیادهسازی شدهاند. این عمدتاً به این دلیل است که طبق ادبیات، اینها در مشکلات مشابهی رشد می کردند.
طبقه بندی کننده جنگل تصادفی اولین مدلی بود که آموزش دادیم. این الگوریتم مجموعهای از درختهای تصمیم را ایجاد کرد که هر کدام از آنها بر روی زیرمجموعهای متفاوت از دادهها با استفاده از انتخاب تصادفی ویژگیها آموزش داده شدند. هدف طبقهبندی جنگل تصادفی با ترکیب پیشبینیهای چند درخت، افزایش دقت و استحکام کلی مدل است. علاوه بر این، ما تنظیم هایپرپارامتر را برای بهینه سازی عملکرد مدل انجام دادیم. پس از ارزیابی، مدل به دقت ۹۶٫۵۷%، دقت ۹۵%، فراخوانی ۹۷٫۸۰% و امتیاز F1 96.38% دست یافت. این نتایج در مقایسه با مدل های مشابه در ادبیات، سازگار، قابل توجه و امیدوارکننده هستند.
به طور مشابه، پس از تنظیم فراپارامتر، مدل LSTM (آزمایش دوم) با ۶۴ نورون در لایه پنهان پیکربندی شد و برای ۳۰ دوره آموزش داده شد. این الگوریتم به دقت ۹۴٫۵۸ درصد، دقت ۹۱٫۲۵ درصد، فراخوانی ۹۷٫۲۸ درصد و امتیاز F1 94.16 درصد دست یافت. در حالی که این نتایج کمی کمتر از نتایج الگوریتم RF هستند، اما در مقایسه با مجموعه داده های مشابه در ادبیات، همچنان سازگار، قابل توجه و امیدوارکننده هستند. این عمدتا به دلیل قدرت طبقه بندی گروه است. الگوریتم RF از مدل LSTM تقریباً ۲٪ در دقت، ۳٫۷۵٪ در دقت، ۰٫۵۲٪ در یادآوری و ۲٫۲۲٪ در امتیاز F1 عملکرد بهتری دارد.
مشخص شد که الگوریتمهای کلاسیک ML SVM و NB عملکرد نسبتاً ضعیفتری در مقایسه با مدلهای RF و LSTM (آزمایش سوم) نشان دادند. الگوریتم SVM به ترتیب به دقت، دقت، یادآوری و امتیاز F1 82.07، ۷۴٫۹۸، ۸۶٫۲۷ درصد و ۸۰٫۲ درصد دست یافت. در همین حال، الگوریتم NB ضعیف ترین عملکرد را با دقت، دقت، یادآوری و امتیاز F1 به ترتیب ۶۶٫۴۱، ۶۷٫۳۱، ۶۵٫۸۶ درصد و ۶۶٫۳ درصد نشان داد. از نظر عملکرد، SVM با حواشی ۱۵٫۶۶%، ۷٫۶۷%، ۲۰٫۴۱% و ۱۳٫۹% از نظر دقت، دقت، یادآوری و امتیاز F1 بهتر از NB عمل کرد. از سوی دیگر، LSTM با دقت، دقت، یادآوری و امتیاز F1 به ترتیب ۱۲٫۵۱٪، ۱۶٫۲۷، ۱۱٫۰۱٪ و ۱۳٫۹۶٪ از SVM بهتر عمل کرد.
۵٫۳٫ بحث
این مطالعه مدلهای یادگیری ماشین کلاسیک و یادگیری عمیق را برای تشخیص هرزنامه توییت به زبان عربی پیشنهاد کرد. در این راستا چهار الگوریتم شامل SVM، NB، RF و LSTM مورد بررسی قرار گرفت. مقایسه ای بین چهار الگوریتم از نظر دقت، دقت، یادآوری و امتیاز F1 انجام شد. پس از آموزش مدل بر روی مجموعه داده استفاده شده، نتایج در بخش قبل ارائه و بررسی شد. با بررسی و تحلیل نتایج عملی مدل پیشنهادی، معیارهای متعددی برای مقایسه دو الگوریتم اتخاذ شد. مجموعه داده نه تنها به وجود URL های مشکوک بالقوه متکی است، بلکه در درجه اول به متن و معنی یا معنای آن متکی است، زیرا بهترین شاخص برای تعیین هرزنامه بودن آن است. در اینجا، ما همچنین بر تعداد فالوورها، لایک ها و ریتوییت ها تمرکز می کنیم. علاوه بر این، در بخش NLP، گویش های مختلفی از جمله عربی استاندارد مدرن (MSA) مورد توجه قرار گرفته است. در نهایت مشاهده شد که Random Forest و LSTM بر خلاف SVM و NB گزینه های خوبی برای طبقه بندی متون عربی هستند. نتایج تجربی نشان میدهد که Random Forest به دلیل ماهیت مجموعهای، برچسبهای دقیق زیادی در پیشبینی دارد و LSTM نتیجه خوبی برای دقت، از دست دادن و بیشبرازندگی دارد.
بر خلاف زبان انگلیسی، تشخیص هرزنامه توییت به زبان عربی شامل پیش پردازش بیشتر با عملیات متنوع است. این امر تشخیص هرزنامه توییت های عربی را پیچیده تر و در برابر خطاهای طبقه بندی آسیب پذیر می کند. به عنوان مثال، تنوع گویشها، نشانههای دیاکریتیک، نشانههای نقطهگذاری و همچنین نوع و تعداد قواعد دستوری آن را در مقایسه با زبان انگلیسی متفاوت و پیچیده میکند. بنابراین، تشخیص هرزنامه توییت عربی شامل تلاشهای بیشتری از مجموعه دادهها، از جمله پیش پردازش و آموزش و ارزیابی مدلها است.
منبع: https://www.mdpi.com/2673-2688/5/3/52