۱٫ مقدمه
رشد گسترده سیستم عامل های رسانه های اجتماعی ارتباطات را به یک پدیده جهانی و فوری تبدیل کرده است. با این حال ، بخشی از انتشار محتوای مضر و توهین آمیز ، از جمله توهین هایی که می تواند منجر به پریشانی روانی ، تحریک تبعیض و تضعیف کیفیت پریشانی آنلاین شود ، جعل شده است. در حالی که تحقیقات زیادی در مورد زبان تهاجمی اختصاص داده شده است ، وظیفه شناسایی توهین های خاص به طور خاص باقی مانده است. توهین ، به عنوان یک زیر مجموعه متمایز و ظریف از زبان توهین آمیز ، اغلب برای تشخیص دقیق نیاز به درک متنی تر و حساسیت به فرهنگ دارد [۱,۲]بشر این شکاف در تحقیقات حتی در زبانهای کم منبع مانند رومی اردو نیز برجسته تر است.
این مطالعات با پرداختن به اردو رومی ، یک زبان با منبع کم که دارای انواع مختلفی از کد ها و دستور زبان غیر استاندارد است ، فناوری موجود را بهبود می بخشد. برخلاف زبانهای عمدتاً با منابع بالا ، ما یک مجموعه داده حاشیه نویسی جدید را به سمت اردو رومی تهیه می کنیم و هر دو الگوریتم یادگیری ماشین کلاسیک را ارزیابی می کنیم و در سناریوی پیشنهادی ، از بین می روند. کار قبلی به زبانهای کم منبع ، اهمیت مجموعه داده های حاشیه نویسی را برای برنامه های NLP برجسته کرده است. کار فعلی این یافته ها را به یک مجموعه داده بزرگ اردو رومی برای توهین و ارزیابی یادگیری ماشینی پیشرفته و تکنیک های یادگیری عمیق برای پیچیدگی زبانی زبان گسترش می دهد. [۳]بشر تشخیص زبان توهین آمیز در اردو رومی به اندازه کافی در تحقیقات موجود مورد توجه قرار نگرفته است و باعث ایجاد خلاء مهم در توسعه ابزارهای اصلاح محتوای قوی و مستحکم می شود.
روشهای مبتنی بر واژگان برای تشخیص توهین بسیار محوری بوده است ، اما در درجه اول محدود به زبانهایی با دستور زبان رسمی و U. این مطالعه با استفاده از ویژگی های TFIDF مبتنی بر N-GAM و اجرای تعبیه های از پیش تنظیم شده ، نقاط قوت رویکردهای درایی را تقویت می کند. (Word2Vec و FastText) مخصوص طبیعت احمقانه رومی ارد.
این مطالعه با هدف پر کردن این شکاف با معرفی یک مجموعه داده جدید که به طور خاص برای تشخیص توهین در اردو رومی طراحی شده است. به بهترین دانش ما ، این اولین مجموعه داده است که به طور انحصاری به این کار اختصاص داده شده است و یک منبع ارزشمند برای پیشبرد تحقیقات در این حوزه فراهم می کند. این مجموعه داده ها برای ضبط ماهیت ظریف و وابسته به متن توهین ها به طور کلی حاشیه نویسی شده اند و آنها را از انواع دیگر زبان توهین آمیز متمایز می کنند. این مشارکت یک قدم مهم به جلو برای چالش های زبان شناس منحصر به فرد مرتبط با اردو رومی است.
برای ارزیابی اثربخشی تحسین های مختلف برای تشخیص توهین ، ما از یک مجموعه جامع از یادگیری ماشین و الگوریتم های یادگیری عمیق استفاده می کنیم. این مطالعه از ده مدل یادگیری ماشین ، از جمله رگرسیون لجستیک ، دستگاه های بردار پشتیبانی ، جنگل تصادفی و تقویت شیب استفاده می کند که اثربخشی اثربخشی آنها را در کارهای NLP Previvault نشان می دهد. علاوه بر این ، ما سه معماری Deening ، شبکه های عصبی حلقوی (CNN) ، شبکه های حافظه کوتاه TREM کوتاه (LSTM) و LSTM های دو طرفه (BI-LSSTM) را برای گرفتن مضامین توهین توهین های عمان Urdu جدا نمی کنیم. [۴,۵]بشر
تکنیک های تعبیه شده مانند Word2VEC و FastText برای سرکوب متن اردو رومی در فضاهای وکتور متراکم و متراکم استفاده می شوند. تعبیه های ترزا برای روابط معنایی با داده ها و برای تقویت عملکرد هر دو یادگیری ماشین و مدل های یادگیری عمیق بسیار مهم هستند. این دانش آموز با محک و معیار مدل های موجود در مجموعه داده های تازه توسعه یافته ، به دنبال شناسایی بیشترین روش برای تشخیص توهین در رومی اردو است ، و آینده ای را برای آینده در آینده در این زمینه نشان می دهد [۶,۷]بشر
پیامدهای این تحقیق فراتر از آکادمی ها است و کاربردهای عملی را برای سیستم عامل های رسانه های اجتماعی که در آسیای جنوبی فعالیت می کنند ، ارائه می دهد. سیستم های تشخیص خودکار توهین می توانند به مدرن سازی محتوای مضر ، کاهش بار کار روی مجریان انسانی و ایجاد سرگرمی های دیجیتالی ایمن برای کاربران کمک کنند. علاوه بر این ، این کار تأکید بر راه حل های حل زبان در NLP ، به ویژه برای زبانهای کم نظیر مانند رومی اردو ، که غالباً از آنجا خارج می شوند [۸,۹]بشر
بخش های باقیمانده این مقاله به شرح زیر سازماندهی شده است: بخش ۲ مروری بر ادبیات موجود در مورد توهین و مباحث مرتبط ، با شناسایی شکاف در تحقیقات فعلی ارائه می دهد. بخش ۳ روش ، از جمله فرآیند توسعه مجموعه داده ها و مجموعه آزمایشی را شرح می دهد. بخش ۴ در مورد نتایج ، مقایسه عملکرد مدلهای مختلف و تجزیه و تحلیل پیامدهای آنها بحث می کند. سرانجام ، بخش ۵ مطالعه را نتیجه می گیرد و مسیرهای آینده برای توهین و اعتدال محتوا را تشریح می کند.
۲٫ بررسی ادبیات
تشخیص توهین ، شاخه ای ظریف از شناسایی زبان توهین آمیز ، به دلیل نقش خود در مهار رفتار آنلاین مضر ، توجه فزاینده ای را به خود جلب کرده است. در حالی که تحقیقات در مورد یک بارسورس مانند HASS Prolifted ، مطالعات با تمرکز بر زبانهای کم ارزش مانند رومی اردو باقی مانده است ، باقی مانده است [۱۰]بشر رومی اردو ، ویدل که در ارتباطات دیجیتالی غیررسمی مورد استفاده قرار می گیرد ، چالش های زبانی منحصر به فرد مانند تغییر کد با انگلیسی ، سوءاستفاده از Graammar استاندارد قوانین املایی ما و بازپرداخت قابل توجه در مسابقه فرهنگ را ارائه می دهد. ویژگی های موضوع نیاز به رویکردهای سفارشی برای کارهای NLP مانند تشخیص توهین دارد [۱۱]بشر
برای نکته این مطالعه ، گفتار نفرت یک نمونه یا بیانیه ضمنی ، گفتار ، نوشتن یا ارتباطات عمومی است که ، در صورت عمل ، طرفداری از خشونت ، تبعیض یا ترویج خصومت را بر اساس نژاد یا ایدئولوژی سیاسی می کند. زبان توهین آمیز یک کلمه توهین آمیز است که از لحن سوءاستفاده ای که برای توهین به دیگران استفاده می شود ، می پردازد و در روند رفتار آنها استفاده می شود. تعاریف پیشنهادی نیز مطابق با مطالعات پیش از این است ، از جمله [۱]که در شناسایی گفتار نفرت ، اختلاف را بیان می کند ، و [۲]که استدلال می کنند که مطالب دقیق در هنگام تعریف و تشخیص محتوای مضر بسیار مهم است.
گام های اولیه در تشخیص زبان شامل رویکردهای مبتنی بر واژگان و قانون بود که در دیکتاتیک های از قبل از شرایط توهین آمیز واقع شده است. اگرچه این روش ها برای لوازم جانبی در مقیاس کوچک مؤثر بودند ، اما آنها اغلب نتوانستند در محیط زبانی متنوع تعمیم دهند [۱۲]بشر رویکردهای مبتنی بر واژگان به دلیل ماهیت غیررسمی و بسیار متغیر ، به ویژه برای اردو رومی ناکافی است و بر نیاز به روشهای درایو داده تأکید می کند.
الگوریتم های یادگیری ماشین (ML) با استفاده از رویکردهای داده محور ، وظایف طبقه بندی متن را چرخانده اند. به عنوان مثال ، Ref. [13] یک چارچوب یادگیری ماشین را توسعه داد که از سیستم های مبتنی بر واژگان در زبان تصمیم گیری بهتر عمل می کند. به طور مشابه ، تحقیقات وارنر و هیرشبرگ (۲۰۱۲) تأثیر الگوریتم های ML در طبقه بندی گفتار نفرت را نشان داد. با این حال ، این تلاش ها در درجه اول بر زبانهای با منبع بالا متمرکز شده بود و درک متنی مورد نیاز برای توهین را ، به ویژه در رومی اردو ، نشان می داد.
روشهای یادگیری عمیق (DL) با روابط معنایی Captur و متنی در متن ، تشخیص بیشتر زبان تهاجمی را پیشرفت کرده است. Ref. [14] کاوش در استفاده از شبکه های عصبی حلقوی (CNN) برای تشخیص گفتار نفرت ، برجسته کردن استحکام آنها در رسیدگی به زبان غیررسمی. به همین ترتیب ، Ref. [15] برتری شبکه های عصبی مکرر (RNN) نسبت به مدلهای سنتی در شناخت رانندگی متنی را نشان داد. علیرغم موفقیت آنها ، چنین مدلهایی به دلیل جهان از مجموعه داده های حاشیه نویسی متناسب با ویژگی های زبانی منحصر به فرد خود ، در رومی اردو استفاده شده است.
در حوزه چند زبانه ، مطالعات چالش های تشخیص محتوای توهین آمیز در زبان های کم منبع را توضیح داده اند. به عنوان مثال ، Ref. [16] یک کار مشترک را برای محتوای توهین آمیز به زبان انگلیسی ، آلمانی و هندی ترتیب داد و نشان دهنده اختلافات در دقت تشخیص Acseoges بود. یافته های آنها بر نیاز به مجموعه داده های خاص زبان و تعبیه برای طبقه بندی متن مؤثر تأکید کرد. در یک مطالعه دیگر ، Ref. [17] یک مجموعه داده معیار برای تشخیص زبان تهاجمی به زبان هندی ایجاد کرد و تأثیر تفاوت های ظریف فرهنگ را بر عملکرد مدل نشان داد. با این حال ، تلاش های مشابه برای اردو رومی به طرز چشمگیری بروز می کند و شکاف مهمی در تحقیقات ایجاد می کند.
چالش های منحصر به فرد اردو رومی-مانند نحو غیررسمی ، هجی های آوایی ، و کدگذاری کد فرکانس و مدل های خاص و مدل های خاص با ویژگی های آن سازگار است. Ref. [18] تعبیه های دامنه پیشنهادی برای زبانهای کم منبع ، که باعث بهبود عملکرد در تجزیه و تحلیل قابل حمل و کارهای تشخیص گفتار نفرت شده است. با تکیه بر چنین پیشرفت هایی ، تکنیک های جاسازی شده مانند Word2Vec و FastText با اثبات بازنمایی های متراکم و معنی دار کلمات ، نوید را در تنظیمات کم منبع نشان داده است [۱۹]بشر با این حال ، این تعبیه ها به دلیل عدم وجود شرکت های حاشیه نویسی ، تحت تشخیص توهین به اردو باقی مانده است.
آثار اخیر در مورد زبان توهین آمیز از معماری های مبتنی بر ترانسفورماتور و تعبیه های متنی استفاده می کنند. به عنوان مثال ، Ref. [20] نشان داد که مدل های قبل از سایه مانند BERT برای تشخیص زبان تهاجمی به زبان های مختلف مؤثر هستند. به همین ترتیب ، Refs. [21,22] بر استفاده از تعبیه های چند زبانه برای پشتیبانی از زبانهای کم منبع تأکید می کند. مطالعات موضوعی اطلاع می دهد که چگونه آداب و رسوم ترانسفورماتور با پیچیدگی های زبانی سازگار ، چنین مخلوط کردن کد و ساختارهای گرامری غیر استاندارد ، که هر دو از نظر رومی اردو هستند ، سازگار هستند.
سرانجام ، مطالعات موجود اهمیت داده های هدفمند را در پیشبرد NLP برای زبانهای زیر بازنمایی تأیید کرده است. Ref. [23] استدلال کرد که مجموعه داده های حاشیه نویسی با ملاحظات فرهنگی و زمینه برای کارهایی مانند گفتار نفرت و تشخیص توهین بسیار مهم است. این مطالعه با ایجاد اولین مجموعه داده حاشیه نویسی برای تشخیص توهین در اردو رومی بر این بینش ساخته شده است. این مجموعه داده برای ضبط ظرافت های توهین در تنظیمات غیررسمی و مخلوط به زبان طراحی شده است ، و این امکان را برای مودال های ML و DL فراهم می کند تا عملکرد خود را معیار کنند.
۲٫۱ تعریف گفتار نفرت و زبان توهین آمیز
دستکاری در گفتار نفرت و زبان تحقیرآمیز به عنوان کلماتی تصفیه می شود که بر اساس عواملی مانند نژاد ، ایمان ، جنسیت ، ایدئولوژی های oritical ، باعث ایجاد آسیب می شوند ، یا باعث ایجاد آسیب در برابر افراد یا کلاس ها می شوند. هنر ایجاد موارد محتوای مضر در مورد اردو رومی به دلیل پیچیدگی های زبانی مانند ترجمه ، دستور زبان غیر استاندارد و مخلوط کردن کد پیچیده است. ما گفتار نفرت را در این مطالعه به عنوان تحریک صریح به خشونت یا تبعیض و زبان توهین آمیز به عنوان زبان مبهم تر یا لحن سوءاستفاده تعریف می کنیم. تعاریف ترزا به عنوان پایه ای برای فرآیند حاشیه نویسی خدمت کرده و همان ستون فقرات را برای برچسب زدن به محتوای Weyer توهین آمیز فراهم می کند.
۲٫۲ کمک های مطالعه
این تحقیق چندین کمک اساسی در زمینه NLP و تشخیص توهین ، به ویژه برای اردو رومی دارد:
-
مجموعه داده های جدید برای تشخیص توهین: ما اولین مجموعه داده حاشیه نویسی را برای ادراک در اردو رومی توسعه می دهیم و به شکاف منابع بحرانی برای این زبان می پردازیم.
-
رویکرد نوآورانه: این مطالعه یک مجموعه داده منحصر به فرد را با تکنیک های پیشرفته ML و DL ترکیب می کند ، و یک چارچوب جدید برای تشخیص توهین متناسب با چالش های زبانی رومی اردو ارائه می دهد.
-
اولین مطالعه متمرکز بر توهین های اردو رومی: به بهترین دانش ما ، این اولین مشخصات تحقیق در اردو رومی است و شکاف دلالی را در این زمینه پر می کند.
از طریق کمک های تسه ، این تحقیق نه تنها وضعیت هنر را در توهین پیشرفت می کند ، همچنین اهمیت توسعه راه حل های خاص زبان را برای کارهای NLP در زبانهای کم منبع مانند رومی اردو می کند.
جدول ۱ تجزیه و تحلیل مقایسه ای از مطالعات تحقیقاتی فعلی مربوط به تشخیص توهین در زبان های مختلف ، مجموعه داده ها و رویکردها را ارائه می دهد. بیشتر مطالعات انجام شده Previvault صرفاً در مورد تشخیص توهین با استفاده از روشهای یادگیری ماشین کلاسیک (ML) ، مدل های طبقه بندی کننده ترکیبی و اخیراً MHHOD های یادگیری عمیق (DL) مورد بررسی قرار گرفته است. اگرچه بیشتر این موارد پر از زبان های انگلیسی یا سایر منابع با منابع بالا است ، اما در Urdu رومی وجود داشته است که یک زبان به زبان مخلوط است که محبوب در منابع آنلاین محبوب است. در جدول مجموعه داده های مورد استفاده ، انواع رویکردهای مورد استفاده از سیستم های NLP مبتنی بر قاعده گرفته تا چارچوب های ML-DL هیبریدی و نتیجه گیری های مهم این آثار خلاصه شده است. رویکردهای موجود شامل تشخیص توهین در متن اردو رومی است: یادگیری ماشین ترکیبی و رویکردهای یادگیری عمیق. با این حال ، هیچ یک از آنها رویکردهایی را که برای متن رومی اردو گرفته اند ، پوشش نمی دهد. چارچوب پیشنهادی ، مدل های ML-DL ترکیبی را با تکنیک های تعبیه شده برای مقابله با چالش های مرتبط با پردازش اردو رومی و پیشبرد وضعیت هنر در تشخیص تهاجمی چند لایه ترکیب می کند.
۳٫ روش شناسی
روش این مطالعه از یک مجموعه داده جدید ، تکنیک های پیش پردازش ، استخراج ویژگی با استفاده از بردار TF -IID و کاربرد هشت یادگیری ماشین (ML) و سه DL. متن اردو ، همانطور که در شکل ۱ نشان داده شده است.
۳٫۱ ایجاد مجموعه داده ها
مجموعه داده های مورد استفاده در این مطالعه شامل ۴۶٫۰۴۵ نظر جمع آوری شده از سیستم عامل های رسانه های اجتماعی ، از جمله توییتر ، فیس بوک و یوتیوب است. نظرات موضوع از صفحات و گروه های اردو رومی تهیه شده است که فرکانس حاوی محتوای کاربر توسط کاربر هستند. این مجموعه داده به صورت انسانی به دو دسته حاشیه نویسی شد: نظرات توهین آمیز و غیرقانونی. برای اجرای و نمایندگی ، داده ها شامل نظرات حوزه های مختلف مانند سرگرمی ، سیاست و بحث های عمومی است.
این به طور مداوم از ۳ دسته اصلی: سرگرمی (۴۰ ٪) ، سیاست (۳۵ ٪) و عمومی (۲۵ ٪) نظرات. این توزیع با دقت انتخاب شد تا یک جمهوری عادلانه از زمینه های مختلف را فراهم کند و از زندگی واقعی اردو رومی آینه کند ، جایی که هنوز هم به طور کتبی به کار می رود. با این حال ، ما می دانیم که عدم تعادل طبقه بندی چوب بر عملکرد مدل تأثیر می گذارد ، که به طور کلی از طریق رویکرد نمونه گیری ما به ما می پردازد که هم فسیل و هم ارزیابی ارزیابی می کند.
۳٫۲ فرآیند حاشیه نویسی
برای پاسخگویی به ظرافت های فرهنگ در توهین های اردو رومی ، ما حاشیه نویسی را با دستورالعمل ها و نمونه هایی از آنچه که ثابت ها به عنوان اظهار نظر توهین آمیز یا غیرقانونی ارائه می دهند ، ارائه دادیم. رهنمودها تأکید می کنند که با حساسیت متنی ، به عنوان مثال ، عبارات مخلوط شده با کد Captur و زبان عامیانه. برای تحقق حاشیه نویسی داده ها ، سه زبان شناسان متخصص اردو رومی برای این منظور استخدام شدند. توافق نامه بین حاشیه نویسی با اجرای کاپا کوهن با نمره ۰٫۸۵ اندازه گیری شد ، که منعکس کننده توافق قابل توجهی است و کیفیت مجموعه داده را تأیید می کند.
این مجموعه داده های حاشیه نویسی اولین منبع نشانه ای برای تشخیص توهین در رومی اردو را سرکوب می کند و به یک شکاف مهم در تحقیقات پردازش زبان طبیعی (NLP) می پردازد.
۳٫۳ پیش پردازش داده ها
رومی اردو ، به عنوان یک اسکریپت بسیار غیررسمی و محاوره ، هنگام تطبیق روشهای preting مانند عادی سازی املایی و لمات ، چالش هایی را ایجاد کرد. یک فرهنگ لغت سفارشی ایجاد شده است ، با مقایسه هجی های معمولی اردو رومی و فرم های عادی استاندارد آنها. همچنین از اسکریپت های سفارشی برای پرداختن به تغییرات و خطاهای متداول در ترجمه ها استفاده شد. ما با استفاده از تخصص سخنرانان بومی ، بررسی های دستی را برای تکمیل این ابزارها اضافه کردیم. مجموعه داده خام تحت یک سری مراحل پیش پردازش برای تهیه آن برای مدل سازی قرار گرفت:
-
تمیز کردن متن: URL های حذف شده ، هشتگ ، ذکر کاربر ، ایموجی ها ، شخصیت های خاص و فضای سفید بیش از حد.
-
عادی سازی مورد: برای کاهش تغییرات ، تمام متن را به حروف کوچک استاندارد می کند.
-
نشانه گذاری: جملات را به کلمات فردی تقسیم کنید.
-
حذف Wordword: کلمات متداول (به عنوان مثال ، “hai” ، “ka” ، “ko”) که به طور معناداری در طبقه بندی کمک نمی کنند.
-
عادی سازی املا: اصلاح تنوع هجی مشترک در اردو رومی.
-
lemmatization: در صورت لزوم کلمات را به اشکال ریشه کاهش می دهد.
مراحل پیش نویس موضوع برای افزودن چالش های زبانی و ساختاری منحصر به فرد برای اردو رومی ، مانند عدم وجود املای استاندارد و شیوع ترکیب کد با انگلیسی طراحی شده است.
۳٫۴ عصاره
برای سرکوب داده های متنی به صورت عددی ، وکتوریزه کردن TF-IIDF (فرکانس در فرکانس در وارد). این روش بر اهمیت اصطلاحاتی که منحصر به یک سندی است در هنگام کم کردن اصطلاحات معمول در سراسر مجموعه داده تأکید می کند.
یک مدل سازی N-GAM امکان تمرکز در مورد محلی و زمینه جهانی کلمات را فراهم می کند. Bigrams و Trigrams Capture Co -Currence ، یک جمهوری غنی تر از جمهوری را ارائه می دهند ، در حالی که Unigrams همه چیز در مورد گزارش های اساسی است. با ادغام n-grams ، این تضمین می کند که ساختار زبانی اردو رومی به طور سرکوب شده است ، که طبقه بندی برای طبقه بندی اثر است.
برای استخراج ویژگی از چهار تنظیم N-Gram استفاده شد:
-
unigram: کلمات فردی
-
بیگرام: جفت های کلمه ای محسوب می شوند.
-
TRIGRAM: دنباله های محسوب شده از سه کلمه.
-
UNI+BI+TRIGRAM: نمایندگی ترکیبی از unigrams ، bigrams و trigrams.
تنظیمات N-Gram تم ، همراه با TF-IDF ، ضبط هر دو الگوهای محلی و متنی را در متن رومی اردو امکان پذیر کرد.
۳٫۵ الگوریتم های یادگیری ماشین
مدل ها برای عملکرد تعیین شده خود در مشکلات طبقه بندی متن انتخاب شدند. رگرسیون لجستیک و SVM به عنوان طبقه بندی کننده های قوی از داده های یدکی با ابعاد بالا در مورد اجزای سادگی عمل کردند ، در حالی که CNN ها و LOSTM ها به برخی از کد های کد و وابستگی های طولانی مدت اتخاذ شده اند ، در حالی که در این امر ضروری است. مشکلات آگاهانه متن. ما ترانسفورماتورهای پیشرفته مانند BERT را حذف کردیم تا روی مدلهای ساده و محاسباتی کارآمد تمرکز کنیم که می توانند در تنظیمات کم منبع آموزش ببینند. هشت الگوریتم یادگیری ماشین برای تشخیص توهین اجرا و ارزیابی شد:
مدل های تم برای اثربخشی اثبات شده آنها در کارهای طبقه بندی متن انتخاب شدند. هر الگوریتم با استفاده از تنظیم HyperParameter برای گروه بندی بهترین عملکرد ممکن در مجموعه داده بهینه شد.
۳٫۶ معماری یادگیری عمیق
سه معماری یادگیری عمیق برای ضبط روابط معنایی و متنی در متن استفاده شد:
-
شبکه های Neral Convolutional (CNN): الگوهای محلی ضبط شده و وابستگی های TREM کوتاه در متن.
-
شبکه های حافظه کوتاه TREM کوتاه (LSTM): وابستگی های متوالی مدل شده و زمینه بلند مدت.
-
LSTM های دو طرفه (BI-LSTM): LSTM های گسترده توسط زمینه اختلاط از هر دو توالی رو به جلو و عقب.
تعبیهات از پیش تنظیم شده متناسب با متن رومی رومی برای اولیه سازی لایه های تعبیه شده ، و یک جمهوری قوی از داده های متن را فراهم می کرد.
۳٫۷ ارزیابی مدل
برای این مطالعه ، نمره F1 معیار اصلی علاقه ما به معیارهای در دسترس بودن بیش از حد ، مانند صحت یا AUC بود ، زیرا این نشان دهنده یک ظرافت متعادل تر از ارائه و یادآوری یک مدل است. این امر به ویژه در مواردی از قبیل تشخیص توهین ، که در آن منفی های دروغین (توهین آمیز در مورد قفس) می توانند منجر به پیامدهای گسترده تر شوند ، مانند اجازه گسترش مگس های مضر ، مهم است. بهینه سازی نمره F1 به گروهی کمک می کند که مدل ها یاد بگیرند که محتوای توهین آمیز را پیش بینی کنند که موقعیت کاذب و خطاهای نفی کاذب را کاهش می دهد.
۴٫ نتایج و بحث
این دنباله تجزیه و تحلیل مفصلی از عملکرد مدل های مختلف یادگیری ماشین (ML) و یادگیری عمیق (DL) برای تشخیص توهین در اردو رومی ارائه می دهد. نتایج بر اساس تنظیمات N-GRAM ، تکنیک های بردار و عملکرد مدل های برتر طبقه بندی می شوند.
۴٫۱ نتایج ML با unigram
مدل هایی با بردار unigram به طرز چشمگیری عملکرد خوبی دارند ، به ویژه مدل های مبتنی بر درخت و گروه (جدول ۲). مدل درخت تصمیم به بالاترین نمره F1 (97.52 ٪) به دست آورد ، و به دنبال آن با افزایش شیب (۳۱٫۳۱ ٪) و Adaboost (97.3 ٪) دنبال شد. روشهای تم عالی از توانایی مدل سازی مرزهای تصمیم گیری پیچیده در اثرات اثربخشی در فضاهای ویژگی های یدکی. XGBOOST و RANDOM FORENT همچنین عملکرد قوی را نشان دادند که نمرات F1 بالاتر از ۹۶٫۵ ٪ است. SVM با نتیجه F1 96.5 ٪ ، نشان دهنده استحکام آن با ویژگی های unigram sparese است. رگرسیون لجستیک ، یک الگوریتم ساده تر ، به یک نمره قابل احترام F1 از ۹۵٫۱۹ ٪ دست یافت اما از مدلهای مبتنی بر درخت عقب مانده است. از طرف دیگر ، KNN و Bayes ساده لوح با نمرات F1 84.54 ٪ و ۸۴٫۳۶ ٪ ، احترام ، به دلیل محدودیت های آنها در دستیابی به داده های با ابعاد بالا و فضایی ، عملکرد ضعیفی داشتند. به طور کلی ، بردار unigram ارائه شده به عنوان یک روش استخراج ویژگی قوی ، با روش های مبتنی بر درخت و گروهی که بهترین عملکرد را ارائه می دهد.
۴٫۲ نتایج ML با Bigram
بردار Bigram ، در حالی که روابط کلمه ای را ضبط می کند ، منجر به پیشرفت در درک متنی اما افزایش کمبود ویژگی ، تأثیرگذاری بر عملکرد مدل می شود (جدول ۳). رگرسیون لجستیک با استفاده از الگوهای متنی ، به بهترین نمره F1 (68.68 ٪) ، دقت و فراخوان اثربخش و فراخوان دست یافت. SVM با یک امتیاز F1 86.64 ٪ از Closel پیروی کرد و این نشانگر استحکام آن در فضاهای با ابعاد بالا است. مدل های مبتنی بر درخت و گروه ، مانند درختان اضافی ، جنگل تصادفی و تقویت شیب ، اثرات کاهش یافته را در مقایسه با unigrams کاهش می دهد ، با نمرات F1 از ۸۴٫۳۵ ٪ تا ۷۸٫۸۷ ٪. این کاهش چالش تعمیم در اثر ویژگی های Spart Bigram را برجسته می کند. Bayes ساده لوح با یک امتیاز F1 83.59 ٪ نسبتاً خوب عمل کرد ، اما از رگرسیون لجستیک و SVM بهتر عمل کرد. KNN بیشترین تلاش را کرد و به یک امتیاز F1 تنها ۶۷٫۲۳ ٪ دست یافت و محدودیت های خود را در رسیدگی به داده های یدکی و با ابعاد بالا نشان داد. به طور کلی ، بردار Bigram از اطلاعات متنی استفاده می کند اما تأثیر کمتری برنزه می کند ، با رگرسیون لجستیک و SVM به عنوان مدل های برتر ظاهر می شود.
۴٫۳ نتایج ML با TRIGRAM
وکتور سازی Trigram ، در حالی که توالی های سه لرد را ضبط می کند ، ویژگی های Morex را معرفی می کند اما همچنین از نظر کمبود قابل توجه است و منجر به کاهش عملکرد در تمام مدلها می شود (جدول ۴). SVM بهترین نمره F1 (74.81 ٪) و پس از آن Bayes ساده لوح و رگرسیون لجستیک ، هر دو ۷۴٫۲۶ ٪ به ثمر رساند. این نتایج نشان می دهد که SVM و مدل های احتمالی ساده تر برای رسیدگی به بازنمایی های فضا TRIGRAM مجهز هستند. مدل های مبتنی بر درخت و گروه ، مانند درختان اضافی ، جنگل تصادفی و تقویت شیب ، با نمرات F1 از ۷۰٫۱۹ ٪ تا ۷۲٫۰۳ ٪ دست و پنجه نرم می کردند. KNN این کار را با یک امتیاز F1 تنها ۱۷٫۰۴ ٪ انجام داد و این نشان دهنده ناتوانی آن در رسیدگی به ویژگی های فضایی با ابعاد بالا است. به طور کلی ، در حالی که TRIGRAMS عمق متن دیگری را فراهم می کند ، کمبود فضای ویژگی تأثیر اکثر مدل ها را محدود می کند ، با SVM به عنوان قوی ترین مدل ظاهر می شود.
۴٫۴ Resulations ML با uni+bi+trigram
ترکیب ویژگی های Unigram ، Bigram و Trigram باعث افزایش عملکرد اکثر مدل ها ، به ویژه روش های گروهی می شود (جدول ۵). Adaboost به بالاترین نمره F1 (97.79 ٪) دست یافت ، و به دنبال آن توسط درخت تصمیم (۷۸٫۷۸ ٪) و افزایش شیب (۹۷٫۰۷ ٪) دنبال شد. گنجاندن چندین سطح N-GRAM به این مدل ها اجازه می دهد تا الگوهای Divextual و سطح کلمه را ضبط کنند و آنها را قادر می سازد تا در مجموعه داده بهتر تعمیم دهند. XGBoost همچنین عملکرد قوی را نشان داد ، با نمره F1 96.82 ٪. درختان اضافی و جنگل تصادفی نتایج رقابتی را حفظ کردند ، با نمرات F1 به ترتیب ۹۶٫۲۴ ٪ و ۹۶٫۰۸ ٪.
SVM با نمره با دقت بالا عملکرد خوبی داشت اما در فراخوان عقب مانده و در نتیجه نمره F1 92.63 ٪ به دست آمد. رگرسیون لجستیک و مبارزات ساده لوح با مجموعه ویژگی های ترکیبی ، به ثمر رساندن نمرات F1 زیر ۹۰ ٪. KNN به دلیل حساسیت به کمبود و ابعاد بالا دوباره عملکرد ضعیفی داشت. به طور کلی ، ترکیب N-Grams درک متنی را بهبود بخشید ، با Adaboost و درخت تصمیم گیری به عنوان مدل های برتر در حال ظهور است.
۴٫۵ نتایج ML با tf -iidf unigram
وکتور سازی Unigram TF-IDF نتایج بسیار خوبی را برای درخت تصمیم گیری ، تقویت شیب و Adaboost به همراه داشت ، با نمرات F1 97.52 ٪ ، ۹۷٫۳۱ ٪ و ۹۷٫۳ ٪ احترام (جدول ۶). مدل های تم Effectivlic اصطلاح اهمیت گرفته شده توسط TF -IDF را برای افزایش توانایی تشخیص توهین ها به دست آورد. با دقت بالا و فراخوان در هر سه مدل نشان می دهد که Unigram TF -IDF یک ویژگی قوی و تبعیض را ارائه می دهد. روشهای گروهی بیشترین سود را داشتند ، توانایی ASIR در رسیدگی به مرزهای تصمیم گیری پیچیده به خوبی با نمایندگی جمهوری یدکی و وزنه برداری مطابقت دارد.
۴٫۶ نتایج ML با tf -iidf bigram
نتایج TF-IDF Bigram رگرسیون لجستیک را به عنوان بهترین مدل نشان می دهد ، و به یک نمره F1 87.68 ٪ رسیده است. SVM به دنبال Closel ، با نمره F1 86.64 ٪ (جدول ۷). هر دو مدل به صورت مؤثر از روابط Bigram استفاده می کنند ، با عملکرد TF -IID دارای اهمیت و کمک به ضبط متن کلمه -pair است. با این حال ، کمبود معرفی شده توسط Bigrams در مقایسه با Unigrams ، سود عملکرد را محدود می کند. نتایج موضوع تأیید می کند که مدل های خطی ساده تر مانند رگرسیون لجستیک و SVM می توانند گزارش های TF-IDF مبتنی بر Bigram را به طور مؤثر کنترل کنند.
۴٫۷ Resulations ML با tf -iid trigram
وکتور سازی TF -IDF TRIGRAM به طور قابل توجهی عملکرد همه مدل ها را به دلیل افزایش کمبود و چالش مدل سازی توالی های طولانی کاهش می دهد (جدول ۸). SVM به بالاترین امتیاز F1 (74.81 ٪) دست یافت و از رویکرد مبتنی بر هسته خود برای مدیریت ویژگی های با ابعاد بالا استفاده کرد. Bayes ساده لوح کمی پایین تر (۷۴٫۲۶ ٪) به ثمر رساند و برخی از ظرفیت های تعمیم با Trigrams را نشان داد. با این حال ، کاهش عملکرد کلی چالش های استفاده از N-GRAM های طولانی تر را با TF-IDF در مجموعه داده های یدکی برجسته می کند.
۴٫۸ نتایج ML با Tf -IIDF UNI+BI+TRIGRAM
TF-IDF همراه با وکتور سازی UNI+BI+TRIGRAM بهترین نتایج را به دست آورد ، همه تکنیک های بردار سازی ، درک متنی و الگوهای سطح کلمه را تقویت می کند (جدول ۹). Adaboost به بالاترین نمره F1 (97.79 ٪) ، CLOLEL و به دنبال آن درخت تصمیم گیری (۹۷٫۷۸ ٪) و تقویت شیب (۹۷٫۰۷ ٪) به دست آورد. مدل های Enseemble Theme Effectel از نمایش ویژگی های متنوع ارائه شده با ترکیب چندین سطح N-GRAM استفاده می کنند ، در حالی که به آنها امکان می دهد تا pattarens interave و روابط را با متن ضبط کنند. درختان XGBOOST و اضافی نیز عملکرد خوبی داشتند ، با نمرات F1 به ترتیب ۹۶٫۸۲ ٪ و ۹۶٫۲۴ ٪.
به طور کلی ، TF-IID با وکتور سازی Uni+BI+TRIGRAM ارائه شده به عنوان مؤثرترین روش استخراج ویژگی ، با استفاده از Adaboost و درخت تصمیم گیری به عنوان مدل های برتر. این ترکیب یک فضای ویژگی غنی برای مدلهای گروه برای تعمیم واقعی ، ضبط الگوهای ظریف برای تشخیص توهین در اردو رومی را نشان داد.
۴٫۹ ۱۰ میلی لیتر برتر نتایج
نتایج ۱۰ میلی لیتر برتر بر تسلط بر مدل های گروه ، به ویژه Adaboost و Tree Defice ، با نمرات F1 97.79 ٪ و ۹۷٫۷۸ ٪ ، احترام ، با احترام ، با استفاده از مجموعه ویژگی های Uni+BI+TRIGRAM (جدول ۱۰) تأکید می کند. تقویت شیب نیز فوق العاده خوب انجام شده است (۹۷٫۰۷ ٪ ؛ شکل ۲). مدل های ترزا به طور واقعی از بازنمایی ویژگی های متنوع ارائه شده با ترکیب چندین سطح N-GRAM استفاده می کنند ، در حالی که مجاز به گرفتن الگوهای ظریف در مجموعه داده ها هستند.
شکل ۲ با خلاصه کردن نتایج برای همه مدل های ML و DL که با روش های مختلف ویژگی آزمایش شده است ، یک نمای کلی از عملکرد مدل ارائه می دهد. این به ما اجازه می دهد تا نگاهی اجمالی به خیابان های رویکردهای مختلف بپردازیم. به عنوان مثال ، ما می توانیم ببینیم که مدل های SVM مدل های با دقت بسیار بالاتری را دارند که مدل های WHI-LSTM فراخوان بهتری را افزایش می دهند.
۴٫۱۰ نتایج یادگیری عمیق
در بین مدلهای یادگیری عمیق ، CNN به بالاترین امتیاز F1 (97.01 ٪) دست یافت و از توانایی آن در گرفتن الگوهای مکانی و محلی به طور مؤثر بهره مند شد (جدول ۱۱). LSTM و BI-LSTM همچنین با نمرات F1 95.78 ٪ و ۹۴٫ ٪ ، احترام ، احترام ، نشان دادن توانایی مدل سازی توالی وابسته در توهین های اردو رومی. با این حال ، توانایی برتر CNN در شناسایی روابط متنی با پارامترهای کمتر ، آن را به مؤثرترین مدل DL تبدیل کرده است.
به عنوان یک وضعیت در برابر بیش از حد احتمالی در معماری CNN ، لایه های ترک تحصیل اضافه شد و معیارهای توقف زود هنگام در طول آموزش استفاده شد. از اعتبار سنجی متقاطع نیز برای تعیین عملکرد و تعمیم پذیری مدل ها استفاده شد. این بدان معنی است که مدل CNN دقت عملکرد بالا را بدون استفاده از بیش از حد نشان می دهد زیرا در مجموعه آزمون معادل آن انجام می شود.
۴٫۱۱٫ بحث
این نتایج عملکرد استثنایی مدل های گروه ، به ویژه Adaboost و Tree Defict را برجسته می کند ، در حالی که به طور کلی نمرات F1 را در بین روش های مختلف سازی و روش های مختلف و N-Grambouts به دست آورد. Adaboost هنگام استفاده از TF-IIDF با Uni+BI+TRIGRAM ، با نمره F1 97.79 ٪ عالی بود ، و به دنبال آن درخت تصمیم (۷۸٫۷۸ ٪) تحت همان پیکربندی. تقویت گرادیان و XGBOST نیز به خوبی عمل کردند ، و با دستیابی به نمرات F1 بیش از ۹۶ ٪ ، توانایی تعمیم در فضاهای ویژگی های متنوع را نشان می دهد. وکتور سازی Unigram برای اکثر مدل ها بسیار مؤثر بود ، با درخت تصمیم گیری ، تقویت شیب و Adaboost نتایج این گروه را به دست می آورد. وکتورهای Bigram و Trigram نشان می دهد که عملکرد به دلیل افزایش کمبود ویژگی ، عملکرد SVM و تطبیق پذیری نسبتاً بهتر را کاهش می دهد. ترکیب N-GRAM (Uni+BI+TRIGRAM) باعث افزایش قابل توجهی در درک متنی ، افزایش بیشتر عملکرد مدل می شود. مدل های یادگیری عمیق نیز به شدت عملکرد خود را انجام می دهند ، با CNN به بالاترین نمره F1 (97.01 ٪) رسیده است ، و از توانایی آن در ضبط الگوهای مکانی مؤثر بهره می برد. به طور کلی ، مدلهای یادگیری ماشین مانند SVM قادر به دستیابی به توانایی بهتر کار در فضاهای با ویژگی های بزرگتر بودند ، در حالی که Lestm Achiems Acheme Bys و اطلاعات پی در پی. روش BI-LSTM دارای نمره F1 98.0 ٪ است ، که به وضوح از اقدامات SVM (76 /94 ٪) بهتر عمل می کند. با این حال ، مدل های یادگیری عمیق به مجموعه داده های بزرگتر و منابع محاسباتی بیشتری نیاز دارند ، در حالی که آنها را برای مواقعی که داده های کافی در دسترس هستند مناسب می کند.
۵٫ نتیجه گیری و کار آینده
در این مطالعه ، ما چالش جدید توهین به اردو رومی را با وارد کردن یک مجموعه داده جامع از ۴۶٫۰۴۵ نظر جمع آوری شده از سیستم عامل های رسانه های اجتماعی اضافه می کنیم و یک سیگنال را برای زبانهای کم منبع نشان می دهد. از طریق آزمایش گسترده با هشت مدل یادگیری ماشین و سه مدل عمیق ، ما تأثیر تکنیک های مختلف بردار ، از جمله TF -IDF با تنظیمات Unigram ، Bigram و Tgram Gram را نشان دادیم. روشهای گروهی مانند Adaboost و Tree Define به عنوان مجریان برتر ظاهر شد و به کسب امتیاز F1 97.79 ٪ و ۹۷٫۷۸ ٪ ، احترام ، در حالی که CNN منجر به یادگیری مدل هایی با هسته F1 Comptitive 97.0 ٪ شد. نتیجه ای وجود دارد که پوتون ترکیب استخراج ویژگی های پیشرفته و طبقه بندی کننده های قوی برای توهین موثر را برجسته می کند. با حرکت به جلو ، این کار با غنی سازی مجموعه داده ها با منابع و زمینه های متنوع تر ، و همچنین استفاده از مدل های زبان از پیش تنظیم شده مانند Berta یا Roberta Fine-Tune برای Randu Urdu گسترش می یابد. رویکردهای ترکیبی با ترکیب تکنیک های ML و DL و کشف پیشخوان انتقال متقابل متقابل بیشتر باعث افزایش استحکام سیستم های تشخیص توهین می شود. علاوه بر این ، استفاده از سیستم های زمان واقعی برای سیستم عامل های رسانه های اجتماعی می تواند راه حل های عملی برای کاهش سمیت آنلاین و تقویت ارتباطات دیجیتال سالم تر باشد.
منبع: https://www.mdpi.com/2673-2688/6/2/33