هوش مصنوعی | متن کامل رایگان | پیش بینی تعداد وسایل نقلیه درگیر در تصادفات روستایی با استفاده از الگوریتم کوانتیزه سازی بردار یادگیری

۱٫ معرفی

اهمیت راه ها به عنوان زیرساخت های حیاتی برای توسعه پایدار را نمی توان نادیده گرفت. به این ترتیب، کاهش تصادفات مرتبط با جاده و افزایش ایمنی جاده، اهداف برجسته‌ای هستند که مهندسان حمل‌ونقل و محققین در هماهنگی با تحرک پایدار تلاش می‌کنند به آن دست یابند. در نتیجه، یک ضرورت فوری در مورد ایجاد مدلی برای ارزیابی شدت جراحات تصادف وجود دارد که محققان را در بررسی ایمنی جاده تسهیل کند. [۱,۲]. با توجه به رشد روزافزون جمعیت جهان، این واقعیت غیرقابل انکار است که هم جوامع پیشرفته و هم جوامع در حال ظهور با افزایش حجم وسایل نقلیه مواجه هستند که متعاقباً منجر به تشدید سفر و ترافیک در معابر می شود و در نتیجه احتمال حوادث خودرو را افزایش می دهد. [۳,۴].
علاوه بر رویکردهای سنتی تر برای تفسیر داده های تصادفات (به عنوان مثال، آمار توصیفی یا استنباطی)، از اواخر قرن گذشته، بسیاری از محققان به شبیه سازی شبکه های حمل و نقل برای ارزیابی ایمنی جاده ها و برآورد اثرات آن بر مردم و … متوسل شده اند. محیط [۵,۶].
ماهیت متنوع ایمنی جاده، کانون تلاش‌های تحقیقاتی ارزشمند با هدف تقویت درک ما از موضوع بوده است. در موارد خاص، تصادفات ممکن است تحت تأثیر ترکیبی از عوامل خطر مختلف قرار گیرند [۷,۸]. عوامل مؤثری که شناسایی شده اند شامل نور روز هستند، اما محدود به آن نیستند [۹]شرایط آب و هوایی [۱۰]سن راننده و وسیله نقلیه [۱۱,۱۲]محدودیت سرعت و سرعت متوسط [۱۳,۱۴]و میانگین ترافیک روزانه سالانه (AADT) [15].
به طور کلی، تصادفات رانندگی تنها شامل یک یا دو نفر می شود. بسته به تعداد خودروهای درگیر، تصادفات به دو دسته تصادفات یک وسیله نقلیه (SVC) یا تصادفات چند وسیله نقلیه (MVC) طبقه بندی می شوند. [۱۶]. ارزیابی هزینه‌های مربوط به حادثه، بررسی شدت تصادف را ضروری می‌سازد، یک پارامتر حیاتی که در چندین لایه طبقه‌بندی می‌شود. تعداد وسایل نقلیه درگیر در تصادف یک متغیر مهم در تمام این درجه بندی ها است.
وانگ [۱۷] ملاحظات زیست محیطی و ایمنی را برای به تصویر کشیدن همه جانبه جنبه های چند وجهی حمل و نقل پایدار گنجانده است. برای انجام این کار، او یک معیار عملکرد یکپارچه را با استفاده از تحلیل پوششی داده ها (DEA)، یک رویکرد ناپارامتریک برای محک زدن موجودیت ها با ورودی ها و خروجی های متعدد، توسعه داد. سپس این اقدام برای ارزیابی مشترک اثرات زیست‌محیطی و نگرانی‌های ایمنی حمل‌ونقل جاده‌ای برای مجموعه‌ای از کشورهای OECD (سازمان همکاری و توسعه اقتصادی) بین سال‌های ۲۰۰۰ تا ۲۰۱۴ به کار گرفته شد. در نهایت، او نشان داد که اقدامات یکپارچه ناشی از این مشترک است. ارزیابی می تواند به طور قابل توجهی با ارزیابی های به دست آمده از ارزیابی اثرات زیست محیطی و ایمنی به طور جداگانه متفاوت باشد. مک لئود و کری [۱۸] با استفاده از سلسله مراتب کنترل خطر ایجاد شده، یک بررسی ادبیات در مورد ایمنی ترافیک انجام داد. تحقیقات آنها رویکردهای بالقوه برای ادغام موفقیت آمیز Vision Zero با اهداف گسترده تر سیاست دسترسی پایدار را شناسایی و دسته بندی کرد. نویسندگان ادبیات را در چارچوب سلسله مراتب کنترل خطر ترکیب کردند و چارچوبی را برای هماهنگی مؤثرتر شیوه‌های حرفه‌ای که بر ایمنی و پایداری شهری تأثیر می‌گذارند، ارائه کردند. در نهایت، نویسندگان توصیه‌هایی را برای تقویت یکپارچگی Vision Zero و سیاست‌های دسترسی پایدار، با سلسله مراتب کنترل خطر به عنوان یک اصل سازماندهی ارائه کردند. زیاکوپولوس و جورج [۱۹] تجزیه و تحلیل جامعی از ادبیات موجود انجام داد که روش‌های فضایی متنوعی را که توسط محققان برای بررسی و تحلیل ابعاد فضایی در تحقیقات خود مورد استفاده قرار می‌گرفت، بررسی کرد. علاوه بر این، نویسندگان مطالعاتی را که بر تجزیه و تحلیل فضایی کاربران بی‌ثبات جاده متمرکز شده بودند، ارزیابی کردند. نویسندگان همچنین در مورد اجرای عملی، مزایا و معایب تکنیک‌های مختلف مورد استفاده در مدل‌سازی فضایی بحث کردند. آنها با تکیه بر بررسی انتقادی خود، موانع فعلی و راه های آتی را برای تحقیق در این زمینه شناسایی کردند.
افغری و همکاران [۲۰] از یک مدل مشترک تعداد تصادف و شدت تصادف برای شناسایی بخش‌های جاده‌ای که خطر بالای تصادفات کشنده و جراحت جدی دارند، استفاده کرد. این مطالعه از داده‌های جاده‌های کنترل‌شده دولتی در کوئینزلند استرالیا استفاده کرد و با پیش‌بینی تعداد تصادفات بر اساس شدت و وزن‌دهی آن‌ها با استفاده از نسبت هزینه سطوح شدت، یک امتیاز ریسک جدید ایجاد شد. سپس از امتیاز خطر وزنی برای مشخص کردن بخش‌های جاده‌ای با خطر بالای تصادفات کشنده و جراحت استفاده شد. نتایج آنها نشان داد که مدل مشترک تعداد تصادف و شدت تصادف به طور قابل توجهی دقت پیش‌بینی را در مقایسه با مدل‌های شمارش سنتی افزایش می‌دهد. در مطالعه دیگری، Tamakloe و Park [21] از داده‌های تصادف مرگبار از کره برای شناسایی نقاط داغ با روندهای زمانی افزایشی (بحرانی) و کاهشی (کاهش) با استفاده از ابزار تجزیه و تحلیل نقطه کانونی مکانی-زمانی در یک سیستم اطلاعات جغرافیایی (GIS) استفاده کرد. علاوه بر این، آنها از یک تکنیک یادگیری ماشینی برای بررسی مجموعه ای از عواملی که بر تعداد وسایل نقلیه و تلفات درگیر در تصادفات مرگبار در تقاطع ها و بلوک های میانی در هر نوع کانون شناسایی شده تأثیر می گذارد، استفاده کردند. بر اساس یافته‌های خود، آن‌ها گروه‌هایی از عواملی را شناسایی کردند که می‌توان به طور جمعی برای افزایش ایمنی جاده‌ها به آنها پرداخت و اقدامات متقابلی را برای کاهش تصادفات مرگبار در جاده‌ها توصیه کرد. حسین و همکاران [۲۲] از یک مدل شانس نسبتی جزئی برای پیش‌بینی شدت جراحت راننده‌ای که به شدت آسیب دیده در تصادف چند وسیله نقلیه، با استفاده از اطلاعات جمعیت‌شناختی همه رانندگان درگیر، استفاده کرد. سپس نویسندگان مدل‌هایی را که اطلاعات جمعیت‌شناختی و ویژگی‌های وسیله نقلیه همه رانندگان و وسایل نقلیه درگیر در تصادف را در بر می‌گرفت، با مدل‌هایی مقایسه کردند که فقط اطلاعات مربوط به راننده‌ای که به شدت آسیب دیده بود را در نظر گرفتند و اهمیت عوامل و دقت پیش‌بینی را ارزیابی کردند. نتایج مطالعه آنها نشان داد که اگرچه رانندگان جوان به طور کلی در مقایسه با رانندگان در سن کار سطوح کمتری از شدت جراحات دارند، شدت صدمات زمانی که نسبت رانندگان جوان درگیر در تصادف چند وسیله نقلیه بیشتر بود، افزایش یافت.

بر اساس بررسی ادبیات موجود، مشخص شده است که جاده ها یک عنصر اساسی زیرساخت هستند و نقش مهمی در پیشرفت جامعه، اقتصاد و فرهنگ دارند. به طور کلی، متخصصان در زمینه مهندسی حمل و نقل و تحقیقات در مورد مسائل ایمنی راه، دو هدف عمده را در اولویت قرار می دهند: کاهش وقوع تصادفات جاده ای و بهبود ایمنی کلی جاده. این اهداف ارتباط نزدیکی با هم دارند و توسعه مدلی را ضروری می کند که بتواند شدت صدمات ناشی از تصادفات را به دقت پیش بینی کند. چنین مدل پیش‌بینی‌کننده‌ای برای محققان برای ارزیابی مؤثر ایمنی جاده‌ها ضروری است. شناخت تعداد وسایل نقلیه درگیر در تصادف (NVIC) یکی از مهم ترین عواملی است که می تواند در برنامه ریزی و کاهش شدت تصادفات جاده ای نقش داشته باشد. از این رو، هدف اصلی این تحقیق بررسی ایمنی جاده و ایجاد یک مدل پیش‌بینی است که بتواند NVIC را تخمین بزند. این مدل با استفاده از تکنیکی به نام کوانتیزاسیون برداری یادگیری (LVQ 2.1) توسعه یافته است که زیرمجموعه ای از شبکه های عصبی مصنوعی (ANN) است که برای طبقه بندی استفاده می شود. این مطالعه سوابق ۵۶۴ تصادف را که در جاده های روستایی در جنوب ایتالیا برای ساخت مدل ها رخ داده است، تجزیه و تحلیل می کند. شایان ذکر است که بر اساس مطالعه مروری بر ادبیات، مدل پیشنهادی LVQ 2.1 دارای مزایای عملکردی است، در حالی که سایر مدل‌های پیش‌بینی دارای محدودیت‌های عمده هستند. الگوریتم LVQ 2.1 که به ویژه برای پیش‌بینی متغیرهای مؤثر بر NVIC مفید است، به دلیل ظرفیت مدیریت مؤثر اتصالات غیرخطی در مجموعه داده‌های پیچیده مشهور است. علاوه بر این، توانایی یادگیری قوی الگوریتم آن را قادر می‌سازد تا مدل‌های پیش‌بینی مؤثری را حتی در مواجهه با داده‌های پر سر و صدا یا از دست رفته، که یک مشکل معمولی در گزارش تصادف است، ایجاد کند. از سوی دیگر، مدل‌های آماری سنتی مانند رگرسیون خطی یا پواسون اغلب نشان دادن صادقانه خصوصیات غیرخطی و متنوع داده‌های NVIC را دشوار می‌دانند، بنابراین عملکرد پیش‌بینی کمتر از ایده‌آل را تولید می‌کنند. همچنین، بسیاری از تکنیک‌های یادگیری ماشینی که اکنون استفاده می‌کنیم، مانند درخت‌های تصمیم، ممکن است در مدیریت تعاملات پیچیده و ابعاد بالا که در داده‌های NVIC می‌بینیم، مؤثر نباشند. این ممکن است منجر به تعمیم بیش از حد یا بد شود. بنابراین، سهم مهم این پژوهش به شرح زیر خلاصه می شود:

توسعه یک مدل طبقه‌بندی با استفاده از LVQ 2.1: خروجی اصلی این کار یک مدل طبقه‌بندی پیش‌بینی است که با استفاده از Quantization بردار یادگیری ۲٫۱ (LVQ 2.1)، یک نوع خاص از ANN توسعه یافته است. به ویژه برای تخمین تعداد خودروهای درگیر در تصادفات روستایی، این تکنیک مدل‌سازی یک مدل توسعه‌یافته با استفاده از LVQ 2.1 در چارچوب تحقیقات تصادفات رانندگی ارائه می‌کند. انتخاب LVQ 2.1 بر ارزش احتمالی آن نسبت به سایر روش‌های مدل‌سازی در ثبت تعاملات غیرخطی بین متغیرهای ورودی و حوادث تصادف چند خودرو تأکید می‌کند. این ممکن است بر انتخاب مدل های آینده در زمینه های مرتبط تأثیر بگذارد.

استفاده از یک مجموعه داده جامع از جاده‌های روستایی در کالابریا: داده‌ها شامل ۵۶۴ گزارش تصادف از جاده‌های روستایی بین سال‌های ۲۰۱۷ تا ۲۰۱۸ است. بسیاری از عوامل مهم مانند روز هفته، مکان، محدودیت سرعت، میانگین سرعت، میانگین را پوشش می‌دهد. ترافیک سالانه روزانه، شرایط روشنایی و نوع برخورد. تمرکز ویژه این مطالعه بر تصادفات روستایی، شکافی را در تحقیقات مدل‌سازی تصادف، که معمولاً بر محیط‌های شهری متمرکز است، می‌بندد. مطالعه این مجموعه داده ممکن است اطلاعات مهمی در مورد پویایی تصادفات در مکان‌های روستایی ارائه کند، که معمولاً تحت تأثیر ویژگی‌های متفاوتی هستند که در محیط‌های شهری دیده نمی‌شوند، مانند محدودیت‌های سرعت و ترکیب‌های مختلف ترافیک.

تجزیه و تحلیل عوامل مؤثر بر تصادفات روستایی: این امر با کمی کردن تأثیر بسیاری از عناصر بر برخوردهای روستایی به مجموعه دانش کمک می کند، بنابراین بر سیاست و اقدامات پیشگیرانه تأثیر می گذارد. تأثیر متنوع این عناصر اطلاعات پیچیده ای را در مورد علل تصادفات روستایی ارائه می دهد، بنابراین به اقدامات متمرکز و تخصیص منابع برای دستیابی به حداکثر تأثیر در کاهش تصادفات کمک می کند.

عملکرد پیش بینی کننده مدل: سهم عمده ای از ایجاد و آزمایش خود مدل حاصل می شود. ایجاد یک پایه برای تجزیه و تحلیل مقایسه ای با سایر مدل های پیش بینی به هدایت مطالعات بیشتر کمک می کند.

بقیه این کار به شرح زیر است: بخش ۲ روش LVQ به کار گرفته شده در این تحقیق را تشریح می کند. بخش ۳ خلاصه ای مختصر از ویژگی های مطالعه موردی ارائه می دهد. در بخش ۴، مدل‌های توسعه‌یافته ساخته می‌شوند و عواملی که در تعداد وسایل نقلیه درگیر در تصادف نقش دارند، تحلیل می‌شوند. در نهایت، بخش ۵ نکات پایانی و پیشنهاداتی را برای تحقیقات آتی ارائه می کند.

۲٫ کوانتیزاسیون برداری یادگیری (LVQ)

عرصه علمی معاصر پیشرفت های قابل توجهی را در شاخه های مختلف هوش مصنوعی (AI) مشاهده کرده است که منجر به توسعه فناوری های نوآورانه شده است. از این رو، اجرای تکنیک های هوش مصنوعی برای مقابله با مسائل پیچیده در زمینه های مختلف علمی یک مسیر اجتناب ناپذیر است. [۲۳,۲۴,۲۵,۲۶,۲۷,۲۸]. شبکه Quantization بردار یادگیری (LVQ) نوعی شبکه عصبی است که از روش یادگیری نظارت شده استفاده می کند. مسائل مربوط به تشخیص و طبقه بندی الگو جایی است که بیشترین کاربرد را پیدا می کند [۲۹,۳۰,۳۱]. LVQ بسیار قابل مقایسه با نقشه های خودسازماندهی (SOM) است، و همچنین شباهت های زیادی با تکنیک طبقه بندی k-Nearest Neighbor (kNN) دارد. برای به دست آوردن نمونه های اولیه (که بردارهای کتاب کد نیز نامیده می شود) برای نشان دادن مناطق کلاس منحصر به فرد، یادگیری کوانتیزاسیون برداری (LVQ) نوعی روش مورد استفاده در طبقه بندی الگوهای آماری است. هایپرپلن هایی که نمونه های اولیه را از هم جدا می کنند، مرزهای این مناطق کلاس را مشخص می کنند و پارتیشن های Voronoi را ایجاد می کنند. شبکه LVQ به روش منحصر به فرد خود از سایر انواع ANN متمایز است [۳۲]. برای کمک به آموزش شبکه و دسته بندی داده ها، شبکه LVQ از روش “برنده همه چیز را می گیرد” استفاده می کند که بر اساس اصول “آموزش هبی” یا “آموزش مشارکتی” است. کوهونن مبدع LVQ است که در طول زمان دستخوش انطباق ها و اصلاحات متعددی شده است که منجر به ظهور چندین نوع LVQ شده است. [۳۳,۳۴,۳۵]. شکل ۱ یک نمونه شبکه LVQ را نشان می دهد.
شکل ۱ بردار وزن W را نشان می دهد که نشان دهنده ارتباط بین هر نورون در لایه ورودی و نورون ها در لایه خروجی است. X نشان دهنده ورودی، Y نشان دهنده خروجی، و W نشان دهنده بردار وزن است. برای طبقه بندی اطلاعات در یک دسته دلخواه، LVQ از فاصله اقلیدسی بین بردارهای ورودی استفاده می کند. اگر فاصله تخمینی ناچیز یا ناچیز باشد، داده ها به کلاس یا هدف با کمترین فاصله اختصاص داده می شود. [۳۶].
یکی از شناخته شده ترین انواع اولیه معرفی شده توسط Kohonen LVQ 2.1 است که به طور گسترده در Kohonen، ۱۹۹۰، و Kohonen، ۱۹۹۷ توضیح داده شده است. در نتیجه، LVQ 2.1 در این مطالعه به منظور طبقه بندی مجموعه داده ها اجرا شد. LVQ 2.1 به دلیل به روز رسانی دو مرکز و نورون به طور همزمان از نسخه های قبلی خود جدا است. این ویژگی باعث بهبود قابل توجهی در کارایی الگوریتم می شود که در نهایت منجر به عملکرد سریعتر می شود. اولین مرحله از روش LVQ 2.1 انتخاب دو نمونه اولیه بر اساس فاصله اقلیدسی است. منل و منمتربرای هر نقطه داده (x، y) در مجموعه آموزشی اس = ( ایکس من ، y من ) من = ۱ ن . اگر برچسب‌های cl و cm نمونه‌های اولیه متمایز باشند و یکی از آنها با برچسب y نقطه داده مطابقت داشته باشد، آنگاه دو نمونه اولیه بر اساس معادلات (۱) و (۲) اصلاح می‌شوند. [۳۷,۳۸,۳۹].

من ل ( تی + ۱ ) = من ل ( تی ) + آ ( تی ) ( ایکس من ل ) ، ج ل = y

من متر ( تی + ۱ ) = من متر ( تی ) آ ( تی ) ( ایکس من متر ) ، ج متر y

در صورتی که برچسب های cl و cm یکسان باشند یا هر دو برچسب با برچسب متفاوت باشند y از نقطه داده، هیچ به روز رسانی پارامتری اجرا نمی شود. روش مدل‌سازی و شاخص‌های عملکرد مورد استفاده در مدل‌سازی در بخش‌های بعدی توضیح داده می‌شود.

۳٫ مطالعات موردی

به منظور آزمایش روش پیشنهادی، از سوابق ۵۶۴ تصادفی که بین سال‌های ۲۰۱۷ تا ۲۰۱۸ در جاده‌های روستایی استان کوزنزا (کالابریا، ایتالیا) رخ داده است، استفاده شد (شکل ۲). نمونه تصادفات جاده ای از پایگاه داده ACI-ISTAT (Automobile Club Italia—موسسه ملی آمار)، که داده های تصادفات جاده ای در ایتالیا را جمع آوری و تجزیه و تحلیل می کند، به دست آمد. [۴۰].

اطلاعات موجود در مجموعه داده جزئیات مربوط به تاریخ و مکان حادثه، نوع جاده، شرایط روسازی، شرایط آب و هوایی، نوع تصادف، نوع وسیله نقلیه درگیر، علل تصادف و عواقب آن را ارائه می‌کند. افراد درگیر (آسیب دیدگی یا مرگ). با این حال، این مجموعه داده حاوی اطلاعاتی درباره رویدادهای Property Damage Only نیست، زیرا ISTAT، در ایتالیا، تصادفات را در صورت ایجاد حداقل یک جراحت شناسایی و طبقه بندی می کند.

اطلاعات فوق با سایر داده های مشخص کننده زمینه مطالعه ادغام شد تا امکان تجزیه و تحلیل دقیق تر و اجرای روش پیشنهادی فراهم شود. به طور خاص، محدودیت‌های سرعت، میانگین سرعت و میانگین ترافیک روزانه سالانه (AADT) برای مشخص کردن عناصر جاده‌ای که در آن تصادفات رخ داده است، به‌دست آمد. محدودیت‌های سرعت از مجموعه داده‌های شرکت ملی جاده‌های خودمختار (ANAS) به دست آمد. میانگین سرعت با جمع‌آوری داده‌های موجود آمار ترافیک تاریخی TomTom (TomTom Move) و Octo Telematics (Octo IoT Cloud) با مراجعه به بخش‌های جاده‌ای با تصادفات مشاهده شده به‌دست آمد. میانگین ترافیک روزانه سالانه از سیستم PANAMA، یک پلت فرم نظارت بر ترافیک ارائه شده توسط ANAS به دست آمد [۴۰].

همانطور که در بخش مدل‌سازی طبقه‌بندی بهتر نشان داده شد، داده‌های ذکر شده در بالا به هفت متغیر مستقل (یعنی عوامل مؤثر بر تعداد وسایل نقلیه درگیر در تصادف)، از جمله چهار متغیر کیفی، یعنی نور روز (DL)، نوع تصادف طبقه‌بندی شدند. (TC)، روز هفته (W) و مکان (LO)، و سه متغیر کمی، یعنی محدودیت سرعت (SL)، سرعت متوسط ​​(AS)، و میانگین سالانه ترافیک روزانه (AADT).

۴٫ مدل سازی

هدف اصلی تحقیق حاضر بررسی متغیرهایی است که بر سطح ایمنی راه در مناطق روستایی از طریق اجرای تکنیک‌های مدل‌سازی طبقه‌بندی دودویی تأثیر می‌گذارند. برای دستیابی به این هدف، مطالعه از یک مدل طبقه بندی توسعه یافته استفاده کرد و NVIC با استفاده از رویکرد LVQ 2.1، همانطور که قبلاً بیان شد، ارزیابی شد.

در مدل‌سازی طبقه‌بندی باینری، ماتریس سردرگمی مفیدترین دقت و اندازه‌گیری خطا را برای ارزیابی عملکرد ارائه می‌کند. [۴۰]. همانطور که به صورت گرافیکی در شکل ۳ و ریاضی در معادلات (۳) و (۴) نشان داده شده است، ماتریس سردرگمی برای تسهیل مقایسه مدل استفاده شده است. نرمال‌سازی داده‌ها در روش‌های مدل‌سازی سیستم مبتنی بر داده ضروری است زیرا پارامترهای مورد بررسی دارای محدوده‌ها و مقیاس‌های اندازه‌گیری متفاوتی هستند. داده‌هایی که نرمال‌سازی نشده‌اند ممکن است به دلیل مسائلی در مقیاس بزرگ‌تر، نادرستی در محاسبات ایجاد کنند. بنابراین، در این مطالعه، هر قطعه داده با استفاده از تکنیک min-max قبل از گنجاندن در یک مدل نرمال‌سازی شد تا احتمال وجود چنین نقاط پرت از بین برود. [۴۰].

آ ج ج تو r آ ج y = تی پ + تی ن تی پ + اف پ + تی ن + اف ن

E r r o r = اف پ + اف ن تی پ + اف پ + تی ن + اف ن = ۱ آ ج ج تو r آ ج y

مدل سازی طبقه بندی

برای شروع فرآیند مدل سازی، مرحله اولیه شامل آماده سازی مجموعه داده است. پس از بررسی کامل داده های موجود، هفت پارامتر شناخته شده در چهار گروه داده مجزا دسته بندی شدند. مقادیر و ویژگی های مرتبط با هر برخورد، که بر NVIC تأثیر می گذارد، به عنوان ورودی برای مدل سازی (متغیرهای مستقل) شناسایی شدند. این چهار متغیر کیفی، یعنی نور روز (DL)، نوع تصادف (TC)، روز هفته (W) و مکان (LO)، و همچنین سه متغیر کمی، از جمله محدودیت سرعت (SL)، میانگین را شامل می‌شود. سرعت (AS) و میانگین سالانه ترافیک روزانه (AADT). متغیرهای فوق طبقه بندی شده و در جدول ۱ ارائه شده است. شایان ذکر است که ارزیابی NVIC با در نظر گرفتن کلاس “۱” با اولین برچسب در تصادفاتی که فقط یک وسیله نقلیه درگیر شده است، انجام می شود. حوادث مربوط به چندین وسیله نقلیه (همانطور که با نام “۲” مشخص شد) در کلاس دوم طبقه بندی شدند. این طبقه بندی بر اساس این فرض اساسی بود که حداقل NVIC مهم ترین عامل در تعیین تفاوت بین کلاس ها است.
مرحله بعدی، پس از جمع آوری و آماده سازی مجموعه داده، تنظیم پارامترهای حاکم بر الگوریتم بود. اثربخشی الگوریتم و میزان همگرایی را می توان با تنظیم این پارامترها تا حد زیادی بهبود بخشید. در بیشتر موارد، هیچ روش استانداردی برای ایجاد چنین محدودیت هایی وجود ندارد. در عوض، کارشناسان برای تخمین محدوده پارامتر به دانش، تجربه و نوع داده خود تکیه می کنند [۴۱]. مدل هایی با درجات مختلف دقت و میزان خطا با استفاده از این عوامل ایجاد می شوند. ادغام استراتژیک تکنیک های داده محور و قضاوت متخصص ممکن است منجر به مدل های قابل اعتمادتر و موثرتر شود.
فرآیند مدل‌سازی شامل ایجاد نقشه‌ای بین داده‌های ورودی و خروجی بود که سپس برای طراحی و ساخت یک مدل طبقه‌بندی بهینه که بتواند کلاس‌های مناسب را به دقت شناسایی کند، استفاده شد. هدف اصلی این مدل دستیابی به بالاترین دقت ممکن بود. منتخبی از متغیرهای حاکم و فواصل متناظر آن‌ها شامل مقدار دوره‌ای ۵، ۱۰، ۲۰، ۳۰ یا ۵۰ می‌شود، به همراه تعداد نورون‌های لایه پنهان (NNHL) که ۱۰، ۲۰، ۳۰ یا ۴۰ در نظر گرفته می‌شوند. علاوه بر این، از مجموع ۵۶۴ مجموعه داده، یک بخش ۷۰ درصد (۳۹۵) برای آموزش مدل، یک بخش ۱۰ درصد (۵۶) برای اهداف اعتبار سنجی و ۲۰ درصد باقیمانده (۱۱۳) برای آزمایش مدل استفاده شد. تعیین این نسبت‌ها تحت تأثیر بینش‌های به دست آمده از تحقیقات قبلی در حوزه پیش‌بینی شبکه‌های عصبی بود. [۴۲]. جدول ۲ نتایج حاصل از مجموع ۲۰ مدل ساخته و ارزیابی شده را نشان می دهد. پس از ساخت مدل‌های مختلف و تعیین امتیاز دقت آن‌ها هم برای آموزش و هم برای تست، یک تکنیک ساده که توسط زورلو و همکاران توصیه شده است. [۴۳] برای رتبه بندی همه مدل ها استفاده شد. رتبه بندی به دست آمده در جدول ۳ ارائه شده است.
جدول ۲ نشان می دهد که پیکربندی مدل های LVQ 2.1 به شدت بر عملکرد آنها تأثیر می گذارد، به ویژه با توجه به تعداد دوره ها و NNHL. رتبه بندی دقت آموزش بین ۶۴٫۳% و ۸۲٫۵% و دقت تست بین ۶۱٫۹% و ۸۲٫۳% کاهش می یابد. این گونه ها توجه را به این موضوع جلب می کنند که چگونه کارایی مدل های مختلف به تنظیمات آنها بستگی دارد. مدل ۱۵ (۳۰ دوره، ۳۰ NNHL) با دقت آموزش ۸۲٫۵٪ و دقت تست ۸۲٫۳٪ بالاترین رتبه را دارد. دقت زیاد آن در هر دو داده های آموزشی و آزمایشی به یک مدل به خوبی تنظیم شده اشاره می کند که با موفقیت ترکیبی از تعمیم و پیچیدگی را ایجاد می کند. مدل ۱۱ (۲۰ دوره، ۳۰ NNHL)، با مقادیر دقت ۸۲٫۳٪ برای آموزش و ۸۱٪ برای تست، همچنین عملکرد واقعا عالی را نشان می دهد. این مدل همچنین قابلیت تعمیم قوی را نشان می دهد.

مدل‌های ۳، ۴، ۱۱، ۱۵ و ۱۶ دقت بسیار بالا و ثابتی را هم برای آموزش و هم برای آزمایش نشان می‌دهند، که نشان می‌دهد این پیکربندی‌ها کمتر مستعد تطبیق بیش از حد هستند و به خوبی تعمیم می‌یابند. مدل‌هایی که دقت تمرینی بالایی دارند، اما دقت تست را به شدت کاهش می‌دهند – مانند مدل ۶ (۷۱٫۹% آموزش در مقابل ۶۱٫۹% تست) – ممکن است داده‌های آموزشی را بیش از حد برازش دهند. با دستیابی به ۸۰٫۸% آموزش و ۷۵% دقت تست، مدل ۱۰ (۲۰ دوره، ۲۰ NNHL) از جمله مدل های با عملکرد بهتر است. در مقایسه با مدل های برتر کمی ضعیف عمل می کند، اما موثر باقی می ماند. مدل‌هایی که مقادیر NNHL بالاتری دارند به دقت بهتری دست می‌یابند، اما همچنین برای جلوگیری از برازش بیش از حد نیاز به تنظیم دقیق دارند، همانطور که در مدل‌هایی با کاهش دقت قابل توجه بین آموزش و آزمایش مشاهده می‌شود.

جدول ۳ رتبه بندی بر اساس دقت آموزش و آزمون بیست مدل را نشان می دهد. با بررسی دقت آنها در هر دو مرحله آموزش و آزمایش، نتایج جدول ۳ به تعیین اینکه کدام مدل ها به طور کلی برتر هستند کمک می کند. با توجه به این، یک مقدار بالاتر نشان دهنده عملکرد بهبود یافته است. مقادیر رتبه بندی جدول ۳ به وضوح عملکرد مدل را نشان می دهد. رتبه های بالاتر نشان دهنده نتایج بهتر است. مدل های برتر مدل ۱۵ و مدل ۱۱ هستند که دقت قابل توجه و تعمیم عالی دارند. مدل ۱۵ (۳۰ دوره، ۳۰ NNHL) با دقت بسیار خوبی در هر دو مرحله آموزش و آزمایش عملکرد خوبی دارد. طراحی آن را قادر می سازد تا از داده ها با کارایی یاد بگیرد و تعمیم دهد. این مدل توانست ۸۱٫۴ درصد از کل داده ها را به درستی طبقه بندی کند. یک رقیب قوی برای پیش‌بینی‌های قابل اعتماد، مدل ۱۱ (۲۰ دوره، ۳۰ NNHL) به طور معمول هم در آموزش و هم در آزمایش امتیاز خوبی می‌گیرد. مدل ۱ (۵ دوره، ۱۰ NNHL) عملکرد ضعیفی را در آموزش و آزمایش نشان می دهد. به طور مشابه با رتبه پایین، مدل ۲ (۵ دوره، ۲۰ NNHL) در هر مرحله بد عمل می کند، که نشان می دهد که به آموزش بیشتر یا تنظیمات دیگری نیاز است.

این مطالعه بر نیاز به پیچیدگی مدل و عملکرد متعادل در هر دو مرحله آموزش و آزمایش برای اطمینان از انتخاب و اجرای مدل بهینه تأکید می‌کند.

علاوه بر این، ماتریس های سردرگمی برای آموزش، اعتبارسنجی، آزمایش و مجموعه داده های کل را می توان در شکل ۴-d یافت.
در زمینه مشکلات طبقه‌بندی، استفاده از منحنی مشخصه عملکرد گیرنده (ROC) به دلیل ماهیت مبتنی بر احتمال، جزء ضروری در تجزیه و تحلیل نتایج است. همچنین ارزیابی عملکرد مدل طبقه‌بندی باینری توسعه‌یافته از طریق محاسبه مساحت زیر منحنی (AUC) که از ۰ تا ۱ متغیر است، انجام می‌شود. قابل توجه است که مقدار AUC 0.5 یا کمتر نشان‌دهنده عملکرد ناکافی منحنی توسعه‌یافته است. مدل، در حالی که مقادیر بیشتر از ۰٫۵ برای قطار، آزمایش و منحنی ROC کل مشاهده می شود که نشان دهنده عملکرد قابل قبول مدل است. در نتیجه، منحنی ROC برای ارزیابی نتایج تولید شده توسط مدل شانزدهم استفاده شد و نتایج برای آموزش، آزمایش، و تمام داده‌های مبتنی بر منحنی ROC در شکل ۵-d ارائه شده است. ذکر این نکته ضروری است که از آستانه ۰٫۵ استفاده شده است که در این سناریو یک مقدار پذیرفته شده است. بر اساس عملکرد مدل شانزدهم، که از سایر مدل‌های توسعه‌یافته بهتر بود، سطح زیر منحنی (AUC) برای مدل شانزدهم به طور قابل توجهی بیشتر از مقادیر AUC برای سایر مدل‌های توسعه‌یافته است.

۵٫ اعتبارسنجی و بحث

اثرات عوامل ورودی مختلف بر NVIC با استفاده از یک مطالعه حساسیت مورد تجزیه و تحلیل قرار گرفت. سپس بهترین مدل LVQ برای پیش‌بینی خروجی مورد استفاده قرار گرفت و میزان همبستگی بین داده‌های ورودی و نتیجه پیش‌بینی‌شده ارزیابی شد. برای تحلیل حساسیت بیشتر، از رویکرد دامنه کسینوس (معادله (۵)) استفاده شد. اینجا n به معنای تعداد کل نقاط داده است، در حالی که rij مخفف قدرت همبستگی بین آنها است. هر دو پارامتر ورودی ایکسik و مقادیر پیش بینی شده yij با نمادها نشان داده می شوند.

r من جی = ک = ۱ n ( ایکس من ک ایکس y جی ک ) ک = ۱ n ایکس من ک ۲ ک = ۱ n y من ک ۲

بر اساس رابطه (۵) و همچنین نتایج به دست آمده از بهترین مدل توسعه یافته LVQ 2.1 (مدل پانزدهم)، تحلیل حساسیت انجام شد و نتایج آن با مطالعه قبلی مقایسه شد. برای اعتبارسنجی مدل LVQ 2.1، مقایسه ای با استفاده از نتایج مطالعات گذشته انجام شد. تحقیقات قبلی از دو تکنیک یادگیری ماشین، یعنی GMDH و GOA-SVM استفاده کردند. لازم به ذکر است که اطلاعات مختصری در مورد مدل های طبقه بندی مورد استفاده در مطالعات گذشته ارائه شده است. طراحی ایده آل مدل های GMDH تا حد زیادی بر عملکرد قابل توجه آنها تأثیر می گذارد. بنابراین، یک مشکل اساسی، تعیین دقیق پارامترهای کنترل مدل GMDH است. ترکیب GOA و SVM یک مدل پیش بینی ایجاد می کند. چندین پارامتر SVM با استفاده از تکنیک GOA برای اطمینان از بهترین عملکرد مدل SVM بهینه شدند. در نهایت، پس از فرآیند مدل‌سازی، بهترین مدل GMDH دارای MNL، MNNL و SP به ترتیب برابر با ۲۰، ۵۰ و ۰٫۵ است. علاوه بر این، پارامتر کنترلی بهینه بهترین مدل GOA-SVM شامل جمعیت گرسهاپر برابر با ۴۰، k برابر برابر با ۳ و گاما ( ج ) از هسته RBF 6.17 بود. برای اطلاعات بیشتر توصیه می شود به مطالعه Guido و همکاران مراجعه کنید. [۴۱]. نتایج به دست آمده از این مقایسه در شکل ۶ نشان داده شده است. شکل ۶ هم ترازی تمامی مدل ها را در تعیین نتایج یکسان نشان می دهد. اگرچه مقادیر درجه همبستگی در مدل‌های مختلف متفاوت بود، اما در نهایت پاسخ‌ها یکسان بود. بر اساس نتایج، TC (نوع تصادف) و AS (متوسط ​​سرعت) به ترتیب بیشترین تأثیر را بر تعداد خودروهای درگیر در تصادف داشتند. همچنین LO (مکان) کمترین تأثیر را بر NVIC در هر سه مدل نشان داد. چندین مدل مستقل تأیید می کنند که این سازگاری به یک پیوند اساسی قوی بین این متغیرها و NVIC اشاره می کند. این همگنی همچنین به حمایت از نتیجه گیری در مورد تأثیر کوچک LO بر پیش بینی NVIC کمک می کند.
اگرچه مدل‌ها در مورد رتبه‌بندی عوامل توافق دارند، اما درجات همبستگی آنها متفاوت است. به عنوان مثال، مدل LVQ 2.1 ضریب همبستگی ۰٫۹۳ را برای TC ارائه می دهد، در حالی که GMDH 0.85 و GOA-SVM 0.87 را نشان می دهد. اگرچه کوچک است، اما این واریانس ها توجه را به تغییرات دقیق در حساسیت رکوردهای هر مدل جلب می کند. شایان ذکر است که yمقادیر محور در شکل ۶ که درجه همبستگی را نشان می دهد قابل توجه است زیرا بر مهمترین و کم اهمیت ترین عناصر در پیش بینی کمیت خودروهای درگیر در تصادف تاکید می کند. این دانش برای اعتبارسنجی مدل و هدایت تلاش‌های معقول برای بهبود ایمنی جاده مورد نیاز است.
همچنین، در مقایسه ای دیگر، عملکرد مدل LVQ 2.1 را با مدل های تحقیقاتی قبلی از نظر دقت در داده های آموزش و آزمایش مقایسه کردیم. [۴۱]. نتایج در شکل ۷ نشان داده شده است. بر اساس نتایج به دست آمده، مشخص است که عملکرد مدل LVQ 2.1 قابل قبول است و تفاوت چندانی در دقت بین مدل های GMDH و GOA-SVM وجود ندارد. اما نکته مهمی که در اینجا باید به آن اشاره شود و یکی از مهمترین نقاط قوت این مطالعه این است که اگرچه تفاوت زیادی بین دقت مدل LVQ 2.1 با سایر مدل ها در ادبیات گذشته وجود نداشت، اما فرآیند مدل سازی و توسعه مدل ساده‌تر بود و تعداد پارامترهایی که باید در مدل LVQ 2.1 تنظیم شوند در مقایسه با مدل‌های دیگر کمتر است، که کاربران را قادر می‌سازد تا مدل را آسان‌تر توسعه دهند.

دقت آموزشی بالای مدل LVQ 2.1 نشان می‌دهد که روندهای داده‌های آموزشی را به‌طور کارآمد ثبت می‌کند. به عنوان مثال، اگر مدل LVQ 2.1 دارای دقت آموزشی ۸۲٫۵٪ باشد، به این معنی است که برای ۸۲٫۵٪ از داده های آموزشی، مدل NVIC را به درستی پیش بینی می کند.

علاوه بر این، مدل‌های GMDH و GOA-SVM دقت آموزشی قابل قبولی را نشان می‌دهند که به ترتیب ۲/۸۳ و ۶/۸۴ درصد است. این درجات دقت معادل نشان می دهد که هر سه مدل می توانند به طور موثر از داده ها یاد بگیرند. دقت تست یک شاخص اصلی تعمیم پذیری مدل به داده های جدید و پردازش نشده است. مدل LVQ 2.1 دارای دقت تست نزدیک به دقت آموزشی آن است که ۸۲٫۳ درصد است و همچنین ظرفیت تعمیم بالایی دارد. مدل‌های GMDH و GOA-SVM نیز دقت تست مشابهی مانند ۸۱٫۶% و ۸۳٫۴% را نشان می‌دهند که نشان می‌دهد این مدل‌ها نیز به خوبی به داده‌های جدید تعمیم می‌یابند.

تغییرات کوچک در دقت آموزش و آزمایش برای هر مدل نشان می دهد که آنها بیش از حد با داده های آموزشی مطابقت ندارند. یک مشکل معمولی که در آن یک مدل در داده‌های آموزشی خوب عمل می‌کند اما در آزمایش داده‌ها ضعیف عمل می‌کند، بیش از حد برازش است. یکنواختی سطوح دقت به اجتناب قابل توجهی از این موضوع توسط هر سه مدل اشاره دارد.

همانطور که قبلا ذکر شد، ارزیابی شدت تصادف بخش مهمی از فرآیند ایمنی جاده در مهندسی حمل و نقل است. با این وجود، افزایش شدت تصادف یکی از اثرات نامطلوب افزایش تعداد وسایل نقلیه درگیر در تصادف است. بنابراین، پیش‌بینی دقیق NVIC می‌تواند در به حداقل رساندن سطح شدت تصادف در حمل‌ونقل جاده‌ای مفید باشد. بر اساس نتایج، می توان استنباط کرد که TC تأثیر قابل توجهی بر NVIC دارد. عوامل مختلفی مانند علائم راهنمایی و رانندگی ناکافی و شرایط جاده ای نامناسب، ممکن است در دسته های خاصی از حوادث خودرو نقش داشته باشند. تصادفات رو به رو اغلب به دلیل بی توجهی راننده به علائم جاده یا نور کافی و در نتیجه دید ضعیف ایجاد می شود. به همین ترتیب، دنبال کردن بیش از حد نزدیک، رانندگی در حین حواس پرتی، یا کاهش ناگهانی سرعت ناشی از شرایط نامساعد جاده ممکن است منجر به وقوع تصادفات از عقب شود. شدت تصادف نیز در تعداد وسایل نقلیه درگیر نقش دارد و تصادفات شدیدتر شامل تعداد بیشتری خودرو می شود. به عنوان مثال، تصادفات مربوط به کامیون ها یا اتوبوس ها می تواند به دلیل اندازه و وزن آنها تأثیر شدیدی داشته باشد و به چندین وسیله نقلیه آسیب برساند. [۴۴,۴۵,۴۶]. همچنین قابل ذکر است که TC در رده مشخصه تصادف قرار دارد.

AS و AADT به ترتیب تاثیرگذارترین پارامترهای موثر بر NVIC بودند. هر دوی این عوامل در دسته ویژگی های جریان ترافیک هستند. به طور خلاصه، می توان استنباط کرد که وقوع تصادفات جاده ای در منطقه روستایی Cosenza به تلاقی عواملی از جمله رفتار انسانی، ویژگی های وسیله نقلیه و زیرساخت جاده نسبت داده می شود. به منظور کاهش بروز تصادفات جاده ای در مسیرهای روستایی در کوزانزا، یک رویکرد چند وجهی ضروری است که شامل بهبود زیرساخت های جاده ای، افزایش آگاهی عمومی از پروتکل های رانندگی ایمن، و اجرای دقیق مقررات ترافیکی است. از طریق اجرای این اقدامات، افزایش ایمنی جاده ها و کاهش بروز حوادث ناگوار خودرو در منطقه روستایی کوزنزا امکان پذیر است.

در چارچوب این تحقیق خاص، این واقعیت که تأثیر LO (مکان) در بین پارامترهای ورودی کمتر از سایر پارامترها است، نشان می‌دهد که موقعیت جغرافیایی تأثیر کمتری بر تعداد اتومبیل‌های درگیر در تصادف دارد. این ممکن است نتیجه شرایط خاص در جاده های روستایی کالابریا باشد. دانستن شرایط LO ممکن است به اصلاح مدل‌ها کمک کند و آنها را قادر می‌سازد تا روی مهم‌ترین عوامل دخیل در افزایش ایمنی جاده در برنامه‌های آینده برای توسعه شبکه جاده‌ای جنوب ایتالیا تمرکز کنند.

اذعان به این امر ضروری است که الگوریتم LVQ 2.1، در حالی که دارای پتانسیل استفاده در تجزیه و تحلیل طبقه بندی و ارائه یک روش قابل اعتماد برای پیش بینی NVIC است، بدون محدودیت خاصی نیست. یکی از مهمترین آنها عدم توانایی الگوریتم در پردازش مجموعه داده های ناقص است. علاوه بر این، تشخیص این نکته ضروری است که مدل خاص توسعه یافته از طریق استفاده از LVQ 2.1 در این مطالعه به دلیل ماهیت متمایز ساختارهای درگیر، مستقیماً به مطالعات موردی جایگزین قابل انتقال نیست. بنابراین پیشنهاد می‌شود که از این چارچوب طبقه‌بندی در تحقیقات آتی در مناطق دیگر استفاده شود و پارامترهای ورودی بر اساس داده‌های موجود از مناطق دیگر با نتایج آن‌ها با نتایج این تحقیق مقایسه شوند.


منبع: https://www.mdpi.com/2673-2688/5/3/54

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *