۱٫ معرفی
ردیابی چند شی (MOT) یک مشکل دیرینه در بینایی کامپیوتری بوده است و هدف آن پیشبینی مسیر اجسام در یک ویدیو است. این یکی از وظایف اساسی و در عین حال چالش برانگیز در بینایی کامپیوتر است [۱] و اساس برنامه های کاربردی مهم از نظارت تصویری را تشکیل می دهد [۲,۳] به رانندگی مستقل [۴,۵].
بسیاری از سیستمهای ردیابی چند شیء مدرن از الگوی ردیابی به تشخیص پیروی میکنند که شامل یک آشکارساز است که با روشی برای مرتبط کردن تشخیصها در مسیرها دنبال میشود. جابجایی اشیاء مورد علاقه نشانه های مهمی را برای ارتباط شی فراهم می کند. بسیاری از آثار از ردیابی اجسام از طریق تخمین حرکت الهام گرفته شده اند. مرتب سازی [۶] از فیلتر کالمن استفاده می کند [۷] به عنوان مدل حرکت، که یک فیلتر بیز بازگشتی است که از یک چرخه پیشبینی بهروزرسانی معمولی پیروی میکند. سادگی و کارایی فیلتر کالمن باعث شده است که در الگوریتم های ردیابی به طور گسترده مورد استفاده قرار گیرد [۶,۸,۹]. اما فیلتر کالمن به عنوان یک مدل حرکتی دست ساز برای مقابله با حرکات متنوع در DanceTrack تلاش می کند. [۱۰]. OC-SORT [11] به محدودیت های SORT اشاره کرد [۶] از استفاده از فیلتر کالمن [۷] و استحکام را در برابر انسداد و حرکت غیرخطی بهبود بخشید. CenterTrack [12] ساخته شده در CenterNet [13] آشکارساز برای یادگیری افست ۲ بعدی بین دو فریم مجاور و مرتبط کردن آنها بر اساس فاصله مرکز. اما CenterTrack [12] عملکرد تداعی بدی دارد. اخیرا MOTR [14]که DETR را گسترش داد [۱۵] و معرفی پرس و جوی آهنگ برای مدل سازی نمونه های ردیابی شده در کل ویدیو، پتانسیل ترانسفورماتور را در ارتباط داده ها نشان داده است. اما MOTR [14] از همان پرس و جو برای پیاده سازی تشخیص و ردیابی استفاده می کند که در نتیجه عملکرد تشخیص ضعیف است.
DanceTrack [10] یک مجموعه داده ردیابی چند شی در مقیاس بزرگ است که در آن اشیاء ظاهری یکنواخت و الگوهای حرکتی متنوع دارند. DanceTrack [10] بر روی موقعیت هایی تمرکز می کند که چندین اشیاء در محدوده نسبتاً بزرگی حرکت می کنند، مناطق مسدود شده به طور دینامیکی تغییر می کنند، و حتی در حالت متقاطع قرار دارند. چنین مواردی در دنیای واقعی رایج است، اما مدلهای حرکتی سادهلوح نمیتوانند به طور موثر با آنها مقابله کنند. می توان نتیجه گرفت که توانایی تحلیل الگوهای حرکتی پیچیده برای ساخت ردیاب جامع تر و هوشمندتر ضروری است.
هدف ما ایجاد یک مدل حرکت قوی با قابلیت مدیریت حرکات پیچیده بود. با الهام از MOTR [14]، ما از ترانسفورماتورها برای تجزیه و تحلیل الگوهای حرکت متقابل فریم استفاده می کنیم. به طور خاص، یک آشکارساز شی برای تولید نتایج تشخیص و ردیابی پرس و جوها استفاده می شود. سپس یک معماری ترانسفورماتور پرس و جوهای مسیر و ویژگی تصویر را به عنوان ورودی برای پیش بینی مکان فعلی تشخیص ها می گیرد. در روش خود، ما مستقیماً کوئری های مسیر را از تشخیص هر فریم به دست می آوریم. در نتیجه، دقت پیشبینی حرکت به شدت تحت تأثیر کیفیت تشخیصها قرار میگیرد. در حالی که آشکارساز برای مکان یابی موقعیت اشیا آموزش دیده است، عملکرد آن ممکن است در صحنه های خاص ضعیف باشد. همانطور که در شکل ۱ نشان داده شده است، در کارهای MOT، رخدادهایی مانند انسداد یا محو شدن میتواند منجر به جعبههای مرزبندی تشخیص دقیقتر از حد انتظار شود. ما اشاره می کنیم که نمره اطمینان می تواند در پرداختن به این موضوع کمک کند. بنابراین، ما یک استراتژی ترکیبی برای تخمین حرکت بر اساس امتیاز اطمینان طراحی کردهایم. برای اشیایی که امتیاز اطمینان بالایی دارند، از یک ترانسفورماتور برای پیشبینی مکانهای آینده آنها استفاده میکنیم. برعکس، برای اجسام با امتیاز تشخیص پایین، از یک مدل خطی ساده برای تخمین موقعیت استفاده میکنیم. اگرچه جهان با سرعت ثابت حرکت نمی کند، اما بسیاری از حرکات کوتاه مدت مانند دو فریم متوالی را می توان با مدل های خطی و با فرض سرعت ثابت تقریب زد. علاوه بر این، یک مدل خطی موقعیت را از طریق سرعت تاریخی مسیر پیشبینی میکند و تاثیر وضعیت فعلی را کاهش میدهد. به طور کلی، TLtrack یک استراتژی ترکیبی جدید برای برآورد حرکت طراحی می کند، نه تنها با در نظر گرفتن اطلاعات تاریخی مسیر، بلکه با تجزیه و تحلیل آخرین حرکات هر جسم.
برای پیشبرد توسعه یک الگوریتم MOT مبتنی بر حرکت، ما یک مدل حرکت جدید به نام TLtrack پیشنهاد میکنیم. TLtrack یک استراتژی ترکیبی جدید را برای تخمین حرکت، استفاده از ترانسفورماتورها برای پیشبینی مکانهای تشخیص امتیاز با اطمینان بالا و استفاده از یک مدل خطی برای تشخیص امتیاز کم اطمینان اتخاذ میکند. نتایج تجربی ما روی مجموعه دادههای DanceTrack نشان میدهد که روش ما بهترین عملکرد را در مقایسه با سایر مدلهای حرکتی دارد.
۳٫ روش شناسی
در این بخش، چارچوب ردیابی پیشنهادی را همانطور که در شکل ۲ نشان داده شده است، ارائه می دهیم. ساختار کلی رمزگذار و رمزگشا را می توان در شکل ۳ مشاهده کرد.
۳٫۱٫ معماری
با پیروی از پارادایم ردیابی به تشخیص، مدل ما بر اساس یک آشکارساز شی ساخته شده است. یک معماری ترانسفورماتور اضافی برای استفاده از نشانه های حرکتی استفاده می شود. یک قاب داده شده است ابتدا برای تولید نتایج تشخیص به آشکارساز وارد می شود (ن تعداد اشیاء شناسایی شده را نشان می دهد، ۵ شامل جعبه های مرزی و امتیاز اطمینان) و پرس و جوها را دنبال می کند. ، که ویژگی های مربوط به هر شی شناسایی شده است. ستون فقرات ترانسفورماتور دو فریم متوالی می گیرد، و قاب به عنوان ورودی و نقشه ویژگی انباشته شده را تولید می کند . رمزگذار ترانسفورماتور از یک بلوک خودتوجهی و یک بلوک پیشرونده تشکیل شده است به عنوان پرس و جو برای ایجاد ویژگی پیشرفته برای رمزگشا رمزگشای ترانسفورماتور، متشکل از یک بلوک توجه متقابل و یک بلوک پیشرونده، از جستجوهای مسیر استفاده می کند. و ویژگی پیشرفته به ترتیب به عنوان پرس و جو و کلید. یک MLP بعد از رمزگشا برای به دست آوردن نتایج پیش بینی استفاده می شود (۴ نشان دهنده جعبه های محدود کننده است). برای هر شی شناسایی شده در قاب نشان داده شده توسط پرس و جو آهنگ نتایج پیش بینی موقعیت های پیش بینی شده آنها را در قاب نشان می دهد تی. الگوریتم مجارستانی برای دستیابی به تطابق دوبخشی استفاده می شود. تخصیص توسط یک ماتریس هزینه تعیین می شود که تشخیص های جدید را با مسیرهای به دست آمده در فریم های قبلی مقایسه می کند. ما در مورد چگونگی استفاده انتخابی از نتایج پیش بینی بحث خواهیم کرد تا بعداً ماتریس هزینه را پر کنید.
۳٫۲٫ ترانسفورماتورها و مسیر خطی
ما یک استراتژی ترکیبی بر اساس امتیازات اطمینان برای برآورد حرکت طراحی کردهایم. با فرض اینکه مکان تشخیص ها در قاب باشد هدف ما پیش بینی مکان آنها در قاب است تی.
برای تشخیص امتیاز با اطمینان بالا، ابتدا نقشههای ویژگیهای آنها را به جستجوهای مسیر تبدیل میکنیم
. سپس
از یک بلوک توجه به خود عبور می کند که می تواند به صورت بیان شود
جایی که بعد بردار کلید است و خروجی بلوک توجه به خود است. سپس به بلوک توجه متقاطع وارد می شود که می تواند به صورت بیان شود
جایی که خروجی بلوک توجه متقاطع است و نشان دهنده ویژگی بهبود یافته تولید شده توسط رمزگذار است. در پایان، یک شبکه فید فوروارد و یک MLP روی تولید پیشبینیهای نهایی کار میکنند:
جایی که (۴ نشان دهنده جعبه های مرزی است) مکان های پیش بینی شده روی قاب هستند تی.
برای تشخیص امتیاز اطمینان پایین، ما مکان آنها را با یک مدل خطی ساده تخمین می زنیم. با فرض اینکه
محل تشخیص امتیاز کم اطمینان در فریم باشد
محل آن روی قاب
تی را می توان توسط
جایی که v میانگین سرعت این جسم بین آخرین فریم M است. آزمایشهای بیشتر تعیین میکنند که انتخاب چند فریم برای محاسبه سرعت متوسط مناسب است. تنظیم کردیم ۱ بودن
کل استراتژی ترکیبی را می توان با نشان داد
جایی که نشان دهنده محل تشخیص i-ام در قاب است و نشان دهنده نمره اعتماد آن است. نشان دهنده پردازش تشخیص های با امتیاز بالا است که در بالا بحث کردیم و آستانه نمره اعتماد است. تنظیم کردیم ۰٫۹ بر اساس آزمایش های بیشتر.
۳٫۳٫ آموزش
همان تنظیمات را در TransTrack دنبال کنید [۲۴]، یک تصویر ثابت را به عنوان داده قطار انتخاب می کنیم. فریم مجاور با مقیاس بندی و ترجمه تصادفی تصویر استاتیک شبیه سازی شده است. در مرحله اول، یک آشکارساز آموزش دیده شناسایی ها را ایجاد می کند و پرس و جوها را از فریم اصلی ردیابی می کند. در مرحله دوم، پرس و جوهای مسیر و قاب مجاور به ترانسفورماتور تغذیه می شوند تا نتایج پیش بینی را به دست آورند. برای نظارت بر نتایج پیشبینی، یک مجموعه ضرر پیشبینی اعمال میکنیم. تلفات مبتنی بر مجموعه یک تطابق دو بخشی بهینه بین پیشبینیها و اشیاء حقیقت زمین ایجاد میکند. هزینه تطبیق به صورت تعریف شده است
جایی که از دست دادن کانونی است نشان دهنده از دست دادن L1 است، از دست دادن IoU تعمیم یافته است و ، و ضرایب وزنی مربوطه هستند. ضرر تمرین همان هزینه تطبیق است با این تفاوت که فقط روی جفت های همسان انجام می شود.
۵٫ نتیجه گیری ها
این مقاله TLtrack را معرفی میکند، یک استراتژی ترکیبی جدید برای تخمینهای حرکت بر اساس امتیازات اطمینان. برای تشخیص با امتیاز اطمینان بالا، TLtrack از ترانسفورماتورها برای پیش بینی مکان ها استفاده می کند. برعکس، برای تشخیص با امتیاز اطمینان پایین، به یک مدل خطی مستقیم متوسل می شود. به این ترتیب نه تنها می توان جهت مسیر در گذشته را در نظر گرفت، بلکه می توان آخرین حرکات را نیز تحلیل کرد. نقطه قوت TLtrack در سادگی، قابلیت پردازش بلادرنگ و اثربخشی آن نهفته است. یک ارزیابی تجربی روی مجموعه دادههای Dancetrack نشان میدهد که روش ما بهترین عملکرد را در مقایسه با سایر مدلهای حرکتی دارد.
منبع: https://www.mdpi.com/2673-2688/5/3/47