هوش مصنوعی | متن کامل رایگان | TLtrack: ترکیب ترانسفورماتورها و مدل خطی برای ردیابی قوی چند شی

۱٫ معرفی

ردیابی چند شی (MOT) یک مشکل دیرینه در بینایی کامپیوتری بوده است و هدف آن پیش‌بینی مسیر اجسام در یک ویدیو است. این یکی از وظایف اساسی و در عین حال چالش برانگیز در بینایی کامپیوتر است [۱] و اساس برنامه های کاربردی مهم از نظارت تصویری را تشکیل می دهد [۲,۳] به رانندگی مستقل [۴,۵].

بسیاری از سیستم‌های ردیابی چند شیء مدرن از الگوی ردیابی به تشخیص پیروی می‌کنند که شامل یک آشکارساز است که با روشی برای مرتبط کردن تشخیص‌ها در مسیرها دنبال می‌شود. جابجایی اشیاء مورد علاقه نشانه های مهمی را برای ارتباط شی فراهم می کند. بسیاری از آثار از ردیابی اجسام از طریق تخمین حرکت الهام گرفته شده اند. مرتب سازی [۶] از فیلتر کالمن استفاده می کند [۷] به عنوان مدل حرکت، که یک فیلتر بیز بازگشتی است که از یک چرخه پیش‌بینی به‌روزرسانی معمولی پیروی می‌کند. سادگی و کارایی فیلتر کالمن باعث شده است که در الگوریتم های ردیابی به طور گسترده مورد استفاده قرار گیرد [۶,۸,۹]. اما فیلتر کالمن به عنوان یک مدل حرکتی دست ساز برای مقابله با حرکات متنوع در DanceTrack تلاش می کند. [۱۰]. OC-SORT [11] به محدودیت های SORT اشاره کرد [۶] از استفاده از فیلتر کالمن [۷] و استحکام را در برابر انسداد و حرکت غیرخطی بهبود بخشید. CenterTrack [12] ساخته شده در CenterNet [13] آشکارساز برای یادگیری افست ۲ بعدی بین دو فریم مجاور و مرتبط کردن آنها بر اساس فاصله مرکز. اما CenterTrack [12] عملکرد تداعی بدی دارد. اخیرا MOTR [14]که DETR را گسترش داد [۱۵] و معرفی پرس و جوی آهنگ برای مدل سازی نمونه های ردیابی شده در کل ویدیو، پتانسیل ترانسفورماتور را در ارتباط داده ها نشان داده است. اما MOTR [14] از همان پرس و جو برای پیاده سازی تشخیص و ردیابی استفاده می کند که در نتیجه عملکرد تشخیص ضعیف است.

DanceTrack [10] یک مجموعه داده ردیابی چند شی در مقیاس بزرگ است که در آن اشیاء ظاهری یکنواخت و الگوهای حرکتی متنوع دارند. DanceTrack [10] بر روی موقعیت هایی تمرکز می کند که چندین اشیاء در محدوده نسبتاً بزرگی حرکت می کنند، مناطق مسدود شده به طور دینامیکی تغییر می کنند، و حتی در حالت متقاطع قرار دارند. چنین مواردی در دنیای واقعی رایج است، اما مدل‌های حرکتی ساده‌لوح نمی‌توانند به طور موثر با آن‌ها مقابله کنند. می توان نتیجه گرفت که توانایی تحلیل الگوهای حرکتی پیچیده برای ساخت ردیاب جامع تر و هوشمندتر ضروری است.

هدف ما ایجاد یک مدل حرکت قوی با قابلیت مدیریت حرکات پیچیده بود. با الهام از MOTR [14]، ما از ترانسفورماتورها برای تجزیه و تحلیل الگوهای حرکت متقابل فریم استفاده می کنیم. به طور خاص، یک آشکارساز شی برای تولید نتایج تشخیص و ردیابی پرس و جوها استفاده می شود. سپس یک معماری ترانسفورماتور پرس و جوهای مسیر و ویژگی تصویر را به عنوان ورودی برای پیش بینی مکان فعلی تشخیص ها می گیرد. در روش خود، ما مستقیماً کوئری های مسیر را از تشخیص هر فریم به دست می آوریم. در نتیجه، دقت پیش‌بینی حرکت به شدت تحت تأثیر کیفیت تشخیص‌ها قرار می‌گیرد. در حالی که آشکارساز برای مکان یابی موقعیت اشیا آموزش دیده است، عملکرد آن ممکن است در صحنه های خاص ضعیف باشد. همانطور که در شکل ۱ نشان داده شده است، در کارهای MOT، رخدادهایی مانند انسداد یا محو شدن می‌تواند منجر به جعبه‌های مرزبندی تشخیص دقیق‌تر از حد انتظار شود. ما اشاره می کنیم که نمره اطمینان می تواند در پرداختن به این موضوع کمک کند. بنابراین، ما یک استراتژی ترکیبی برای تخمین حرکت بر اساس امتیاز اطمینان طراحی کرده‌ایم. برای اشیایی که امتیاز اطمینان بالایی دارند، از یک ترانسفورماتور برای پیش‌بینی مکان‌های آینده آنها استفاده می‌کنیم. برعکس، برای اجسام با امتیاز تشخیص پایین، از یک مدل خطی ساده برای تخمین موقعیت استفاده می‌کنیم. اگرچه جهان با سرعت ثابت حرکت نمی کند، اما بسیاری از حرکات کوتاه مدت مانند دو فریم متوالی را می توان با مدل های خطی و با فرض سرعت ثابت تقریب زد. علاوه بر این، یک مدل خطی موقعیت را از طریق سرعت تاریخی مسیر پیش‌بینی می‌کند و تاثیر وضعیت فعلی را کاهش می‌دهد. به طور کلی، TLtrack یک استراتژی ترکیبی جدید برای برآورد حرکت طراحی می کند، نه تنها با در نظر گرفتن اطلاعات تاریخی مسیر، بلکه با تجزیه و تحلیل آخرین حرکات هر جسم.

برای پیشبرد توسعه یک الگوریتم MOT مبتنی بر حرکت، ما یک مدل حرکت جدید به نام TLtrack پیشنهاد می‌کنیم. TLtrack یک استراتژی ترکیبی جدید را برای تخمین حرکت، استفاده از ترانسفورماتورها برای پیش‌بینی مکان‌های تشخیص امتیاز با اطمینان بالا و استفاده از یک مدل خطی برای تشخیص امتیاز کم اطمینان اتخاذ می‌کند. نتایج تجربی ما روی مجموعه داده‌های DanceTrack نشان می‌دهد که روش ما بهترین عملکرد را در مقایسه با سایر مدل‌های حرکتی دارد.

۳٫ روش شناسی

در این بخش، چارچوب ردیابی پیشنهادی را همانطور که در شکل ۲ نشان داده شده است، ارائه می دهیم. ساختار کلی رمزگذار و رمزگشا را می توان در شکل ۳ مشاهده کرد.

۳٫۱٫ معماری

با پیروی از پارادایم ردیابی به تشخیص، مدل ما بر اساس یک آشکارساز شی ساخته شده است. یک معماری ترانسفورماتور اضافی برای استفاده از نشانه های حرکتی استفاده می شود. یک قاب داده شده است ${من}_{تی}$ ابتدا برای تولید نتایج تشخیص به آشکارساز وارد می شود $د_{تی} \in {آر}^{ن ایکس ۵}$ (ن تعداد اشیاء شناسایی شده را نشان می دهد، ۵ شامل جعبه های مرزی و امتیاز اطمینان) و پرس و جوها را دنبال می کند. $س_{تی} \in {آر}^{ن ایکس ج}$ ، که ویژگی های مربوط به هر شی شناسایی شده است. ستون فقرات ترانسفورماتور دو فریم متوالی می گیرد، ${من}_{تی - ۱}$ و قاب ${من}_{تی}$ به عنوان ورودی و نقشه ویژگی انباشته شده را تولید می کند ${اف}_{س} \in {آر}^{اچ ایکس دبلیو ایکس ج}$ . رمزگذار ترانسفورماتور از یک بلوک خودتوجهی و یک بلوک پیشرونده تشکیل شده است ${اف}_{س}$ به عنوان پرس و جو برای ایجاد ویژگی پیشرفته ${اف}_{ه} \in {آر}^{اچ ایکس دبلیو ایکس ج}$ برای رمزگشا رمزگشای ترانسفورماتور، متشکل از یک بلوک توجه متقابل و یک بلوک پیشرونده، از جستجوهای مسیر استفاده می کند. $س_{تی - ۱}$ و ویژگی پیشرفته ${اف}_{ه}$ به ترتیب به عنوان پرس و جو و کلید. یک MLP بعد از رمزگشا برای به دست آوردن نتایج پیش بینی استفاده می شود $پ_{تی} \in {آر}^{ن ایکس ۴}$ (۴ نشان دهنده جعبه های محدود کننده است). برای هر شی شناسایی شده در قاب $تی - ۱$ نشان داده شده توسط پرس و جو آهنگ $س_{تی - ۱}$ نتایج پیش بینی $پ_{تی}$ موقعیت های پیش بینی شده آنها را در قاب نشان می دهد تی. الگوریتم مجارستانی برای دستیابی به تطابق دوبخشی استفاده می شود. تخصیص توسط یک ماتریس هزینه تعیین می شود که تشخیص های جدید را با مسیرهای به دست آمده در فریم های قبلی مقایسه می کند. ما در مورد چگونگی استفاده انتخابی از نتایج پیش بینی بحث خواهیم کرد $پ_{تی}$ تا بعداً ماتریس هزینه را پر کنید.

۳٫۲٫ ترانسفورماتورها و مسیر خطی

ما یک استراتژی ترکیبی بر اساس امتیازات اطمینان برای برآورد حرکت طراحی کرده‌ایم. با فرض اینکه $پ_{تی - ۱}$ مکان تشخیص ها در قاب باشد $تی - ۱$ هدف ما پیش بینی مکان آنها در قاب است تی.

برای تشخیص امتیاز با اطمینان بالا، ابتدا نقشه‌های ویژگی‌های آن‌ها را به جستجوهای مسیر تبدیل می‌کنیم

س_{تی - ۱}

. سپس

س_{تی - ۱}

از یک بلوک توجه به خود عبور می کند که می تواند به صورت بیان شود

$اس ه ل f آ تی تی ه n تی من o n (س ، ک ، V) = س o f تی متر آ ایکس (\frac{س ک^{تی}}{\sqrt{د_{ک}}}) V$

(۱)

$س_{تی - ۱}^{س ه ل f} = اس ه ل f آ تی تی ه n تی من o n (س_{تی - ۱} ، س_{تی - ۱} ، س_{تی - ۱})$

(۲)

جایی که $د_{ک}$ بعد بردار کلید است و $س_{تی - ۱}^{س ه ل f}$ خروجی بلوک توجه به خود است. $س_{تی - ۱}^{س ه ل f}$ سپس به بلوک توجه متقاطع وارد می شود که می تواند به صورت بیان شود

$ج r o س س آ تی تی ه n تی من o n (س ، ک ، V) = س o f تی متر آ ایکس (\frac{س ک^{تی}}{\sqrt{د_{ک}}}) V$

(۳)

$س_{تی - ۱}^{ج r o س س} = ج r o س س آ تی تی ه n تی من o n (س_{تی - ۱}^{س ه ل f} ، {اف}_{ه} ، {اف}_{ه})$

(۴)

جایی که $س_{تی - ۱}^{ج r o س س}$ خروجی بلوک توجه متقاطع است و ${اف}_{ه}$ نشان دهنده ویژگی بهبود یافته تولید شده توسط رمزگذار است. در پایان، یک شبکه فید فوروارد و یک MLP روی تولید پیش‌بینی‌های نهایی کار می‌کنند:

$پ_{تی} = م L پ (اف اف ن (س_{تی - ۱}^{ج r o س س}))$

(۵)

جایی که $پ_{تی} \in {آر}^{ن ایکس ۴}$ (۴ نشان دهنده جعبه های مرزی است) مکان های پیش بینی شده روی قاب هستند تی.

برای تشخیص امتیاز اطمینان پایین، ما مکان آنها را با یک مدل خطی ساده تخمین می زنیم. با فرض اینکه

پ_{تی - ۱}^{ل o w}

محل تشخیص امتیاز کم اطمینان در فریم باشد

تی - ۱

محل آن روی قاب تی را می توان توسط

$پ_{تی}^{ل o w} = پ_{تی - ۱}^{ل o w} + v \cdot D تی$

(۶)

جایی که v میانگین سرعت این جسم بین آخرین فریم M است. آزمایش‌های بیشتر تعیین می‌کنند که انتخاب چند فریم برای محاسبه سرعت متوسط مناسب است. تنظیم کردیم $D تی$ ۱ بودن

کل استراتژی ترکیبی را می توان با نشان داد

${\hat{پ}}_{تی}^{من} = \{\begin{matrix} پ_{تی - ۱}^{من} + v \cdot D تی ، & س_{تی - ۱}^{من} < تی \\ آ (پ_{تی - ۱}^{من}) ، & ه ل س ه \end{matrix}$

(۷)

جایی که $پ_{تی - ۱}^{من}$ نشان دهنده محل تشخیص i-ام در قاب است $تی - ۱$ و $س_{تی - ۱}^{من}$ نشان دهنده نمره اعتماد آن است. $آ (پ_{تی - ۱}^{من})$ نشان دهنده پردازش تشخیص های با امتیاز بالا است که در بالا بحث کردیم و $تی$ آستانه نمره اعتماد است. تنظیم کردیم $تی$ ۰٫۹ بر اساس آزمایش های بیشتر.

۳٫۳٫ آموزش

همان تنظیمات را در TransTrack دنبال کنید [۲۴]، یک تصویر ثابت را به عنوان داده قطار انتخاب می کنیم. فریم مجاور با مقیاس بندی و ترجمه تصادفی تصویر استاتیک شبیه سازی شده است. در مرحله اول، یک آشکارساز آموزش دیده شناسایی ها را ایجاد می کند و پرس و جوها را از فریم اصلی ردیابی می کند. در مرحله دوم، پرس و جوهای مسیر و قاب مجاور به ترانسفورماتور تغذیه می شوند تا نتایج پیش بینی را به دست آورند. برای نظارت بر نتایج پیش‌بینی، یک مجموعه ضرر پیش‌بینی اعمال می‌کنیم. تلفات مبتنی بر مجموعه یک تطابق دو بخشی بهینه بین پیش‌بینی‌ها و اشیاء حقیقت زمین ایجاد می‌کند. هزینه تطبیق به صورت تعریف شده است

$L = ل_{ج ل س} \cdot L_{ج ل س} + ل_{L ۱} \cdot L_{L ۱} + ل_{g من o تو} \cdot L_{g من o تو}$

جایی که $L_{ج ل س}$ از دست دادن کانونی است $L_{L ۱}$ نشان دهنده از دست دادن L1 است، $L_{g من o تو}$ از دست دادن IoU تعمیم یافته است و $ل_{ج ل س}$ ، $ل_{L ۱}$ و $ل_{g من o تو}$ ضرایب وزنی مربوطه هستند. ضرر تمرین همان هزینه تطبیق است با این تفاوت که فقط روی جفت های همسان انجام می شود.

۵٫ نتیجه گیری ها

این مقاله TLtrack را معرفی می‌کند، یک استراتژی ترکیبی جدید برای تخمین‌های حرکت بر اساس امتیازات اطمینان. برای تشخیص با امتیاز اطمینان بالا، TLtrack از ترانسفورماتورها برای پیش بینی مکان ها استفاده می کند. برعکس، برای تشخیص با امتیاز اطمینان پایین، به یک مدل خطی مستقیم متوسل می شود. به این ترتیب نه تنها می توان جهت مسیر در گذشته را در نظر گرفت، بلکه می توان آخرین حرکات را نیز تحلیل کرد. نقطه قوت TLtrack در سادگی، قابلیت پردازش بلادرنگ و اثربخشی آن نهفته است. یک ارزیابی تجربی روی مجموعه داده‌های Dancetrack نشان می‌دهد که روش ما بهترین عملکرد را در مقایسه با سایر مدل‌های حرکتی دارد.

منبع: https://www.mdpi.com/2673-2688/5/3/47