کمک ترجمه تطبیقی ​​در زمان واقعی از طریق ردیابی چشم

در این بخش، معماری فنی و جزئیات پیاده سازی ETS را ارائه می دهیم. این بخش مجموعه فناوری، روش‌شناسی و اصول مهندسی را که در ایجاد یک برنامه کاربردی قوی و پاسخگو طراحی شده برای ارائه پشتیبانی ترجمه بلادرنگ برای کاربرانی که متن را به زبان غیر بومی می‌خوانند به اوج خود می‌رساند. طراحی و توسعه ETS توسط مجموعه ای از الزامات حیاتی هدایت شد تا اطمینان حاصل شود که سیستم نه تنها کاربردی است، بلکه قابل اعتماد، کاربر محور و در سناریوهای عملی موثر است. اولویت های کلیدی طراحی شامل پردازش داده ها در زمان واقعی، دقت در دقت ردیابی چشم، طراحی رابط کاربری بصری (UI)، مقیاس پذیری، انعطاف پذیری و حفظ حریم خصوصی داده ها است. توانایی سیستم برای پردازش داده‌های ردیابی چشم در زمان واقعی از طریق ادغام منابع محاسباتی با کارایی بالا و الگوریتم‌های بهینه‌شده، امکان داده‌های یکپارچه را بدون تأخیر محسوس به دست آورد. این تضمین می کند که کاربران کمک ترجمه فوری و مرتبط با متن را دریافت می کنند. دستیابی به دقت بالا ضروری بود و نیاز به استفاده از الگوریتم‌های پیشرفته و تکنیک‌های کالیبراسیون دقیق برای ترسیم دقیق حرکات چشم به کلمات خاص روی صفحه بود. بخش‌های زیر به تفصیل به این جنبه‌ها می‌پردازند و نشان می‌دهند که چگونه انتخاب‌های طراحی زیربنای پاسخگویی دقیق سیستم به رفتار کاربر است.

۳٫۱٫ پشته فناوری و معماری سیستم

توسعه ETS شامل یک رویکرد چند سطحی بود که شامل استفاده از فناوری‌ها و دستگاه‌های سخت‌افزاری مختلف بود. رابط کاربری با استفاده از کتابخانه React توسعه یافته است [۳۵]به دلیل ساختار ماژولار و منعطف خود همراه با قابلیت استفاده مجدد از اجزا، که برای حفظ یک پایگاه کد مقیاس پذیر و قابل نگهداری ضروری است، شناخته شده است. DOM مجازی React در بهینه‌سازی عملکرد برنامه بسیار مفید بود، در حالی که JSX (JavaScript XML) وضوح و مدیریت کد را افزایش داد. عناصر تعاملی UI با استفاده از React در ارتباط با Tailwind CSS پیاده سازی شدند [۳۶,۳۷]فریم ورکی که برای اولین بار در برنامه کاربردی است که استایل کارآمد و ثابت را در برنامه تسهیل می کند. کتابخانه React-PDF [38] برای فعال کردن تعامل یکپارچه با اسناد PDF در برنامه یکپارچه شده است و تجربه خواندن پویا و قابل تنظیم را برای کاربران فراهم می کند. این سیستم از آپلود اسناد پشتیبانی می‌کند و کاربران را قادر می‌سازد تا سطح زوم دلخواه خود را انتخاب کنند و در میان محتوای قابل پیمایش در فایل‌های PDF آپلود شده حرکت کنند.
در باطن، سیستم با استفاده از Flask توسعه داده شد [۳۹]یک چارچوب میکرو وب که برای معماری سبک وزن و انعطاف پذیری آن انتخاب شده است. پسوند flask-cors برای مدیریت اشتراک‌گذاری منابع متقاطع (CORS) استفاده شد. [۴۰]تضمین ارتباط ایمن منحصراً بین React Frontend و Backend Flask. برای ذخیره سازی داده ها، SQLite [41]یک موتور پایگاه داده مستقل و بدون سرور، به دلیل ماهیت سبک آن انتخاب شد که راه حلی کارآمد برای مدیریت داده های جاسازی شده ساده ارائه می دهد. علاوه بر این، Elasticsearch [33]یک موتور جستجو و تجزیه و تحلیل توزیع شده، برای مدیریت ضبط، پردازش و تجزیه و تحلیل حجم زیادی از داده های تولید شده توسط دستگاه ردیابی چشم در طول استفاده از سیستم برای هر کاربر، یکپارچه شده است. برای اطمینان از حفظ حریم خصوصی کاربر، داده‌های ردیابی چشمی که در Elasticsearch ذخیره شده بودند، کاملاً ناشناس بودند و شناسه‌های کاربری منحصر به فرد و غیرقابل شناسایی به هر شرکت‌کننده اختصاص داده شد.
علاوه بر این، فرآیندهای جمع آوری و ذخیره سازی داده ها با مقررات GDPR مطابقت دارد [۴۲]اطمینان از دسترسی محدود به این داده ها. این اقدامات از اطلاعات رفتاری حساس محافظت می کند و از استانداردهای اخلاقی برای مدیریت داده ها حمایت می کند. این داده‌ها توسط الگوریتم‌های هوش مصنوعی پیشرفته ذخیره می‌شوند و برای دستیابی به شخصی‌سازی کاربر با ردیابی چشم، سیستم را قادر می‌سازند تا تجربیات کاربر را بر اساس الگوها و ترجیحات فردی به‌صورت پویا وفق داده و بهینه‌سازی کند. برای استفاده از داده‌های ردیابی چشم در زمان واقعی و دسترسی به کمک ترجمه، کاربران باید به یک دستگاه ردیابی چشم سازگار متصل به سیستم رایانه‌شان متصل شوند و اطمینان حاصل کنند که سیستم به رفتار کاربر پاسخ دقیق می‌دهد.
برای مدیریت جمع‌آوری داده‌های ردیابی چشم و تعامل با دستگاه ردیابی چشم، یک برنامه جداگانه به نام ETSDVM (سرویس مدیریت دستگاه ترجمه ردیابی چشم)، با استفاده از کیت توسعه نرم‌افزار سطح پایین Tobii Pro نسخه ۱٫۱۱ در پایتون توسعه داده شد. SDK). سرویس ETSDVM، وقتی از شما خواسته می‌شود، مشترک ردیابی چشم می‌شود و داده‌های ردیابی چشم را در زمان واقعی ضبط می‌کند. کتابخانه سوکت های وب پایتون [۴۳] ارتباط بلادرنگ بین سرویس ETSDVM و کلاینت React را فعال می کند و به برنامه اجازه می دهد تا داده های ردیابی چشم را فورا پردازش و نمایش دهد. در نهایت، Google Translate API [44] برای ارائه خدمات ترجمه در زمان واقعی بر اساس ناامیدی محاسبه شده کاربر یکپارچه شده است.

برای عملکرد بهینه سیستم، برنامه ETS مسئول مدیریت UI، پردازش باطن، ذخیره سازی داده ها و ذخیره داده های ردیابی چشم کاربر در Elasticsearch بود. در مقابل، برنامه ETSDVM به طور انحصاری بر ارتباط با دستگاه ردیابی چشم، مدیریت جمع‌آوری و انتقال بی‌درنگ داده‌های ردیابی چشم متمرکز بود.

در طول توسعه، چندین چالش به وجود آمد که در ابتدا مورد توجه قرار نگرفت و نیاز به فناوری‌های اضافی و الگوریتم‌های سفارشی داشت. تشخیص کاراکتر نوری (OCR) با استفاده از Pytesseract [34,45] برای تبدیل محتوای تصویر از اسناد PDF به متن دیجیتال استفاده شد و موقعیت دقیق کلمات را بر روی صفحه آسان کرد. برای بهبود این فرآیند، ما از Pytesseract برای ایجاد جعبه های مجازی در اطراف هر کلمه، به استثنای کلمات توقف، استفاده کردیم. [۴۶]امکان ردیابی دقیق تمرکز کاربر را فراهم می کند. این ادغام، همراه با داده های واقعی ردیابی چشم، سیستم را قادر می سازد تا کلمه دقیقی را که کاربر در هر لحظه بر روی آن تمرکز می کند، تعیین کند. الگوریتم های سفارشی برای رسیدگی به تناقضات مقیاس بندی و تعیین زمان دقیق نمایش ترجمه ها بر اساس مدت زمان نگاه کاربر توسعه داده شدند. این سیستم پویا، پاپ آپ ترجمه را بر اساس طول کلمه تنظیم می کند، زیرا کلمات طولانی تر به زمان بیشتری برای پردازش کاربر نیاز دارند.
برای اجرای دقیق زمان‌بندی نمایش ترجمه، از رابطه (۱) استفاده شد:

د من س ص ل الف y تی من متر ه = ۵۰ متر س + ۱۰ متر س x ن تو متر ب ه r O f L ه تی تی ه r س

این معادله (۱) به دنبال یک مطالعه آزمایشی اولیه شامل هفت کاربر به دست آمد که در طی آن پیکربندی‌های زمان‌بندی متعددی را برای ارزیابی و تعیین سرعت نمایش ترجمه بهینه برای راحتی و کارایی کاربر آزمایش کردیم. معادله (۱) تضمین می‌کند که ترجمه پس از ۵۰ میلی‌ثانیه زمانی که کاربر روی یک کلمه تمرکز می‌کند ظاهر می‌شود، و برای هر حرف در کلمه ۱۰ میلی‌ثانیه اضافه می‌شود. برای رسیدن به این هدف، داده‌های نگاه را بافر کرده و از یک الگوریتم هموارسازی برای فیلتر کردن نویز و تشخیص دقیق تثبیت‌های پایدار استفاده کردیم. با مقایسه مداوم مختصات نگاه کاربر با مرزهای هر کلمه روی صفحه، کلمه خاصی را که کاربر روی آن ثابت کرده بود شناسایی کردیم. پس از تشخیص تثبیت کلمه، یک پاپ آپ ترجمه را در نزدیکی کلمه نمایش دادیم. داده‌های ترجمه به Google API واکشی شدند [۴۷] خدمات ترجمه، ارائه ترجمه بلادرنگ بر اساس نگاه کاربر و ترجیح زبان.
در ابتدا، پاپ آپ با یک مفهوم رابط کاربری جایگزین طراحی شد (شکل ۱ را ببینید) با هدف ارائه بازخورد ترجمه بدون درز و فوری برای بهبود تجربه خواندن. برای اصلاح این رویکرد، بخشی از مطالعه آزمایشی به طور خاص شامل تعیین پاپ آپ ترجمه ترجیحی برای قابلیت استفاده و کارایی بهینه بود. بر اساس ورودی آنها، و با کسب تجربه در مورد اینکه چگونه سیستم برای کاربران معمولی بهترین عملکرد را دارد، تصمیم گرفتیم طرحی را انتخاب کنیم که قابلیت استفاده را با حداقل اختلال متعادل کند. این منجر به UI نهایی نشان داده شده در شکل ۲ شد که با تنظیمات کاربر و مشاهدات ما برای یک کمک خواندن یکپارچه هماهنگ تر است.

در نهایت، برای حفظ دقت، سیستم به طور مداوم داده های ردیابی چشم کاربر را نظارت می کند. قبل از هر جلسه، شرکت کنندگان تحت یک فرآیند کالیبراسیون دقیق برای دستیابی به استانداردهای دقت بالا، از جمله دقت متریک زیر ۰٫۱ درجه و دقت (انحراف استاندارد) و دقت (RMS) زیر ۰٫۱۵ درجه قرار گرفتند. این کالیبراسیون تضمین کرد که ردیاب چشم به خوبی با الگوهای نگاه هر شرکت کننده تنظیم شده است. در مطالعه ما، فاصله قبل از خط روی ۵٫۳ pt، اندازه متن ۱۰ با Times New Roman به عنوان سبک فونت، و سطح زوم در مانیتور داخلی Spectrum تا ۳۳۰ درصد تنظیم شد. این تنظیمات خاص برای همسویی با پارامترهای کالیبراسیون دقت بهینه سیستم ردیابی چشم ما انتخاب شده‌اند، که اطمینان ردیابی بالا را تضمین می‌کند و خطر ناهماهنگی را در طول ترجمه‌های بلادرنگ به حداقل می‌رساند.

این سیستم از Pytesseract برای پردازش سند و ایجاد کادرهای محدود کننده مجازی در اطراف هر کلمه استفاده می کند که برای مطابقت با سطح بزرگنمایی تعیین شده، مقیاس بندی و تنظیم می شوند. اگر حداقل یک نقطه داده نگاه خارج از کادر مجازی در اطراف کلمه بیفتد، سیستم زمان نمایش را بازنشانی می کند و قبل از نمایش دوباره ترجمه، دوباره محاسبه می کند. برای افزایش دقت در شروع ترجمه، ETS یک تاخیر محاسبه شده ۵۰ ms + 10 میلی ثانیه در هر حرف اعمال می کند – پارامتری که از طریق مطالعات آزمایشی پالایش شده است. برای تقویت بیشتر این فرآیند تطبیقی، ما یک رابط اختصاصی بین کاربر و ردیاب چشم ایجاد کردیم که جریان داده را بهینه می‌کند و حداقل تأخیر را تضمین می‌کند، جایی که کاربر می‌تواند هر زمان که بخواهد به دستگاه ردیابی چشم متصل شود و از آن جدا شود (شکل ۳). این منطق پاسخی متناسب و پویا به رفتار خواندن کاربر ارائه می دهد و تجربه ترجمه را بر اساس موقعیت دقیق خواندن بهینه می کند.

۳٫۲٫ مشخصات سیستم و سخت افزار ردیابی چشم

یک محیط دسکتاپ با کارایی بالا برای مدیریت انتقال زمان واقعی و تفسیر داده های ردیابی چشم بین برنامه ETS و سرویس ETSDVM ضروری است. این سیستم برای پشتیبانی از جمع‌آوری، پردازش و انتقال داده‌های ردیابی چشم با فرکانس بالا مورد نیاز است و از تعامل یکپارچه برنامه‌ها اطمینان می‌دهد.

راه‌اندازی ردیابی چشم بدون سر به عنوان راه‌حل بهینه برای سیستم ETS انتخاب شد، زیرا به کاربران اجازه می‌دهد حرکت طبیعی را بدون نیاز به موقعیت ثابت نسبت به صفحه نمایش حفظ کنند. این انعطاف پذیری برای جلسات طولانی خواندن بسیار مهم است، جایی که آزادی حرکت می تواند فشار فیزیکی را کاهش دهد و راحتی کاربر را بهبود بخشد. این سیستم با طیف وسیعی از مدل‌های ردیابی چشم از راه دور که از این قابلیت بدون سر پشتیبانی می‌کنند، سازگار است، از جمله Spectrum، Nano، TX300، T60XL، X3-120، X2-60، X2-30، X60، X120، T60، و T120. برای توسعه و آزمایش، ما از ردیاب چشمی طیف ۳۰۰ هرتز استفاده کردیم که نرخ نمونه برداری بالا را با ردیابی بدون سر قابل اعتماد ترکیب می کند. این پیکربندی داده‌های نگاه دقیق را تضمین می‌کند و در عین حال حرکت طبیعی سر را در نظر می‌گیرد، در نتیجه رفتارهای خواندن معتبر را ثبت می‌کند و مناسب بودن سیستم را برای کاربرد در دنیای واقعی افزایش می‌دهد. [۴۸,۴۹]. انتخاب Spectrum با دقت بالای آن تا ۰٫۱ درجه دقت انجام شد که برای ETS برای تعیین دقیق تثبیت‌های سطح کلمه و ارائه ترجمه‌های به موقع ضروری است.


منبع: https://www.mdpi.com/2673-2688/6/1/5

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *