در این بخش، معماری فنی و جزئیات پیاده سازی ETS را ارائه می دهیم. این بخش مجموعه فناوری، روششناسی و اصول مهندسی را که در ایجاد یک برنامه کاربردی قوی و پاسخگو طراحی شده برای ارائه پشتیبانی ترجمه بلادرنگ برای کاربرانی که متن را به زبان غیر بومی میخوانند به اوج خود میرساند. طراحی و توسعه ETS توسط مجموعه ای از الزامات حیاتی هدایت شد تا اطمینان حاصل شود که سیستم نه تنها کاربردی است، بلکه قابل اعتماد، کاربر محور و در سناریوهای عملی موثر است. اولویت های کلیدی طراحی شامل پردازش داده ها در زمان واقعی، دقت در دقت ردیابی چشم، طراحی رابط کاربری بصری (UI)، مقیاس پذیری، انعطاف پذیری و حفظ حریم خصوصی داده ها است. توانایی سیستم برای پردازش دادههای ردیابی چشم در زمان واقعی از طریق ادغام منابع محاسباتی با کارایی بالا و الگوریتمهای بهینهشده، امکان دادههای یکپارچه را بدون تأخیر محسوس به دست آورد. این تضمین می کند که کاربران کمک ترجمه فوری و مرتبط با متن را دریافت می کنند. دستیابی به دقت بالا ضروری بود و نیاز به استفاده از الگوریتمهای پیشرفته و تکنیکهای کالیبراسیون دقیق برای ترسیم دقیق حرکات چشم به کلمات خاص روی صفحه بود. بخشهای زیر به تفصیل به این جنبهها میپردازند و نشان میدهند که چگونه انتخابهای طراحی زیربنای پاسخگویی دقیق سیستم به رفتار کاربر است.
۳٫۱٫ پشته فناوری و معماری سیستم
توسعه ETS شامل یک رویکرد چند سطحی بود که شامل استفاده از فناوریها و دستگاههای سختافزاری مختلف بود. رابط کاربری با استفاده از کتابخانه React توسعه یافته است [۳۵]به دلیل ساختار ماژولار و منعطف خود همراه با قابلیت استفاده مجدد از اجزا، که برای حفظ یک پایگاه کد مقیاس پذیر و قابل نگهداری ضروری است، شناخته شده است. DOM مجازی React در بهینهسازی عملکرد برنامه بسیار مفید بود، در حالی که JSX (JavaScript XML) وضوح و مدیریت کد را افزایش داد. عناصر تعاملی UI با استفاده از React در ارتباط با Tailwind CSS پیاده سازی شدند [۳۶,۳۷]فریم ورکی که برای اولین بار در برنامه کاربردی است که استایل کارآمد و ثابت را در برنامه تسهیل می کند. کتابخانه React-PDF [38] برای فعال کردن تعامل یکپارچه با اسناد PDF در برنامه یکپارچه شده است و تجربه خواندن پویا و قابل تنظیم را برای کاربران فراهم می کند. این سیستم از آپلود اسناد پشتیبانی میکند و کاربران را قادر میسازد تا سطح زوم دلخواه خود را انتخاب کنند و در میان محتوای قابل پیمایش در فایلهای PDF آپلود شده حرکت کنند.
در باطن، سیستم با استفاده از Flask توسعه داده شد [۳۹]یک چارچوب میکرو وب که برای معماری سبک وزن و انعطاف پذیری آن انتخاب شده است. پسوند flask-cors برای مدیریت اشتراکگذاری منابع متقاطع (CORS) استفاده شد. [۴۰]تضمین ارتباط ایمن منحصراً بین React Frontend و Backend Flask. برای ذخیره سازی داده ها، SQLite [41]یک موتور پایگاه داده مستقل و بدون سرور، به دلیل ماهیت سبک آن انتخاب شد که راه حلی کارآمد برای مدیریت داده های جاسازی شده ساده ارائه می دهد. علاوه بر این، Elasticsearch [33]یک موتور جستجو و تجزیه و تحلیل توزیع شده، برای مدیریت ضبط، پردازش و تجزیه و تحلیل حجم زیادی از داده های تولید شده توسط دستگاه ردیابی چشم در طول استفاده از سیستم برای هر کاربر، یکپارچه شده است. برای اطمینان از حفظ حریم خصوصی کاربر، دادههای ردیابی چشمی که در Elasticsearch ذخیره شده بودند، کاملاً ناشناس بودند و شناسههای کاربری منحصر به فرد و غیرقابل شناسایی به هر شرکتکننده اختصاص داده شد.
علاوه بر این، فرآیندهای جمع آوری و ذخیره سازی داده ها با مقررات GDPR مطابقت دارد [۴۲]اطمینان از دسترسی محدود به این داده ها. این اقدامات از اطلاعات رفتاری حساس محافظت می کند و از استانداردهای اخلاقی برای مدیریت داده ها حمایت می کند. این دادهها توسط الگوریتمهای هوش مصنوعی پیشرفته ذخیره میشوند و برای دستیابی به شخصیسازی کاربر با ردیابی چشم، سیستم را قادر میسازند تا تجربیات کاربر را بر اساس الگوها و ترجیحات فردی بهصورت پویا وفق داده و بهینهسازی کند. برای استفاده از دادههای ردیابی چشم در زمان واقعی و دسترسی به کمک ترجمه، کاربران باید به یک دستگاه ردیابی چشم سازگار متصل به سیستم رایانهشان متصل شوند و اطمینان حاصل کنند که سیستم به رفتار کاربر پاسخ دقیق میدهد.
برای مدیریت جمعآوری دادههای ردیابی چشم و تعامل با دستگاه ردیابی چشم، یک برنامه جداگانه به نام ETSDVM (سرویس مدیریت دستگاه ترجمه ردیابی چشم)، با استفاده از کیت توسعه نرمافزار سطح پایین Tobii Pro نسخه ۱٫۱۱ در پایتون توسعه داده شد. SDK). سرویس ETSDVM، وقتی از شما خواسته میشود، مشترک ردیابی چشم میشود و دادههای ردیابی چشم را در زمان واقعی ضبط میکند. کتابخانه سوکت های وب پایتون [۴۳] ارتباط بلادرنگ بین سرویس ETSDVM و کلاینت React را فعال می کند و به برنامه اجازه می دهد تا داده های ردیابی چشم را فورا پردازش و نمایش دهد. در نهایت، Google Translate API [44] برای ارائه خدمات ترجمه در زمان واقعی بر اساس ناامیدی محاسبه شده کاربر یکپارچه شده است.
برای عملکرد بهینه سیستم، برنامه ETS مسئول مدیریت UI، پردازش باطن، ذخیره سازی داده ها و ذخیره داده های ردیابی چشم کاربر در Elasticsearch بود. در مقابل، برنامه ETSDVM به طور انحصاری بر ارتباط با دستگاه ردیابی چشم، مدیریت جمعآوری و انتقال بیدرنگ دادههای ردیابی چشم متمرکز بود.
در طول توسعه، چندین چالش به وجود آمد که در ابتدا مورد توجه قرار نگرفت و نیاز به فناوریهای اضافی و الگوریتمهای سفارشی داشت. تشخیص کاراکتر نوری (OCR) با استفاده از Pytesseract [34,45] برای تبدیل محتوای تصویر از اسناد PDF به متن دیجیتال استفاده شد و موقعیت دقیق کلمات را بر روی صفحه آسان کرد. برای بهبود این فرآیند، ما از Pytesseract برای ایجاد جعبه های مجازی در اطراف هر کلمه، به استثنای کلمات توقف، استفاده کردیم. [۴۶]امکان ردیابی دقیق تمرکز کاربر را فراهم می کند. این ادغام، همراه با داده های واقعی ردیابی چشم، سیستم را قادر می سازد تا کلمه دقیقی را که کاربر در هر لحظه بر روی آن تمرکز می کند، تعیین کند. الگوریتم های سفارشی برای رسیدگی به تناقضات مقیاس بندی و تعیین زمان دقیق نمایش ترجمه ها بر اساس مدت زمان نگاه کاربر توسعه داده شدند. این سیستم پویا، پاپ آپ ترجمه را بر اساس طول کلمه تنظیم می کند، زیرا کلمات طولانی تر به زمان بیشتری برای پردازش کاربر نیاز دارند.
برای اجرای دقیق زمانبندی نمایش ترجمه، از رابطه (۱) استفاده شد:
این معادله (۱) به دنبال یک مطالعه آزمایشی اولیه شامل هفت کاربر به دست آمد که در طی آن پیکربندیهای زمانبندی متعددی را برای ارزیابی و تعیین سرعت نمایش ترجمه بهینه برای راحتی و کارایی کاربر آزمایش کردیم. معادله (۱) تضمین میکند که ترجمه پس از ۵۰ میلیثانیه زمانی که کاربر روی یک کلمه تمرکز میکند ظاهر میشود، و برای هر حرف در کلمه ۱۰ میلیثانیه اضافه میشود. برای رسیدن به این هدف، دادههای نگاه را بافر کرده و از یک الگوریتم هموارسازی برای فیلتر کردن نویز و تشخیص دقیق تثبیتهای پایدار استفاده کردیم. با مقایسه مداوم مختصات نگاه کاربر با مرزهای هر کلمه روی صفحه، کلمه خاصی را که کاربر روی آن ثابت کرده بود شناسایی کردیم. پس از تشخیص تثبیت کلمه، یک پاپ آپ ترجمه را در نزدیکی کلمه نمایش دادیم. دادههای ترجمه به Google API واکشی شدند [۴۷] خدمات ترجمه، ارائه ترجمه بلادرنگ بر اساس نگاه کاربر و ترجیح زبان.
در ابتدا، پاپ آپ با یک مفهوم رابط کاربری جایگزین طراحی شد (شکل ۱ را ببینید) با هدف ارائه بازخورد ترجمه بدون درز و فوری برای بهبود تجربه خواندن. برای اصلاح این رویکرد، بخشی از مطالعه آزمایشی به طور خاص شامل تعیین پاپ آپ ترجمه ترجیحی برای قابلیت استفاده و کارایی بهینه بود. بر اساس ورودی آنها، و با کسب تجربه در مورد اینکه چگونه سیستم برای کاربران معمولی بهترین عملکرد را دارد، تصمیم گرفتیم طرحی را انتخاب کنیم که قابلیت استفاده را با حداقل اختلال متعادل کند. این منجر به UI نهایی نشان داده شده در شکل ۲ شد که با تنظیمات کاربر و مشاهدات ما برای یک کمک خواندن یکپارچه هماهنگ تر است.
در نهایت، برای حفظ دقت، سیستم به طور مداوم داده های ردیابی چشم کاربر را نظارت می کند. قبل از هر جلسه، شرکت کنندگان تحت یک فرآیند کالیبراسیون دقیق برای دستیابی به استانداردهای دقت بالا، از جمله دقت متریک زیر ۰٫۱ درجه و دقت (انحراف استاندارد) و دقت (RMS) زیر ۰٫۱۵ درجه قرار گرفتند. این کالیبراسیون تضمین کرد که ردیاب چشم به خوبی با الگوهای نگاه هر شرکت کننده تنظیم شده است. در مطالعه ما، فاصله قبل از خط روی ۵٫۳ pt، اندازه متن ۱۰ با Times New Roman به عنوان سبک فونت، و سطح زوم در مانیتور داخلی Spectrum تا ۳۳۰ درصد تنظیم شد. این تنظیمات خاص برای همسویی با پارامترهای کالیبراسیون دقت بهینه سیستم ردیابی چشم ما انتخاب شدهاند، که اطمینان ردیابی بالا را تضمین میکند و خطر ناهماهنگی را در طول ترجمههای بلادرنگ به حداقل میرساند.
این سیستم از Pytesseract برای پردازش سند و ایجاد کادرهای محدود کننده مجازی در اطراف هر کلمه استفاده می کند که برای مطابقت با سطح بزرگنمایی تعیین شده، مقیاس بندی و تنظیم می شوند. اگر حداقل یک نقطه داده نگاه خارج از کادر مجازی در اطراف کلمه بیفتد، سیستم زمان نمایش را بازنشانی می کند و قبل از نمایش دوباره ترجمه، دوباره محاسبه می کند. برای افزایش دقت در شروع ترجمه، ETS یک تاخیر محاسبه شده ۵۰ ms + 10 میلی ثانیه در هر حرف اعمال می کند – پارامتری که از طریق مطالعات آزمایشی پالایش شده است. برای تقویت بیشتر این فرآیند تطبیقی، ما یک رابط اختصاصی بین کاربر و ردیاب چشم ایجاد کردیم که جریان داده را بهینه میکند و حداقل تأخیر را تضمین میکند، جایی که کاربر میتواند هر زمان که بخواهد به دستگاه ردیابی چشم متصل شود و از آن جدا شود (شکل ۳). این منطق پاسخی متناسب و پویا به رفتار خواندن کاربر ارائه می دهد و تجربه ترجمه را بر اساس موقعیت دقیق خواندن بهینه می کند.
۳٫۲٫ مشخصات سیستم و سخت افزار ردیابی چشم
یک محیط دسکتاپ با کارایی بالا برای مدیریت انتقال زمان واقعی و تفسیر داده های ردیابی چشم بین برنامه ETS و سرویس ETSDVM ضروری است. این سیستم برای پشتیبانی از جمعآوری، پردازش و انتقال دادههای ردیابی چشم با فرکانس بالا مورد نیاز است و از تعامل یکپارچه برنامهها اطمینان میدهد.
راهاندازی ردیابی چشم بدون سر به عنوان راهحل بهینه برای سیستم ETS انتخاب شد، زیرا به کاربران اجازه میدهد حرکت طبیعی را بدون نیاز به موقعیت ثابت نسبت به صفحه نمایش حفظ کنند. این انعطاف پذیری برای جلسات طولانی خواندن بسیار مهم است، جایی که آزادی حرکت می تواند فشار فیزیکی را کاهش دهد و راحتی کاربر را بهبود بخشد. این سیستم با طیف وسیعی از مدلهای ردیابی چشم از راه دور که از این قابلیت بدون سر پشتیبانی میکنند، سازگار است، از جمله Spectrum، Nano، TX300، T60XL، X3-120، X2-60، X2-30، X60، X120، T60، و T120. برای توسعه و آزمایش، ما از ردیاب چشمی طیف ۳۰۰ هرتز استفاده کردیم که نرخ نمونه برداری بالا را با ردیابی بدون سر قابل اعتماد ترکیب می کند. این پیکربندی دادههای نگاه دقیق را تضمین میکند و در عین حال حرکت طبیعی سر را در نظر میگیرد، در نتیجه رفتارهای خواندن معتبر را ثبت میکند و مناسب بودن سیستم را برای کاربرد در دنیای واقعی افزایش میدهد. [۴۸,۴۹]. انتخاب Spectrum با دقت بالای آن تا ۰٫۱ درجه دقت انجام شد که برای ETS برای تعیین دقیق تثبیتهای سطح کلمه و ارائه ترجمههای به موقع ضروری است.
منبع: https://www.mdpi.com/2673-2688/6/1/5