۱٫ معرفی
تولید مدرن در حال گذار به صنعت ۴٫۰ و تولید هوشمند است. در این نوع تولید، فناوریهای دیجیتال پیشرفته در فرآیندهای تولید ادغام میشوند و هدف آن بینش، بهینهسازی و پایداری در سراسر خط تولید است. [۱,۲]. محصولات و اجزای جدید مانند پلتفرم های صنعتی اینترنت اشیا (IIoT) [3]چارچوب های هوش مصنوعی (AI) [4]محاسبات مه [۵]و خدماتی مانند تعمیر و نگهداری پیش بینی [۶] در سراسر جهان بوجود آمده اند. به عنوان مثال، در حوزه تولید سلول باتری، تحول دیجیتال کلید تولید رقابتی تولیدکنندگان اروپایی است. با توجه به رشد مورد انتظار در بازار و کارخانه های اعلام شده، چندین مورد استفاده دیجیتالی باعث صرفه جویی میلیاردها دلار در سال های آینده می شود. [۷].
نیاز اصلی و حیاتی برای یکپارچه سازی تولید هوشمند داده های تولید است. تمام پیشرفتها در سیستمهای تولید مبتنی بر دادهها است و بنابراین مستقیماً به در دسترس بودن و کیفیت دادههای تولید بستگی دارد. بنابراین، خطوط لوله داده فقط ارتقاء عملیات تولید نیستند، بلکه جنبه های استراتژیک موفقیت کل شرکت هستند.
برای وظایف اکتشاف داده، تجزیه و تحلیل و توسعه مدل، و همچنین بهینه سازی تولید مبتنی بر داده، دانشمندان داده به عنوان یک حرفه تخصص تخصصی خود را ارائه می دهند. در حالی که علم داده به عنوان یک حرفه خود مستقل از حوزه تولید است، این حوزه خود دارای چالش ها و زمینه های خاصی است. در نتیجه، دانشمندان دادهای متخصص در زمینه تولید مورد نیاز هستند، و آنها در حال حاضر منبع کمیاب هستند. [۸,۹]. در حالی که اصطلاح و درک اولیه دانشمند داده را می توان برای اولین بار در دهه ۱۹۷۰ یافت، ارتباط و شناخت آنها در سال های اخیر با در دسترس بودن و پیچیدگی بیشتر داده ها افزایش یافته است. [۱۰].
از آنجایی که تولید مدرن به شدت به داده ها متکی است و از آنجایی که دانشمندان داده با داده های تولیدی کار می کنند، وظایف متعددی برای دانشمندان داده ایجاد می شود که در طول کار خود به آنها رسیدگی کنند. بسته به شرکت یا موسسه، اینها ممکن است از جمع آوری داده یا وارد کردن داده با استفاده از فرآیند ETL (بار تبدیل استخراج) شروع شود. [۱۱] یا سایر نقاط شروع، در حالی که سایر دانشمندان داده ممکن است علاوه بر بخش تجزیه و تحلیل اصلی، کارهای متفاوتی را نیز به نتیجه برسانند. به طور خاص، وظایفی که بر کیفیت داده تأثیر میگذارند یا تحت تأثیر قرار میگیرند، جنبههای حیاتی آن کار تجزیه و تحلیل اصلی هستند. [۱۲]. علاوه بر این، انتظارات از کار واقعی و جنبههای مرتبط فزاینده مانند جنبههای اخلاقی، قانونی یا اجتماعی، درک کار یک دانشمند داده را بیشتر تغییر داده است. [۱۳].
در حالی که این تغییرات و تفاوت در وظایف واقعی برای دانشمندان داده در همه زمینه ها وجود دارد، هیچ مشاهده متمایز فعلی در مورد وظایف اصلی واقعی و بار آنها برای نویسندگان برای حوزه تولید علم داده شناخته شده نیست. در این مقاله، ما نتایج مصاحبهها و نظرسنجیهای کارشناسان را در مورد وظایف دانشمندان دادههای تولید فعلی و پتانسیل افزایش کارایی دانشمندان داده در حوزه تولید ارائه میکنیم.
۲٫ پیشینه و کارهای مرتبط
خود اصطلاح “دانشمند داده” را می توان به دهه ۱۹۷۰ ردیابی کرد [۱۰]از جمله اولین شرح کار انجام شده توسط چنین شخصی. پس از آن زمان، با داده های بیشتر در دسترس، منابع محاسباتی و نرم افزارهای بهتر، و به ویژه ظهور هوش مصنوعی، تعریف کاری دانشمندان داده در حال تغییر است و سازگار نیست. هنگامی که به دنبال موقعیت های فعلی برای یک دانشمند داده به صورت آنلاین هستیم، بیش از ۶۰۰ موقعیت باز در آلمان پیدا کردیم. وظایف فنی توصیف شده در آن موقعیت ها متفاوت بود، اما برخی از اصطلاحات و مهارت ها در اکثریت قریب به اتفاق موقعیت ها وجود داشت. این مهارت ها و وظایف رایج شامل یادگیری ماشینی یا هوش مصنوعی، در کنار تجزیه و تحلیل آماری، توسعه نرم افزار و مهندسی، و استخراج امکانات بهینه سازی است. وظایف بیشتر در تمام موقعیتها کمتر رایج بود و شامل جمعآوری دادهها، از جمله انتخاب حسگر، مدیریت پایگاه داده، امنیت دادهها و فناوری اطلاعات، وظایف تجسمی، آموزش و آموزش، استقرار و نظارت مدل، ایجاد بسترهای نرمافزاری جدید، اتوماسیون و CI/CD، آمادهسازی دادهها بود. ، مهندسی پرس و جو مدل زبان بزرگ (LLM) و دیگران. از این رو، تنوع در تعریف شغل دانشمند داده قابل مشاهده است، در حالی که برخی از جنبه ها یک هسته مشترک را نشان می دهند. [۱۴].
که در [۱۵]، نویسندگان یک بررسی از ادبیات انجام دادند و مرتبط ترین مهارت های مورد نیاز توسط دانشمندان داده را استخراج کردند. یافته های کلیدی آنها نیاز به انواع مهارت های حوزه های مختلف را برای دانشمندان داده تشریح کرد. مهارت های فنی مانند برنامه نویسی، آمار و ریاضی با درک کسب و کار و مهارت های ارتباطی همراه شدند. برای تمرکز داده ها، مهارت برخورد با داده های ساختاریافته و بدون ساختار و همچنین کیفیت پایین مورد نیاز بود. نویسندگان تمایز دانشمندان داده را پیشنهاد کردند که با مدلسازی، پشتیبانی تصمیمگیری و استخراج ویژگیهای محصول جدید از نقش تحلیلگر داده، که بر پرس و جوهای داده، برنامه نویسی خالص و ارزیابی کیفیت داده تمرکز دارد. با این وجود، آنها به این نتیجه رسیدند که این تمایز توسط اکثر منابع مشاهده شده آنها انجام نشده است. در پایان، آنها جدولی از ۴۴ مهارت مرتبط را برای دانشمندان داده ارائه کردند که تجارت، ارتباطات و آمار را به عنوان مهم ترین مهارت ها برجسته کردند.
که در [۱۶]نویسندگان یک طبقه بندی از کار دانشمندان داده و مصاحبه های تخصصی با ۲۱ متخصص از زمینه ها و زمینه های مختلف انجام دادند. علاوه بر این، آنها شیوههای معمول دادهای را که توسط کارشناسان نامگذاری شده است، توصیف کردند و الزامات مربوط به زمان، دانش حوزه، بازنمایی و مهارتهای تشخیص الگو را بررسی کردند. آنها نشان دادند که یکپارچه سازی و تمیز کردن داده ها، و همچنین مهندسی ویژگی، زمان بر است، اما همچنین نیاز به تخصص در تشخیص الگو و دانش دامنه خاص دارد. آنها به این نتیجه رسیدند که تأثیر و الزامات تخصص انسانی در فرآیند داده، علم داده واقعی را به شدت به افرادی که وظایف را انجام می دهند وابسته می کند و در حال حاضر به اندازه کافی شفاف نیستند.
نویسندگان در [۱۷] یک بررسی از وظایف یک خط لوله علم داده انجام داد. آنها از ۷۱ پیشنهاد از تحقیقات، ۱۰۵ پیاده سازی Kaggle و ۲۱ پروژه علم داده بالغ موجود در GitHub استفاده کردند. خط لوله ایده آل دقیقی که آنها پیدا کردند در شکل ۱ نشان داده شده است. در ابتدا، یک مطالعه کلی یا طرح موردی ایجاد می شود که منجر به مرحله اکتساب داده می شود که منجر به آماده سازی داده ها می شود و ذخیره داده ها لایه پیش پردازش را به پایان می رساند. . در لایه ساختمان مدل، مهندسی ویژگی شروع می شود و همچنین می توان به پیش پردازش (فلش های چین دار) بازگشت. پس از مهندسی ویژگی، مدل سازی، آموزش و ارزیابی واقعی انجام می شود. این به مهندسی ویژگی و پیشبینی به مرحله پیشبینی بازخورد میدهد. لایه پس پردازش با تفسیر نتایج و مدل شروع می شود که شامل تجسم برای ارتباطات نیز می شود. مرحله نهایی استقرار را توصیف می کند که به صورت اختیاری به ارزیابی مدل بازخورد می دهد. با استفاده از این خط لوله، نویسندگان فراوانی مراحل در منابع خود را بررسی کردند. آنها مدل سازی و مراحل آماده سازی را مهم ترین مراحل، در حالی که مراحل تفسیر و ارتباط کمترین مراحل را تشکیل می دهند، یافتند. از نظر لایه، تقریباً همه منابع شامل لایههای پیش پردازش و مدلسازی بودند ( هر کدام)، در حالی که لایه های پس از پردازش به ندرت گنجانده شدند (). نویسندگان به این نتیجه رسیدند که بسته به اندازه پروژه، برخی از مراحل را می توان حذف کرد، اما برخی از مراحل مهم بسیار مهم هستند و باید در آینده یک بررسی عملی انجام شود.
CrowdFlower یک نظرسنجی صنعتی در مورد وظایف واقعی و مشکلات فعلی که دانشمندان داده در کار خود می بینند انجام داد. [۱۸]. آنها نشان دادند که بخش عمده کار با تمیز کردن و سازماندهی داده ها و جمع آوری مجموعه داده ها، همانطور که در شکل ۲ نشان داده شده است، سروکار دارد. علاوه بر این، نظرسنجی اشاره کرد که از پاسخ دهندگان گفتند که کمبود دانشمندان داده در سایت آنها برای انجام تمام کارهای مورد نیاز وجود دارد. چندین سال بعد، شرکت مادر نظرسنجی جدیدی منتشر کرد [۱۹] که بر روی هوش مصنوعی به جای دانشمندان داده به عنوان یک کل متمرکز شد. در حالی که این نظرسنجی در مقایسه با گزارش CrowdFlower درباره حجم کاری جزئیات کمتری داشت، اما نشان داد که مراحل اصلی منبع داده، آمادهسازی دادهها، مدلسازی و ارزیابی انسانی از نظر زمان صرف شده برای آنها، از جمله تنوع بالا در دامنه پاسخها، مهم هستند. نویسندگان به این نتیجه رسیدند که زمان صرف شده برای مدیریت و آمادهسازی دادهها زیاد است اما اندکی روند نزولی دارد.
Anaconda Inc. به طور منظم یک نظرسنجی از کاربران انجام می دهد و آن را در یک کامپایل می کند وضعیت علم داده گزارش. در سال ۲۰۲۳، نظرسنجی ترتیب زمانبرترین مراحل را برای دانشمندان داده نشان داد. آمادهسازی و پاکسازی دادهها، همراه با تجسم، زمانبرترین مراحل بودند، در حالی که استقرار و گزارشدهی در انتهای دیگر قرار داشتند. [۲۰]. در مطالعه سال ۲۰۲۲، نتایج کیفی کمتر و کمی بیشتر نشان داده شد. در آن نظرسنجی، مهمترین مراحل پاکسازی دادهها (تقریباً ۲۶ درصد زمان) و تجسم (تقریباً ۲۱ درصد زمان) بود، در حالی که مراحل استقرار و انتخاب مدل کمترین زمانبرترین مراحل در مقایسه بودند. [۲۱].
از آنجایی که نشریات علمی مختلف دیدگاه های متفاوتی را نشان دادند [۱۵] از محاسبات تلفن همراه و پس زمینه کسب و کار ناشی می شود، [۱۶] از پس زمینه تعامل انسان و کامپیوتر، و [۱۷] از پیشینه مهندسی نرم افزار. در عین حال مطالعات عملی [۱۸,۱۹,۲۰,۲۱,۲۲] سعی شد یک نمای کلی کاربر محور در کل دامنه دانشمندان داده ارائه دهد. اعداد واقعی و ترتیب مرتبطترین و زمانبرترین گامها بهطور گستردهای متناقض بودند و مقایسه نظرسنجیها و تحقیقات را دشوار میکردند. در حالی که همه منابع در درک خود از نقش حیاتی اختصاصی بودن دامنه با هم متحد هستند، کمبود انتشاراتی وجود دارد که با دیدگاههای خاص دانشمندان دادههای تولیدی سروکار داشته باشد.
۳٫ روش شناسی
برای این مقاله، ما یک بررسی چند مرحله ای از وظایف دانشمندان داده در حوزه تولید انجام دادیم. هدف این نظرسنجی، شناسایی زمانبرترین مراحل برای دانشمندان داده، با یک نشانه تقریبی در مقایسه با سایر مراحل بود. علاوه بر این، دیدگاه های شخصی، از نظر وظایفی که دوست داشتند یا دوست نداشتند، مورد توجه بود. در نهایت، دیدگاه پاسخ دهندگان در مورد حرفه علم داده در تولید و مسدود کننده های احتمالی مورد هدف قرار گرفت. برای به دست آوردن پاسخ برای حوزه تولید، دانشمندان داده از آن حوزه به طور خاص مورد هدف قرار گرفتند. مراحل بررسی چند مرحله ای در زیر شرح داده شده است.
۳٫۱٫ پیش مطالعه
در مرحله اول، بررسی ادبیات و پیش انتخاب وظایفی که باید در نظر گرفته شود، برای ساخت نظرسنجی اصلی انجام شد. نتایج فشرده بررسی ادبیات در بخش ۲ در این مقاله نشان داده شده است. بر اساس بررسی، عدم بررسی های خاص در حوزه تولید و عدم وجود اعداد قابل مقایسه تأیید شد. با استفاده از تعاریف خط لوله داده از بررسی، یک پیش مطالعه کوتاه با مجموعه کوچکی از متخصصان برای نهایی کردن انتخاب مرحله و شرح انجام شد. با طرح مطالعه، تمامی لایه های ذکر شده در خط لوله از [۱۷] باید رسیدگی شود. فهرست نهایی مراحل در جدول ۱ نشان داده شده است.
برخی از مراحل مانند استقرار حذف شدند، در حالی که مراحل دیگر بر اساس بازخوردی که در عمل تشخیص آنها دشوار بود جمعآوری شدند (مثلاً مراحل تفسیر و ارتباط). با توجه به مقدار زمان (گزینه های هر مرحله در نظرسنجی)، یک سیستم افزایشی، با شروع محدوده برای کارهای جزئی و محدوده بزرگتر تا برای کارهای غالب تر استفاده شد.
از آنجایی که مراحل مختلفی در زمینه پاکسازی داده ها نامگذاری شد [۲۳,۲۴]پیش انتخاب مراحل پاکسازی و سازماندهی داده ها با تمرکز بر عمده ترین مراحل در ساخت انجام شد. لیست نهایی مراحل به شرح زیر خلاصه شد:
-
تطبیق انواع داده ها (به عنوان مثال، رشته به دو برابر).
-
تبدیل ارزش داده ها (به عنوان مثال، فارنهایت به سانتیگراد).
-
پر کردن داده های از دست رفته
-
حذف موارد پرت
-
همگام سازی چند جریان داده (به عنوان مثال، تطبیق داده های سری زمانی از چندین حسگر).
-
کاهش داده ها.
-
مقادیر باینینگ
-
حذف تکراری
-
تمیز کردن متن (به عنوان مثال، حذف برچسب های HTML یا خالی).
-
نرمال سازی داده ها
-
راه اندازی و مدیریت پایگاه های داده
-
درخواست از مردم برای معنی متغیرها و نامگذاری نقاط داده.
۳٫۲٫ نظرسنجی اصلی
با استفاده از نتایج حاصل از پیش انتخاب و بررسی، نظرسنجی اصلی ایجاد شد. سوال اول به وظایف علم داده همانطور که در جدول ۱ ارائه شده است می پردازد و از افزایش انتخاب زمان-نشانه همانطور که در بالا توضیح داده شد استفاده می کند، که از ۰-۵٪ به ۷۰٪ بالاتر حرکت می کند. این انتخاب مسائل بالقوه، از جمله سوگیری در اندازهگیریها، عدم قطعیتهای ذاتی افراد، و تنوع طبیعی در تخمینهای روزانه کاربران را کاهش داد. از آنجایی که هدف این مطالعه اعداد دقیق نبود، این امر تأثیر اعداد پرت و ناهنجاریها را کاهش داد که به طور بالقوه باعث انحراف تفسیر میشوند. گزینه دیگر استفاده از منطق فازی بود، اما رویکرد اول برای کاهش بار روی پاسخدهندگان نیز انتخاب شد. در نتیجه، اعداد واقعی برای حجم کار ممکن است دقیقاً ۱۰۰٪ برای همه پاسخ دهندگان جمع نشود، که از نظر آماری مشکل مهمی نیست. سوال اصلی دوم از همان فهرست وظایف استفاده میکرد و از کاربران میخواست که نشان دهند از هر یک از وظایف در یک طرح رتبهبندی ۵ مرحلهای چقدر لذت بردهاند (نه). علاوه بر این، افراد میتوانند «سایر» را برای کارهای مهمی که انجام میدهند و مورد هدف نظرسنجی قرار نگرفتهاند اضافه کنند.
سومین سوال اصلی به بررسی عمیق وظایف پاکسازی و سازماندهی داده ها، همانطور که در لیست بالا ارائه شده است، می پردازد. در این سؤال، از دانشمندان داده خواسته شد تا مشخص کنند که کدام یک از این وظایف در یک طرح ۵ مرحلهای از «کمترین/بدون زمان» تا «بیشترین/زیاد زمان» زمانبرتر هستند. مجدداً به کاربران این فرصت داده شد تا وظایف دیگری از جمله نشان دادن آنها را در اینجا اضافه کنند.
در بخش آخر نظرسنجی، از پاسخ دهندگان به طور کلی در مورد رضایت آنها از طرح ۵ ستاره و آنچه که برای رضایت بیشتر نیاز دارند (متن آزاد) سؤال شد. آخرین سوال مربوط به حوزه ای بود که کاربران در آن علم داده را انجام می دادند. از این سوال برای فیلتر کردن پاسخهایی استفاده شد که با مخاطبان اصلی مطالعه، یعنی دانشمندان دادههای حوزه تولید، همسو نبودند. از آنجایی که افراد ممکن است از داده های پیوند شده از دامنه ها استفاده کنند، این سوال امکان پاسخ های چند گزینه ای را فراهم می کند.
از آنجایی که هدف این مطالعه مربوط به وظایف دانشمندان داده در حوزه تولید بود، سؤالاتی در مورد اطلاعات شخصی (سن، جنسیت و غیره) مورد بحث قرار گرفت. از آنجایی که مخاطب هدف نسبتاً خاص است، احتمال زیادی وجود دارد که حجم نمونه کوچک باشد، که ناشناس بودن ارزیابی را به خطر می اندازد. مطابق با ماده ۵ (۱) (ج) GDPR [25] برای به حداقل رساندن داده ها، چنین سوالاتی حذف شدند، زیرا با هدف اصلی نظرسنجی همخوانی نداشتند.
۴٫ بررسی اصلی
نظرسنجی ارائه شده در بخش ۳٫۲ با استفاده از فرم های مایکروسافت اجرا شد. مخاطبان نظرسنجی مجموعه ای از دانشمندان داده در حوزه تولید بودند. بنابراین، این نظرسنجی به طور فعال در سراسر کنفرانس های بین المللی و ملی، رویدادهای عمومی، شبکه هایی مانند LinkedIn و SurveyCircle ترویج شد. [۲۶]و از طریق مشاوره مستقیم با کارشناسان این صنعت. همه تبلیغات مخاطبان هدف را روشن می کند. از آنجایی که ما از یک نقطه شروع کردیم و یک گروه خاص (دانشمندان داده در حوزه تولید) را جستجو کردیم، روش نمونهگیری اصلی بر اساس نمونهگیری گلوله برفی، شروع از نویسندگان، انتقال به کارشناسان حوزه و انتشار از طریق شبکههای آنها بود. برای ارائه برخی بذرهای تصادفی اضافی، از شبکه های مستقل مانند SurveyCircle برای گسترش دسترسی استفاده شد. با توجه به مخاطب خاص، نظرسنجی به مدت ۱۵ ماه در دسترس بود تا از میزان مناسبی از پاسخ ها اطمینان حاصل شود. با توجه به روش نمونه گیری و رویدادهای اروپایی، اکثر پاسخ دهندگان احتمالاً از آلمان و اروپا و احتمال کمتری از سایر قاره ها آمده اند.
در بازه زمانی مشخص شده، نظرسنجی منجر به ۸۹ پاسخ شد. از این پاسخ ها، تنها ۸۱ پاسخ از مخاطبان هدف بود. ۸ پاسخ دیگر، که در حوزه تولید نیستند، دامنه(های) خود را مانند امور مالی و بانکی (۴ نفر)، رسانه های اجتماعی و تجارت الکترونیک (۳ نفر)، آموزش (۱ نفر)، فرآیندهای سازمانی (۲ نفر)، دولت (دولت) نشان دادند. ۱ نفر) و پزشکی (۱ نفر). برای همسویی نتایج با مخاطب هدف، این پاسخ ها حذف و از نتایج حذف شدند. همه نتایج بعدی تنها نتایج فیلتر شده را با استفاده از ۸۱ پاسخ دهنده ارائه می کنند. نتایج دقیق این نظرسنجی در زیر و همچنین در مواد تکمیلی نشان داده شده است. بخش های فرعی زیر نتایج را شرح می دهند. بحث و تفسیر در بخش بعد آمده است.
۴٫۱٫ وظایف علم داده
اولین سوال نظرسنجی مربوط به زمان صرف شده برای انجام وظایف به عنوان سهمی از زمان کاری دانشمندان داده است، همانطور که در جدول ۱ توضیح داده شده است. نتایج در شکل ۳ نشان داده شده است.
برای وظیفه آتا اکتساب، ۴۵٫۷ درصد این وظیفه را از ۰ تا کمتر از ۵ درصد از سهم کاری خود عنوان کردند. دو پاسخ حاکی از سهم قابل توجهی تا ۴۰ درصد از کار آنها بود. برای جمع آوری مجموعه داده ها۴۸٫۱% این وظیفه را تا ۱۰ درصد از کار خود و یک پاسخگو این وظیفه را تا ۴۰ درصد از کار خود نام بردند. بیشترین تعداد پاسخ (۳۷٪) برای ساخت خطوط لوله داده این وظیفه را مسئول ۶ تا ۱۰ درصد از زمان کار خود نامیدند. هیچ کس نامی نبرد تمیز کردن و سازماندهی داده ها این وظیفه کمتر از ۱۱ درصد از زمان کار خود بود، در حالی که ۴۴٫۴ درصد این وظیفه را بیش از ۴۰ درصد از زمان کار خود نام بردند. همچنین ۶۱٫۷ درصد از پاسخها به این نام اشاره کردند جستجوی الگو به عنوان اینکه ۶ تا ۱۵ درصد از زمان کار خود را می گیرند. ۷۶٫۶۹ درصد از پاسخها، سهم کاری مشابهی را نام بردند ایجاد و آموزش مدل ها. مدل های پالایش و بازآموزی بر اساس ۴۸٫۱ درصد از پاسخ ها، سهم کاری تا ۱۰ درصد را داشته است. ۴۲ درصد از پاسخ ها نام بردند پیاده سازی تجسم ها به عنوان مسئول ۶ تا ۱۰ درصد از زمان کار خود.
سه پاسخ علاوه بر درصدها به صورت متن آزاد وجود داشت. یکی از پاسخگویان به نام گسترش به عنوان یک وظیفه با سهم قابل توجهی از کار. یکی از پاسخ دهندگان نوشت که آنها “تقریباً ۴ روز کار روی مدیریت، تمیز کردن و تبدیل” در هفته انجام می دادند. آخرین نفر بدون توضیح بیشتر، “مصاحبه” را به عنوان سهم قابل توجهی از کار آنها تشکیل می دهد.
۴٫۲٫ لذت وظایف
دومین سوال اصلی این نظرسنجی شادی افراد مرتبط با وظایفی که در بالا توضیح داده شد را هدف قرار داد. یک طرح کیفی از “کمترین لذت” به “لذت بخش ترین” استفاده شد. نتایج در شکل ۴ نشان داده شده است.
برای وظایف اکتساب داده ها، جمع آوری مجموعه داده هاو ساخت خطوط لوله دادهرایج ترین پاسخ، پاسخ خنثی بود که تقریباً نیمی از پاسخ دهندگان (به ترتیب ۴۴٫۴، ۴۹٫۴ و ۴۴٫۴ درصد) بودند. وظیفه از تمیز کردن و سازماندهی داده ها توسط هیچ پاسخ دهنده ای لذت بخش ترین کار نامیده شد، در حالی که ۳۳٫۳ درصد از پاسخ دهندگان آن را کم لذت ترین کار نامیدند. جستجوی الگو، ایجاد و آموزش مدل هاو وظیفه از مدل های پالایش و بازآموزی متداولترین پاسخها به سمت وظیفه لذتبخش (رتبه ۴)، با سهم ۴۸٫۱٪، ۴۸٫۱٪ و ۴۲٫۰٪ بودند. این در حالی است که ۴۸٫۱ درصد از پاسخ دهندگان این وظیفه را قرار داده اند پیاده سازی تجسم ها در سمت کمتر لذت بخش (رتبه بندی ۱ و ۲) از وظایف. علاوه بر این، میانگین امتیازات برای لذت انجام وظایف در شکل ۵ نشان داده شده است.
هفت پاسخ اضافی به عنوان متن رایگان برای این سوال وجود داشت. یکی از پاسخ ها «استقرار» را به عنوان کم لذت ترین کار رتبه بندی کرد. یکی از پاسخها «تقویت دادهها با مهندسین و بچهها در ماشینها» را کمتر لذتبخش ارزیابی کرد (رتبه ۲). همان رتبه (۲) توسط پاسخ دهنده برای وظیفه “انتخاب سنسورها” داده شد. یکی از پاسخ دهندگان وظیفه “مصاحبه” را لذت بخش ترین کار می داند. یک نفر به “پیش پردازش و محاسبه ویژگی” رتبه خنثی داد. یکی دیگر از پاسخدهندگان، کار «ایجاد گزارش» را کمترین لذت بخش میدانست. آخرین پاسخ دهنده «گزارش دهی و بوروکراسی» (به آلمانی «بوروکراسی») را به عنوان کم لذت ترین کار نام برد.
۴٫۳٫ تمیز کردن و سازماندهی داده های غواصی عمیق
سومین سوال اصلی در نظرسنجی مربوط به مراحل دقیق در پاکسازی و سازماندهی داده ها بود. رتبه بندی مراحل ارائه شده در بالا با استفاده از یک طرح کیفی ۵ مرحله ای، از کمترین تا بیشترین زمان صرف شده برای مراحل انجام شد. نتایج در شکل ۶ نشان داده شده است.
هیچ یک از پاسخ دهندگان نام این مرحله را نبردند تطبیق انواع داده ها به عنوان بیشترین زمان صرف شده، در حالی که اکثر پاسخ دهندگان زمان خنثی یا کمتر مورد نیاز (رتبه بندی ۳ و ۲) را با ۴۳٫۲% و ۳۴٫۶% انتخاب کردند. مرحله از تبدیل ارزش داده معمولا کمتر از خنثی (امتیاز ۲ در ۴۳٫۲٪) یا کمترین زمان مصرف (رتبه ۱ در ۳۲٫۱٪) رتبه بندی شد. در مجموع ۵۶٫۷ درصد از پاسخ دهندگان این مرحله را نام بردند پر کردن مقادیر از دست رفته به عنوان بیشتر یا وقت گیرترین در داخل وظیفه تمیز کردن و سازماندهی. حذف موارد پرت اکثراً در اطراف مرکز رتبهبندی میشد که نتیجه آن تنها ۴٫۹٪ برای کمترین و ۱٫۲٪ برای بیشترین زمان صرف شده در این مرحله توسط دانشمندان داده بود. این مرحله دارای میانگین رتبه حدود حدود بود. . مرحله از همگام سازی جریان های داده های متعدد بیشترین پاسخ را برای رتبه بندی زمان بیشتر (رتبه ۴)، با ۶۹٫۱٪ به دست آورد. در مقابل، کاهش داده ها اکثریت برای زمان کمتر صرف شده (رتبه ۲) در ۵۳٫۱٪ بود. برای ارزش های باینینگ در مراحل، پاسخ خنثی (امتیاز ۳) معمولاً با ۴۰٫۷٪ انتخاب شد. در حالی که ۱٫۲ درصد یافتند حذف تکراری زمانبرترین، ۱۸٫۵% همان مرحله را کمترین زمانبر دانستند. مرحله تمیز کردن متن توسط اکثریت (۵۸٪) پاسخ دهندگان کمترین گام وقت گیر را در نظر گرفت که منجر به کمترین میانگین امتیاز حدودا شد. . رایج ترین رتبه بندی برای مرحله عادی سازی داده ها گزینه زمان کمتر (رتبه ۲) با ۳۸٫۳٪ بود. راه اندازی و مدیریت پایگاه های داده ۸/۳۵ درصد از پاسخگویان به عنوان کممدتترین مرحله انتخاب شدند. مرحله پرسش از مردم برای معنا داده ها با ۲۹٫۶ درصد وقت گیرترین کار معرفی شدند و بالاترین میانگین امتیاز را کسب کردند. . شکل ۷ میانگین امتیازات را برای این سوال نشان می دهد.
شش پاسخ اضافی برای مراحل در کار تمیز کردن و سازماندهی وجود داشت. یکی از پاسخدهندگان نوشت: «با آنچه در بخشهای تولید اتفاق میافتد و دادهها به چه چیزی اشاره میکنند، بدانید». پاسخ دیگری فقط به نام “من مجبور شدم دیگران را بررسی کنم”، بدون اشاره یا توضیح بیشتر. دو پاسخ با مرحله برچسب گذاری داده های تصویر خاص سروکار دارند. پاسخ دهنده دیگری تبدیل فرمت فایل را نام برد و آخرین پاسخ دهنده وارد کردن CSV را به عنوان یک مرحله صریح مرتبط نام برد.
۴٫۴٫ رضایت
آخرین بلوک سؤال اصلی به رضایت کلی دانشمندان داده از حرفه خود و آنچه که برای افزایش رضایت نیاز داشتند، می پردازد. شکل ۸ میزان رضایت کلی پاسخ دهندگان را نشان می دهد. در مجموع، با طرح رتبه بندی ۵ ستاره، میانگین مقدار بود ستاره ها.
در مجموع ۱۹ پاسخ به متن رایگان برای الزامات افزایش رضایت داده شد. نیاز به بالاتر کیفیت داده (شامل برچسب زدن و مستندات) توسط هشت نفر از پاسخ دهندگان نام برده شد. سه پاسخ دهنده نیاز به بهتر را نام بردند استانداردها و نامگذاری از داده ها سه پاسخ با نیاز به داده های بیشتر برای انجام تجزیه و تحلیل دو نفر از پاسخ دهندگان نیاز به اطلاعات بیشتری را بیان کردند زمان برای علم داده و پیش پردازش کمتر به صراحت دو پاسخ به نام نیاز اطلاعات بیشتر یا تماس با تیم های تولید. علاوه بر این، دو پاسخ به نام مشکل از رابط ماشین و حسگر. پاسخ های بیشتر نیاز به الف را تشریح کردند پایگاه داده رابطه، پشتیبانی از داده های چند زبانهو گزارش کمتر.
۵٫ بحث
در این بخش، نتایج فوق تفسیر شده و در زمینه اهداف نظرسنجی قرار داده شده است.
۵٫۱٫ تفسیر نتایج
وقت صرف کردن. نظرسنجی چند مرحلهای که در بالا ارائه شد، بارهای کار واقعی، لذت بردن از آنها، فرو رفتن عمیق در تمیز کردن و مدیریت دادهها و رضایت عمومی از حرفه علم داده را هدف قرار داد. پاسخ دهندگان برای دانشمندان داده حوزه تولید خاص فیلتر شدند. برای وقت گیرترین وظایف دانشمندان داده، وظیفه تمیز کردن و سازماندهی داده ها غالب بود. تقریباً نیمی از دانشمندان داده حداقل ۴۰ درصد از زمان خود را صرف این کار می کنند. از آنجایی که کمتر از ۵٪ کمتر از ۱۶٪ از زمان خود را صرف انجام این کار می کردند، این تسلط برای همه دانشمندان داده بسیار مهم بود.
وظایف جمعآوری داده، جمعآوری مجموعههای داده، و تجسمسازی، برای اکثر دانشمندان داده، نقشهای جزئی داشتند. دلیل این امر ممکن است این باشد که این وظایف در لبه های هسته کار دانشمندان داده قرار دارند و توسط سایر مشاغل مانند مهندسان داده و تحلیلگران داده انجام می شوند. [۱۵]. با این وجود، بر اساس توصیف آن حرفه های دیگر، تمیز کردن و سازماندهی داده ها نیز می تواند (تا حدی) توسط آنها انجام شود.
شکل ۱ لایه های خط لوله علم داده را نشان می دهد که نظرسنجی بر اساس آن انجام شده است. وظایف مرتبط با لایه ساخت مدل، جستجوی الگو، ایجاد مدلها و بازآموزی بخش قابلتوجهی از زمان کار دانشمندان داده را نشان میداد، اما از تسلط تمیز کردن و سازماندهی عقب ماند. در مجموع، وظایف انباشته مرتبط با لایه پیش پردازش بر کار دانشمندان داده تسلط داشت، در حالی که وظایف لایه ساخت مدل بخش ثانویه مهمی از زمان کار بود. زمان صرف شده برای وظایف لایه پس پردازش عقب افتاد، حتی زمانی که شامل پاسخ های متن آزاد مرتبط با پس پردازش از نظر استقرار بود.
لذت بردن. بسیاری از وظایف نشان داد که دانشمندان داده از آنها لذت می برند، در حالی که برخی دیگر از آنها لذت نمی برند. به طور قابل توجهی، وظایف مرتبط با لایه ساخت مدل بیشترین لذت را توسط دانشمندان داده، با میانگین امتیاز از به . وظایف خارج از آن لایه با اختلاف زیادی در رتبه بندی عقب افتادند. وظیفه غالب، از نظر زمان صرف شده، تمیز کردن و سازماندهی داده ها، به مراتب کمترین لذت بخش ترین کار را رتبه بندی کرد (میانگین امتیاز ). همچنین فاصله زیادی با دومین کار لذتبخش پیادهسازی تجسمسازیها (میانگین رتبهبندی) داشت ). این نتایج نشان می دهد که وظایف در لایه مرکزی علم داده مورد پسند بوده است، در حالی که وظایف خارج از آن کمتر مورد علاقه دانشمندان داده بوده است. به ویژه، کاری که بیشترین زمان برای آن صرف می شود، کم لذت ترین کار است. این بدان معناست که دانشمندان داده احتمالاً بیشتر وقت خود را با کارهایی می گذرانند که بیشتر از همه دوست ندارند. این نتیجه همچنین توسط پاسخهای متنی آزاد در سراسر نظرسنجی نشان داده شد که از آن به عنوان یک مشکل بزرگ نام برد.
پاکسازی داده ها. در داخل وظیفه تمیز کردن و سازماندهی، مراحل متعددی پیدا شد. نتایج نشان داد که بیشتر این مراحل برای دانشمندان داده اتفاق افتاده است. تنها مرحله ای که مورد نیاز اکثریت نبود یا کمتر مورد نیاز بود، مرحله پاکسازی متن (متوسط امتیاز ). هنگامی که با داده های تولید سروکار داریم، این احتمالاً با تمرکز بر داده های ماشین و حسگر توضیح داده می شود که معمولاً داده های سری زمانی یا تصویری و داده های متنی یا گفتاری کمتری را ارائه می دهند. علاوه بر این، تبدیل ارزش داده ها و مدیریت پایگاه داده به عنوان کارهایی با زمان کمتر، اما با یک شکاف قابل توجه در پاکسازی متن رتبه بندی شدند. از طرف دیگر، پر کردن مقادیر از دست رفته و همگام سازی جریان های داده مقدار زیادی از زمان تمیز کردن را به خود اختصاص داد (میانگین رتبه بندی و ). دلیل این امر احتمالاً همان چیزی است که در بالا در هنگام بررسی انواع واقعی داده ها وجود دارد. دادههای سری زمانی از چندین ماشین، حسگر، سیستمهای اجرایی ساخت و سایر منابع منجر به نیاز نمایی برای همگامسازی میشوند. [۲۴]. به این ترتیب، مقادیر از دست رفته نیز افزایش مییابند و باید مورد هدف قرار گیرند. بیشترین زمان صرف شده در واقع مرحله پرسش از مردم برای معنی نقاط داده و نامگذاری (میانگین امتیاز) بود. ). دلیل این امر ممکن است فقدان استانداردها و طرح های نامگذاری اختصاصی از سوی تامین کنندگان و فروشندگان باشد.
رضایت. در مجموع، پاسخ دهندگان رضایت حرفه ای خود را کاملا مثبت ارزیابی کردند. این امر نتایج مربوط به زمان صرف شده در کارهای غیر لذت بخش را به چشم بدبینانه نمی رساند. با این حال، فضایی برای بهبود وجود دارد، که بر اساس پاسخهای متن آزاد میتوان بر الزامات خاصی تمرکز کرد. موضوع کیفیت داده ها همراه با زمان ذکر شده صرف شده برای تمیز کردن، پتانسیل زیادی برای بهبود دارد. علاوه بر این، توضیحات و استانداردها چندین بار مطرح شد که نشان دهنده نیاز به بررسی بیشتر است.
۵٫۲٫ قرار دادن در زمینه
کار مرتبط ارائه شده در بخش ۲ انواع بارهای کار و سهم آنها از زمان واقعی کار را نشان می دهد. تمیز کردن و سازماندهی داده ها به عنوان یک کار وقت گیر در همه نظرسنجی ها نامگذاری شد، از زمان بر بودن در مطالعات آناکوندا تا یک کار غالب واضح در نظرسنجی CrowdFlower. نظرسنجی ما بر حوزه تولید متمرکز بود و نشان داد که وظیفه تمیز کردن و سازماندهی غالب بود، که به ویژه در راستای مطالعات مرتبط است. در عین حال، وظیفه تجسم، به عنوان بخشی از لایه پس پردازش، در مقایسه با سایر وظایف در نظرسنجی ما نقش جزئی را نشان داد. این مشابه یافتههای بسیاری از بررسیهای دیگر بود، در حالی که برخی، مانند بررسیهای آناکوندا، آن را کار مهمی یافتند. برای سایر وظایف، نتایج این بررسی عمدتاً با یافتههای سایر منابع مطابقت داشت. این نشان میدهد که حوزه علم دادههای تولیدی شباهتهایی با سایر حوزهها دارد، در حالی که لایه پیشپردازش در انتهای غالب قرار دارد و لایه پس پردازش از سهم کار عقبتر است.
پاکسازی داخل داده ها، دو مرحله از زمان برترین مراحل، همگام سازی و پر کردن داده های از دست رفته، عمدتاً چالش های فنی هستند. ابزارها و روش های جدید از حوزه علم داده ممکن است برای حل و حمایت از این چالش ها در آینده قابل استفاده باشد. از سوی دیگر، زمانبرترین مرحله، پرسیدن معنای نقاط داده از مردم، صرفاً یک چالش فنی نیست. برای انجام این مرحله، ارتباط با متخصصان نیز باید صورت گیرد و درک داده ها توسط دانشمندان داده مورد نیاز است. این منجر به چالش ها و راه حل های خاص دامنه می شود. راه حل های فنی مانند استانداردها، اسناد و فروشگاه های اطلاعات ممکن است نقش مهمی در حل این مشکل ایفا کنند. با این وجود، مهارت های خاص دامنه برای این کار مورد نیاز است. این نشان میدهد که پاکسازی دادهها، در نهایت، تنها میتواند تا حد معینی بدون دانش خاص دامنه انجام شود.
با استفاده از نتایج نظرسنجی از بالا، در حوزه تولید، دانشمندان داده عمدتاً در لایه پیش پردازش کار می کنند، در حالی که موقعیت های شغلی عمدتاً برای لایه مدل سازی تبلیغ می شوند. [۱۴]. به گفته کاگل [۲۲]متوسط حقوق دانشمندان داده در آلمان بین ۷۰۰۰۰ تا ۷۹۹۹۹ دلار آمریکا بود، به این معنی که از نظر آماری یک دانشمند داده حدود ۳۵۰۰۰ دلار در سال برای پیش پردازش به جای ساخت مدل در حوزه تولید حقوق می گیرد. این امر حاکی از یک اهرم قابل توجه برای افزایش کارایی و کاهش هزینه ها برای علم داده در شرکت ها با مقابله با چالش های لایه پیش پردازش است. از آنجایی که هیچ عددی برای دانشمندان دادهای که در حال حاضر به کار میروند، یا به طور خاص در حوزه تولید وجود ندارد، تخمین پتانسیل دقیق آن دشوار است.
۶٫ خلاصه و چشم انداز
۶٫۱٫ خلاصه
در این مقاله، ما وظایف معمولی را برای دانشمندان دادهای که در ادبیات و نظرسنجیها شناسایی شدهاند نشان دادیم و این را با یک نظرسنجی خاص دامنه برای حوزه تولید به چالش کشیدیم. همانطور که توسط دیگران نشان داده شده است، موضوع وظایف پیش پردازش، بر خلاف وظایف واقعی مدل سازی و پس پردازش در حوزه تولید، غالب است. در عین حال، دانشمندان داده از این وظایف لذت نمی برند و عموماً در پیشنهادات شغلی آنلاین تبلیغ نمی شوند. این به طور بالقوه تصویری نادرست از دانشمندان داده در عمل ایجاد می کند. با این حال، این نظرسنجی رضایت شغلی بالایی را برای دانشمندان داده نشان داد.
برای تمیز کردن دادهها، متوجه شدیم که همگامسازی جریان داده، پر کردن مقادیر از دست رفته، و درخواست معنا از افراد مهمترین مراحل هستند. اینها تا حدی مشکلات بین دامنه ای فنی هستند، اما تا حدی نیز مشکلاتی هستند که نیاز به راه حل های خاص دامنه دارند، نه تنها در سطح فنی. از سوی دیگر، به دلیل نوع داده هایی که در تولید رخ می دهد، مراحلی مانند پاک کردن متن عمدتا حذف می شوند.
سایر مطالعات و نظرسنجی ها در زمینه دانشمندان داده بر حوزه و طیف وسیعی از پاسخ دهندگان متمرکز شده اند. در مقابل، این نظرسنجی بر روی یک گروه خاص متمرکز شد تا نیازهای خاص این گروه را شناسایی کند. در مقایسه با سایر نظرسنجیها، برتری در زمینه پاکسازی دادهها و همچنین مرزهای کمتر واضح با سایر مشاغل را نشان دادیم. این بینشهای عمیق میتوانند به پژوهشهای بیشتر و اقدامات هدفمندی خاص برای دانشمندان داده در حوزه تولید اجازه دهند.
در نهایت، نتایج یک اهرم اصلی برای افزایش کارایی و کاهش هزینهها با مقابله با وظایف و چالشهای پیش پردازش در حوزه تولید برای دانشمندان داده را نشان میدهد.
۶٫۲٫ چشم انداز
با توجه به اهرم اصلی که در بالا توضیح داده شد، تحقیقات بیشتری برای کاهش حجم کار پاکسازی و سازماندهی داده ها مورد نیاز است. این بدان معناست که روشهای جدیدی برای اطمینان از کیفیت داده و در دسترس بودن اطلاعات، مانند پایگاهداده علت- معلولی یا پارامتر، باید مورد توجه قرار گیرد. علاوه بر این، استانداردهای خاص برای صنعت پتانسیل بالایی برای کاهش حجم کاری واقعی وظایف پیش پردازش دارند.
برای محرک های اصلی وظایف پاکسازی داده ها، تحقیقات عمیق ویژه ای مورد نیاز است. عدم درک (پرسیدن از مردم برای معنی) در مورد داده ها را می توان با استفاده از استانداردها، رویکردهای نقشه برداری داده ها و استفاده بهتر از منابع داده از همان ابتدا برطرف کرد. برای دادههای از دست رفته، راهحلهای جدید شناسایی مقادیر از دست رفته و ارائه توصیههایی در مورد نحوه پر کردن آنها میتواند مفید باشد، بهویژه هنگام مقیاسگذاری تولید. همزمان سازی جریان های داده چندگانه با اضافه شدن هر منبع داده، پیچیدگی را افزایش می دهد. هنگام برخورد با تولیدات در مقیاس بزرگ، نیاز به راه حل های کارآمد (نیمه خودکار) برای انجام این کار بسیار مهم است و باید در تحقیقات بیشتر مورد توجه قرار گیرد.
این مطالعه همچنین کانون های مختلف دانشمندان داده را در عمل نشان داد. تحقیقات اضافی در مورد تعریف وظایف علم داده و نقشهای اضافی احتمالی مانند افسران کیفیت داده، مهندسان داده یا دیگران باید انجام شود. یک جعبه ابزار اختصاصی برای وظایف پیش پردازش و روش هایی برای شناسایی سریع مشکلات کیفیت داده های معمولی ارتباط عملی بالایی دارد. معیارها از نظر هزینههای ناشی از عدم کیفیت داده یا سهم کار مدلسازی میتوانند بیشتر امکان کمی کردن کارایی راهحلها و ابزارهای جدید را فراهم کنند. در نهایت، از آنجایی که این تحقیق نشان داد که ارتقای موقعیت با سهم واقعی کار متفاوت است، انطباق شرح شغل و انتظارات می تواند برای شادی دانشمندان داده مفید باشد.
در مورد خود نظرسنجی، نظرسنجی بر حوزه تولید متمرکز بود. جالب است بدانیم که آیا این الزامات و وظایف خاص در حوزه های دیگر نیز به همین شکل یافت می شوند. علاوه بر این، تمرکز بیشتر بر حوزههای خاص در داخل تولید میتواند جالب باشد، با این فرض که حوزههایی مانند فرزکاری و تولید سلول باتری منجر به وظایف و مراحل خاص متفاوتی میشوند. با توجه به روشهای نمونهگیری مورد استفاده، انتظار میرفت که بیشتر پاسخدهندگان به این نظرسنجی از آلمان و اروپا باشند، که تجزیه و تحلیل آماری را نسبتاً به منطقه اروپایی اختصاص میدهد. کار بیشتر میتواند بر حوزههای دیگر متمرکز شود یا یک گزینش پاسخدهنده در مقیاس جهانی داشته باشد.
در نهایت، درک اطلاعاتی که دانشمندان از شغل خود و کار واقعی آنها انجام می دهند، می تواند برای بررسی بیشتر جالب باشد، در مورد اینکه آیا انتظارات و واقعیت با هم مطابقت دارند یا اینکه آیا مشکلات ناشی از عدم تطابق هستند.
منبع: https://www.mdpi.com/2673-2688/5/2/43