چالش اخلاقی بزرگ مشاهده‌پذیری داده‌ها: ایجاد اعتماد در مقیاس‌های کلان

خانه » مقالات » چالش اخلاقی بزرگ مشاهده‌پذیری داده‌ها: ایجاد اعتماد در مقیاس‌های کلان

چهار شنبه, ۵ بهمن ۱۴۰۱

زمان تقریبی مطالعه ۱۸ دقیقه

به‌گفته کایل کروان، یکی از بنیانگذاران و مدیرعامل پلتفرم مشاهده‌پذیری داده بیگ‌آی، تعداد کمی از شرکت‌ها منابع مورد نیاز برای توسعه ابزارهایی مانند مشاهده‌پذیری داده‌ها در مقیاس‌های کلان را دارند.

به‌گفته کایل کروان[۱]، یکی از بنیانگذاران و مدیرعامل پلتفرم مشاهده‌پذیری داده بیگ‌آی[۲]، تعداد کمی از شرکت‌ها منابع موردنیاز برای توسعۀ ابزارهایی مانند مشاهده‌پذیری داده‌ها در مقیاس‌های کلان را دارند. درنتیجه، بسیاری از شرکت‌ها اساساً چشم خود را بر حقایق می‌بندند و وقتی مشکلی پیش می‌آید به‌جای رسیدگی به کیفیت داده‌ها، فقط واکنش نشان می‌دهند. این درحالی است که هزینۀ پاک‌سازی داده‌ برای کسب‌وکارها به مراتب بیشتر از ایجاد منطقه‌ای امن و جلوگیری از آلوده‌شدن به داده‌های کثیف است. درواقع اعتماد به داده‌ها یک چارچوب قانونی برای مدیریت داده‌های به‌اشتراک گذاشته‌شده ارائه می‌دهد. این مهم، همکاری‌ها را ازطریق قوانین مشترک برای امنیت داده‌ها، حریم خصوصی و محرمانه‌بودن ارتقا می‌دهد و سازمان‌ها را قادر می‌سازد تا به‌طور ایمن منابع داده خود را در مرکز مشترک داده‌ها به هم متصل کنند.

در این راستا شرکت بیگ‌آی مهندسان داده، تحلیلگران، دانشمندان و سهامداران را گرد هم می‌آورد تا به داده‌ها اعتماد ایجاد کند. پلتفرم بیگ‌آی به شرکت‌ها کمک می‌کند تا نظارت و تشخیص ناهنجاری‌ها را خودکار کرده و یک قرارداد سطح خدمات [۳](SLA) ایجاد کنند تا از کیفیت داده و خطوط انتقال آن اطمینان حاصل کنند. درواقع تیم‌های داده می‌توانند با دسترسی کامل به واسط برنامه‌نویسی [۴](API)، یک رابط کاربرپسند و سفارشی‌سازی خودکار و درعین‌حال انعطاف‌پذیر، بر کیفیت داده‌ها نظارت کنند، به‌طور فعال مشکلات را شناسایی و حل کنند و اطمینان حاصل کنند که هر کاربر می‌تواند به داده‌ها اعتماد کند.

تجربۀ اوبر[۵]

ایدۀ تشکیل بیگ‌آی از آنجا نشأت گرفت که دو عضو اولیۀ تیم داده در اوبر یعنی کروان و گریاژنف[۶] (بنیان‌گذار و مدیر ارشد فناوری بیگ‌آی) تصمیم گرفتند از آنچه در مقیاس اوبر یاد گرفته‌اند برای ایجاد ابزارهای اجارۀ نرم‌افزار[۷] با قابلیت استقرار آسان‌تر برای مهندسین داده استفاده کنند. کروان یکی از اولین دانشمندان داده اوبر و اولین مدیر محصول ابرداده بود. گریازنوف نیز یک مهندس در سطح کارکنان بود که انبار داده‌ای در اوبر را مدیریت کرد و چندین ابزار و چارچوب مهندسی دادۀ داخلی را توسعه داد. آن‌ها متوجه شدند که تیم‌هایشان ابزارهایی را برای مدیریت منابع داده‌های عظیم اوبر می‌سازند و هزاران کاربر داخلی داده از آنچه برای اکثر تیم‌های مهندسی داده در دسترس بود بسیار جلوتر هستند. باید توجه داشت که نظارت و شناسایی خودکار مسائل مربوط به قابلیت اطمینان در هزاران جدول انبارهای داده، کار ساده‌ای نیست. شرکت‌هایی مانند داکر[۸] و بیگ‌آی از کلاب‌هوس[۹] استفاده می‌کنند تا فرایند تجزیه‌وتحلیل و یادگیری ماشین خود را به‌طور مستمر ادامه دهند.

یک میدان درحال رشد

درواقع کروان و گریاژنف با تأسیس بیگ‌آی در سال ۲۰۱۹، مشکل روبه‌رشدی را تشخیص دادند که شرکت‌ها در به‌کارگیری داده‌ها در موارد استفاده با بازگشت سرمایۀ بالا مانند گردش کار عملیات، محصولات و خدمات مبتنی بر یادگیری ماشین، تصمیم‌گیری مبتنی بر هوش تجاری و تجزیه‌وتحلیل استراتژیک با آن مواجه هستند. نکتۀ قابل‌توجه آنکه برخلاف وجود چندین شرکت فعال در فضای مشاهده‌پذیری داده‌ها در سال ۲۰۲۱، بیگ‌آی با ارائۀ قابلیت ارزیابی خودکار کیفیت داده‌های مشتری با بیش از ۷۰ معیار منحصربه‌فرد کیفیت داده، خود را از آن مجموعه جدا کرد. این معیارها با هزاران مدل تشخیص ناهنجاری جداگانه آموزش داده می‌شوند تا اطمینان حاصل شود که مشکلات کیفیت داده -حتی سخت‌ترین آن‌ها- هرگز از سوی مهندسان داده بدون پاسخ نخواهد ماند.
این روند روبه‌رشد همچنان ادامه دارد به‌نحوی که در سال گذشته، حداقل ۱۰ شرکت نوپای مشاهده‌پذیری داده‌ها که گردش‌های مالی قابل‌توجهی را اعلام کردند، وارد صحنه شدند. کروان پیش‌بینی کرد که امسال نیز روند توجه و اولویت‌دهی به فرایند مشاهده‌پذیری داده‌ها با رشد مواجه خواهد بود، زیرا آن‌ها به‌دنبال متعادل‌کردن تقاضای مدیریت دستگاه‌های پیچیده با نیاز به اطمینان از کیفیت داده و قابلیت اطمینان انتقال آن هستند.

ازجمله ویژگی‌های بیگ‌آی این است که افراد نمی‌توانند خودشان الگوریتم‌های نرم‌افزاری را تغییر دهند. همچنین، این شرکت از مدل‌های اختصاصی خودش برای تشخیص ناهنجاری‌های مختلف داده‌ها استفاده می‌کند. درواقع هرچند بیگ‌آی یکی از طرفداران بزرگ (پروپاقرص) رویکردهای به‌اصطلاح متن باز است، اما تصمیم گرفته تا گزینه‌های خود را برای دستیابی به اهداف عملکرد تعیین‌شده داخلی توسعه دهد.

خلاصۀ راه‌حل

ازجمله ویژگی‌های بیگ‌آی این است که افراد نمی‌توانند خودشان الگوریتم‌های نرم‌افزاری را تغییر دهند. همچنین، این شرکت از مدل‌های اختصاصی خودش برای تشخیص ناهنجاری‌های مختلف داده‌ها استفاده می‌کند. درواقع هرچند بیگ‌آی یکی از طرفداران بزرگ (پروپاقرص) رویکردهای به‌اصطلاح متن باز[۱۰] است، اما تصمیم گرفته تا گزینه‌های خود را برای دستیابی به اهداف عملکرد تعیین‌شده داخلی توسعه دهد. علاوه‌براین، یادگیری ماشین در چند مسئلۀ کلیدی استفاده می‌شود تا ترکیبی منحصربه‌فرد از معیارها را در هر جدول در منابع داده متصل مشتری به ارمغان بیاورد. مدل‌های تشخیص ناهنجاری بر روی هریک از آن معیارها برای تشخیص رفتار غیرعادی آموزش داده شده‌اند. البته برخی از ویژگی‌های درجۀ سازمانی مانند کنترل دسترسی کامل مبتنی بر نقش هنوز در نقشۀ راه هستند و عملیاتی نشده‌اند.

علاوه‌بر آنچه بیان گردید، ‌سه ویژگی داخلی به‌طور خودکار مسائل مربوط به کیفیت داده‌ها را شناسایی کرده و ضمن اعلام هشدار، قرارداد سطح خدمات کیفیت داده را فعال می‌کند: نخست، دلتا[۱۱]، مقایسه و اعتبارسنجی چند نسخه از هر مجموعه داده را آسان می‌کند؛ ویژگی بعدی، هشدارهای متعدد را در یک جدول زمانی واحد با زمینۀ ارزشمند درمورد مسائل مرتبط با هم قرار می‌دهد. این باعث می‌شود که مستندسازی اصلاحات گذشته و بالابردن کیفیت و وضوح آسان‌تر شود؛ و سومی، داشبورد، نمای کلّی از سلامت داده‌ها را ارائه می‌دهد و به شناسایی نقاط مهم کیفیت داده‌ها، بستن شکاف‌ها در پوشش نظارت و تعیین کمّیت ارتقای یک تیم در قابلیت اطمینان کمک می‌کند.

همۀ این ویژگی‌ها بدین خاطر پیش‌بینی و طراحی شده که مشاهده‌پذیری داده‌ها، مستلزم آگاهی دائمی و کاملی است از آنچه درون همۀ جداول و خطوط انتقال داده اتفاق می‌افتد. این شبیه به همان چیزی است که تیم‌های مهندسی قابلیت اطمینان سایت و DevOps[۱۲] از آن برای کارکردن برنامه‌ها و زیرساخت‌ها در شبانه‌روز استفاده می‌کنند. اما این قابلیت برای دنیای مهندسی داده و علم داده دوباره مورد توجه قرار گرفته است.

درحالی‌که کیفیت داده‌ها و قابلیت اطمینان داده‌ها برای چندین دهه یک موضوع چالشی به شمار می‌رفته است، اما درحال حاضر برنامه‌های کاربردی داده برای تعداد زیادی از کسب‌وکارهای پیشرو بسیار مهم هستند، چراکه هرگونه ازدست‌دادن، قطع یا تخریب داده‌ها می‌تواند به‌سرعت منجر به ازدست‌دادن مشتریان و درنتیجه کاهش درآمد شود. درواقع، بدون مشاهده‌پذیری داده‌ها، فروشنده‌های داده باید دائماً به مسائل مربوط به کیفیت داده واکنش نشان دهند و مجبورند هنگام استفاده از داده‌ها، آن‌ها را درگیر کنند. راه‌حل بهتر، شناسایی پیشگیرانۀ مسائل و رفع علل ریشه‌ای است.

چگونه اعتماد بر داده‌ها تأثیر می‌گذارد؟

نکتۀ قابل‌توجه اینکه عمدتاً مشکلات به‌وسیلۀ ذی‌نفعان مانند مدیرانی که به پیشخوان غالباً خراب خود اعتماد ندارند، کشف می‌شوند. همچنین بعید نیست که کاربران خودشان نتایج گیج‌کننده‌ای را از مدل‌های یادگیری ماشین حین کار با محصول دریافت کنند. ازاین‌رو، اگر به مهندسان داده زودتر هشدار داده شود، همیشه یک قدم از مسائل جلوترند و بهتر می‌توانند مشکلات را برطرف کنند و از تأثیرات منفی تجاری آن جلوگیری کنند.

این فناوری با چه چالش‌هایی روبه‌روست؟

اما این فناوری با چالش‌هایی در رابطه با کشف و مدیریت داده‌ها، ردیابی و مدیریت هزینه، کنترل‌های دسترسی نحوۀ مدیریت تعداد روزافزون پرس‌و‌جوها، مسائل داشبوردها و ویژگی‌ها و مدل‌های آن‌ها روبه‌روست. البته قابلیت اطمینان و زمان به‌روزرسانی، مهم‌ترین چالش‌هایی هستند که بسیاری از تیم‌های DevOps مسئولیت آن‌ها را بر عهده دارند. اما آن‌ها اغلب با جنبه‌های دیگری مانند سرعت توسعه‌دهنده و ملاحظات امنیتی نیز همراه هستند. در این دو حوزه، مشاهده‌پذیری داده‌ها، تیم‌های داده را قادر می‌سازد تا بدانند که آیا داده‌ها و خطوط داده‌شان بدون خطا هستند یا خیر.

در این رابطه، کروان معتقد است که سیستم‌های قابل‌مشاهده مؤثر داده‌ها باید در جریان کار تیم داده ادغام شوند. این مسئله به آن‌ها امکان می‌دهد تا به‌جای واکنش مداوم به مسائل داده و خاموش‌کردن آتشِ داده‌ها، روی رشد پلتفرم‌های داده خود تمرکز کنند. بااین‌حال، یک سیستم مشاهده‌پذیری داده با تنظیم ضعیف، می‌تواند منجر به امید و اعتماد کاذب شود. یک سیستم دادۀ موثر همچنین باید با تطبیق خودکار با تغییرات کسب‌وکار، بخش زیادی از تعمیر و نگهداری را از آزمایش مسائل مربوط به کیفیت داده‌ها حذف کند. بااین‌حال، یک سیستم مشاهده‌پذیری داده‌ای که بهینه نشده، ممکن است تغییرات در کسب‌وکار را اصلاح نکند یا برای تغییرات کسب‌وکار بیش‌ازحد تصحیح انجام دهد که نیاز به تنظیم دستی دارد و البته این امر می‌تواند زمان‌بر باشد

پانوشت

۱- Kyle Kirwan

۲- Bigeye

۳- Service Level Agreement یک قرارداد دو جانبه بین خدمت‌دهنده و خدمت‌گیرنده است که براساس توافق و به‌منظور تضمین پارامترهای کیفیت خدمات توافق‌شده منعقد می‌شود.

۴- واسط بین یک کتابخانه یا سیستم‌عامل و برنامه‌هایی است که از آن تقاضای سرویس می‌کنند.