سالهای مدیدی است که جهان مملو از داده شده، حجم این دادهها و سرعت تولید آنها با ظهور وب و البته شبکههای اجتماعی رشد فزایندهای داشته. در واقع، حجم دادههای دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید میشده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ دادههای تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.
حجم بالای دادهها چگونه ذخیره میشوند؟
اولین کامپیوترها دارای حافظههای چند کیلوبایتی بودهاند، اما در حال حاضر گوشیهای هوشمند توانایی ذخیرهسازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپتاپها میتوانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظههای ذخیرهسازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمیشود.
چرا دادهها مهم هستند؟
عبارت «بشر در عصر اطلاعات زندگی میکند» بسیار معروف است. این در حالیست که در حقیقت، بشر در عصر دادهها زندگی میکند. با تبدیل این دادهها به اطلاعات، میتوان آنها را به شمشهایی از طلا مبدل ساخت.
ژیاوی هان – دانشمند داده و نویسنده کتاب «دادهکاوی: مفاهیم و روشها»
دادهها به میزان هوشمندی که میتوان از آنها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از دادهها، مستلزم انجام تحلیلهای موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم دادهها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل دادهها جایگاه قابل توجهی در میان شرکتهای پیشرو در جهان طی این سال کسب کردهاند.
علم داده چیست؟
«علم داده» (data science)، یک زمینه میان رشتهای است که از روشها، فرآیندها، الگوریتمها و سیستمهای علمی برای استخراج دانش و بینش از دادهها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده میکند. چیزی مشابه دادهکاوی! علم داده مفهومی برای یکپارچهسازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیدهها با استفاده از دادهها انجام میشود.
در این دانش از روشها و نظریههای علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر استفاده میشود. «جیم گری» (Jim Gray) برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهشهای تجربی، بنیادی، محاسباتی و اکنون دادهمحور ) تصور کرده و چنین ارزیابی میکند که: «کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».
بهطور کلی میتوان گفت علم داده، مطالعه محلی که دادهها از آن میآیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آنها به منبعی ارزشمند برای کسبوکار و استراتژیهای فناوری اطلاعات سازمان است. کاوش حجم بالایی از دادههای ساختار یافته و ساختار نیافته بهمنظور شناسایی الگوهایی انجام میشود که میتوانند به سازمانها جهت صرفهجویی در هزینهها، افزایش کارایی، شناسایی فرصتهای جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روشها مانند یادگیری ماشین، کاوش داده و بصریسازی داده مورد استفاده قرار میگیرد.
در مجله «بررسی کسبوکار هاروارد» (Harvard Business Review)، از شغل «دانشمند داده» (data scientist) با عنوان جذابترین شغل قرن ۲۱ یاد شده است. اصطلاح علم داده یکی از واژگان باب روز است که بر تحلیلهای کسبوکار، هوش تجاری، مدلسازی پیشبینی یا هر گونه استفاده اختیاری از دادهها اعمال شده و به عنوان واژهای پر زرق و برق برای آمار استفاده میشود. در بسیاری از موارد، رویکردها و راهکارهای موجود در حوزههای گوناگون با عنوان «علم داده» برندسازی مجدد شدهاند تا جذابتر باشند. کاربرد این اصطلاح بیش از آنکه مفید باشد، توسط متخصصین غیر مرتبط بسیاری به شکلی گسترده اما غیر صحیح به کار برده میشود.
در حالیکه در بسیاری از دانشگاههای مطرح دنیا این رشته به عنوان یک زمینه دانشگاهی تدریس میشود، هیچ توافقی در رابطه با محتوای دوره یا سرفصلهای آن تاکنون ایجاد نشده و هر موسسه و دانشگاهی به سبک خود عمل میکند. با وجود مفید و کارآمد بودن علم داده، بسیاری از پروژههای کلان داده (مِه داده) و علم داده به دلیل مدیریت ضعیف و بهکارگیری نامناسب منابع، در انتقال نتایج مفید با شکست مواجه میشوند.
مزایای علم داده
مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیمگیری است. سازمانهایی که بر علم داده سرمایهگذاری میکنند، میتوانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیمسازی در کسبوکار خود استفاده کنند. تصمیمهای دادهمحور میتواند منجر به افزایش سود و بهبود بهرهوری عملیاتی، کارایی کسبوکار و جریانهای کاری بشود. در سازمانهایی که با ارباب رجوع سر و کار دارند، علم داده به شناسایی و جلب مخاطبان هدف کمک میکند. این دانش همچنین میتواند به سازمانها در استخدام نیروهایشان کمک کند. علم داده با پردازش داخلی کاربردها و آزمونهای احراز صلاحیت دادهمحور، میتواند به واحد منابع انسانی سازمانها در انجام انتخابهای صحیحتر و سریعتر در طول فرآیند استخدام کمک کند.
مزایای علم داده بستگی به اهداف شرکت و صنعت مربوط به آن دارد. برای مثال دپارتمانهای فروش و بازاریابی میتوانند دادههای مشتریان را برای بهبود نرخ جذب مشتری و ساخت کمپینهای فرد به فرد کاوش کنند. موسسات بانکی، دادههای خود را جهت ارتقا وظیفه شناسایی کلاهبرداری کاوش میکنند. سرویسهای استریم مثل «نتفلیکس» (Netflix) دادهها را برای شناسایی آنچه کاربران به آن علاقمند هستند و استفاده از آنها برای دانستن اینکه تولید چه فیلمها یا برنامههای تلویزیونی بهتر است کاوش میکنند.
همچنین، در نتفلیکس از الگوریتمهای مبتنی بر پایگاه داده بهمنظور ساخت توصیههای شخصیسازی شده متناسب با عقاید کاربران استفاده شده است. شرکتهای حملونقل مانند FedEx ،DHL و UPS از علم داده برای کشف بهترین مسیرها، زمانها و نوع حملونقل کالا استفاده میکنند. با وجود کاربردهای متعدد علم داده، این زمینه در کسبوکار هنوز نوظهور است، زیرا شناسایی و تحلیل حجم انبوهی از دادههای ساختار نیافته میتواند برای شرکتها بسیار پیچیده، گران قیمت و زمانبر باشد.
تاریخچه
اصطلاح علم داده طی سی سال گذشته در متون زیادی ظاهر شده اما تا چند سال اخیر در فضای دانشگاهی، پژوهشی و صنعتی جا نیفتاده بود. در سال ۱۹۶۰، «پیتر نائور» (Peter Naur) از این عبارت به عنوان جایگزینی برای علم کامپیوتر استفاده کرد. نائور بعدها اصطلاح «دادهشناسی» (datalogy) را بدین منظور معرفی کرد. وی در سال ۱۹۷۴ در مقالهای با عنوان «بررسی دقیق روشهای کامپیوتری» از اصطلاح علم داده برای بیان پردازشهای داده آن دوران که در گستره وسیعی از زمینهها کاربرد داشتند، استفاده کرد.
در سال ۱۹۹۶، اعضای «فدراسیون بینالمللی جامعه دستهبندی» (International Federation of Classification Societies | IFCS) برای گردهمایی دو سال یکبار خود، در شهر کوبه ژاپن گردهم آمدند. در گردهمایی مذکور، برای اولین بار از اصطلاح علم داده به عنوان اسم کنفرانس – علم داده، دستهبندی و روشهای مرتبط – استفاده شد. این کار پس از آن صورت گرفت که در میزگرد برگزار شده، این اصطلاح توسط «چیوی هوایشی» (Chikio Hayashi) معرفی شد. در نوامبر سال ۱۹۹۷، سی اف جف وو (C. F. Jeff Wu) سخنرانی افتتاحیه رویدادی در حوزه علم داده را با عنوان «آمار = علم داده؟» به مناسبت انتساب به سمت استادی در دانشگاه میشیگان انجام داد.
در این سخنرانی، او از کارهای آماری به عنوان سه گانه گردآوری، مدلسازی و تحلیل داده و تصمیمسازی یاد کرد. در این استنتاج، او استفاده مدرن و غیر کامپیوتری اصطلاح علم داده را به کار برد و از آمار به عنوان علمی که به علم داده و آماردان به دانشمندان داده تغییر نام دادهاند یاد کرد. بعدها، او سخنرانی خود با عنوان «آمار = علم داده؟» را به عنوان اولین سخنرانی رویداد Mahalanobis Memorial Lectures در سال ۱۹۹۸ ارائه کرد. سخنرانیهای این مراسم به افتخار «پراسانتا چاندرا ماهالانوبیس» (Prasanta Chandra Mahalanobis) دانشمند و آماردان هندی و بنیانگذار موسسه آمار هند انجام میشود.
در سال ۲۰۰۱، «ویلیام اس کلولند» (William S. Cleveland) علم داده را به عنوان یک اصل مستقل که ترکیبی از علم آمار و پیشرفتهای انجام شده در محاسبات دادهها است معرفی کرد، او در این رابطه میگوید: «علم داده: برنامه اقدام بهمنظور گسترش حوزههای فنی رشته آمار است». در این گزارش، کلولند شش حوزه فنی را که باور داشت برای ایجاد علم داده ترکیب شدهاند برشمرد. این حوزهها عبارتند از تحقیقات چند رشتهای، مدلها و روشهایی برای دادهها، محاسبه با داده، علوم پرورشی، ارزیابی ابزار و نظریه.
در آپریل سال ۲۰۰۲، کمیته داده برای دانش و فناوریِ (Data for Science and Technology | CODATA) شورای بینالمللی دانش (International Council for Science | ICSU)، انتشار مجلهای با عنوان علم داده (Data Science Journal) را آغاز کرد. این اثر، بر مسائلی مانند توصیف سیستمهای داده، نشر آنها در اینترنت، کاربردها و مسائل قانونی مربوط به این حوزه متمرکز بود.
مدت کوتاهی پس از انتشار این مجله، در ژانویه سال ۲۰۰۳، دانشگاه کلمبیا، مجله علم داده (The Journal of Data Science) را ارائه کرد که پلتفرمی برای همه فعالان حوزه داده جهت نشر دیدگاهها و تبادل ایدههایشان بود. این مجله بهطور گستردهای به کاربردهای روشهای آماری و پژوهشهای کمی میپرداخت.
در سال ۲۰۰۵، «انجمن علمی ملی» (National Science Board) اثری با عنوان «مجموعه دادههای دیجیتال با عمر دراز: فراهم کردن امکان آموزش و پژوهش در قرن ۲۱» منتشر کرد و در آن دانشمندان داده را بهعنوان دانشمندان اطلاعات و کامپیوتر، کارشناسان منضبط پایگاه داده، نرمافزار و برنامهنویسی، مربیان و سخنرانان متخصص، کتابداران و بایگانیسازانی معرفی کرد که برای مدیریت موفق یک مجموعه داده دیجیتال حیاتی هستند و فعالیت اصلی آنها انجام تحقیق و تحلیل خلاقانه است.
در حدود سال ۲۰۰۷، «جیم گری» (Jim Gray)، برنده جایزه تورینگ، علوم داده محور را به عنوان چهارمین پارادایم علم معرفی کرد که از تحلیل محاسباتی دادههای بزرگ به عنوان روشی علمی جهت ساخت دنیایی که در آن ادبیات علم و همه دادههای علمی آنلاین هستن استفاده میکند.
در سال ۲۰۱۲، دانراجی پاتیل (Dhanurjay “DJ” Patil)، در مقاله «دانشمند داده: جذابترین شغل قرن ۲۱» که در مجله بررسی کسبوکار هاروارد منتشر شد، ادعا میکند که همراه با «جف همرباچر» (Jeff Hammerbacher) که این عبارت را آنها برای اولین بار در سال ۲۰۰۸ برای معرفی شغلشان در لینکدین و فیسبوک ابداع کردهاند. او از دانشمندان داده به عنوان نژادی جدید یاد کرده که کمبود آنها منجر به محدودیتهای جدی در برخی از بخشهای صنعت و دانشگاه میشود.
در سال ۲۰۱۳، رویداد «نیروی کار علم داده و تحلیل پیشرفته» (IEEE Task Force on Data Science and Advanced Analytics) راهاندازی شد. همچنین، اولین «کنفرانس اروپایی تحلیل داده» (European Conference on Data Analysis | ECDA) در لوکزامبورگ برگزار و پیرو آن «اتحادیه اروپایی تحلیل داده» (European Association for Data Science | EuADS) تاسیس شد. اولین کنفرانس بینالمللی این حوزه با عنوان «کنفرانس بینالمللی علم داده و تحلیلهای پیشرفته IEEE» در سال ۲۰۱۴ برگزار شد.
در همین سال، «جنرال اسمبلی» (General Assembly)، یک اردوی تابستانی و انکوباتور داده برای علاقمندان به علم داده راهاندازی کرد. همچنین، انجمن آمار آمریکا، عنوان ژورنال خود را به «تحلیلهای آماری و دادهکاوی: ژورنال انجمن آمار آمریکا» تغییر نام داد. مدتی بعد و طی تغییر نامی دوباره، بخش اول نام این ژورنال به «یادگیری آماری و علم داده» مبدل شد.
در سال ۲۰۱۵، «ژورنال بینالمللی علم و تحلیل داده» توسط اسپرینگر بهمنظور انتشار کارهای انجام پذیرفته در حوزه علم داده و تحلیل دادههای کلان (مِه داده) بنا شد. در سپتامبر ۲۰۱۵، طی سومین کنفرانس ECDA در دانشگاه اسکس (Essex)، عبارت «Gesellschaft für Klassifikation» به نام «انجمن علم داده» افزوده شد.
ارتباط آمار و علم داده
محبوبیت عبارت «علم داده» در محیطهای دانشگاهی و کسبوکار به دلیل گشایش دربهای جدید به سوی فرصتهای شغلی، رشد انفجاری داشت. با این حال، بسیاری از منتقدان دانشگاهی و روزنامهنگاران تمایزی بین این دو قائل نیستند. «گیل پرس» (Gil Press) در نوشتهای که در مجله «فوربز» (Forbes) منتشر شد، ادعا کرده که علم داده یک واژه باب روز ولی بدون تعریف روشن است که در متون و زمینههای گوناگون از جمله دورههای تحصیلات تکمیلی جایگزین «تحلیل کسبوکار» شده است.
در پنل پرسشوپاسخ جلسات آمار مشترک انجمن آمار آمریکا، «نیت سیلور» (Nate Silver)، آماردان کاربردی، طی سخنانی در این رابطه گفت: «من فکر میکنم دانشمند داده، عبارت آماردان را جذابتر کرده… آمار شاخهای از علم است. دانشمند داده به تدریج در بسیاری از زمینهها به حشو مبدل خواهد شد. افراد نباید از واژه آماردان چشمپوشی کنند».
همچنین، در بخش کسبوکار، پژوهشگران و تحلیلگران گوناگون اذعان میکنند که دانشمندان داده به تنهایی نمیتوانند شرکتها را به مزیتهای رقابتی واقعی برسانند و همچنین، این شغل را تنها یکی از چهار شغلی میدانند که برای دستیابی به قدرت کلانداده (مِهداده) مورد نیاز است. چهار شغل مذکور عبارتند از: تحلیلگر داده، دانشمند داده، توسعهدهنده کلانداده و مهندس کلانداده.
از سوی دیگر، پاسخهای زیادی به چنین انتقاداتی داده شده و میشود. در مقالهای که در سال ۲۰۱۴ در وال استریت ژورنال منتشر شد، «ایروینگ لادوسکی برگر» (Irving Wladawsky-Berger)، اشتیاق به علم داده را مقارن با طلوع علوم کامپیوتر دانست. او چنین استدلال میکند که علم داده مانند هر زمینه میانرشتهای دیگری از روششناسی و راهکارهایی از دیگر زمینههای صنعتی و دانشگاهی بهره میبرد، اما آنها را در قالب جدید شکل میدهد. سخنان این پژوهشگر، به انتقادات تند انجام شده از علوم کامپیوتر که امروزه جایگاه ویژهای در فضای دانشگاهی دارد معطوف بود.
به همین ترتیب، «ویسانت دار» (Vasant Dhar)، دانشمند داده و استاد دانشگاه استرن نیویورک، همچون دیگر طرفداران دانشگاهی علم داده، به استدلال در این رابطه پرداخته است. او در دسامبر سال ۲۰۱۳ با انجام سخنرانی در این رابطه، بیان میکند که علم داده از تحلیلهای داده فعلی موجود در کلیه رشتهها متفاوت است.
تمرکز علم داده بر تشریح مجموعه دادهها و به دنبال الگوهای عملی و سازگار برای استفادههای پیشبینانه است. این هدف کاربردی مهندسی، علم داده را به جایگاهی فراتر از تحلیلهای سنتی میبرد. اکنون دادههای رشتهها و زمینههای کاربردی مانند علوم سلامت و علوم اجتماعی که فاقد نظریههای مستحکم هستند را می توان با بهرهگیری از علم داده برای ساخت مدلهای پیشبین قدرتمند به کار برد.
«دیوید دونوهو» (David Donoho)، در سپتامبر ۲۰۱۵، پاسخگوی انتقادات موجود پیرامون علم داده را با رد سه تعریف اشتباهی که پیرامون علم داده وجود داشت بود. اول آنکه علم داده معادل کلان داده (مِهداده) نیست، زیرا اندازه مجموعه داده معیاری برای ایجاد تمایز بین علم داده و آمار نیست. دوم، علم داده بهوسیله مهارتهای رایانشی مرتبسازی مجموعه دادههای بزرگ تعریف نمیشود. این مهارتها عموما برای تحلیل در کلیه رشتههای مورد استفاده قرار میگیرند. سوم اینکه، علم داده یک زمینه بسیار کاربردی است که در حال حاضر برنامههای دانشگاهی قادر به آمادهسازی دانشمندان داده برای این شغل به شکل مناسبت نیستند. این در حالیست که بسیاری از مراکز آموزشی، دورههای آمار و تحلیل خود را به اشتباه با عنوان دورههای علم داده تبلیغ میکنند.
دونو به عنوان یک آماردان که تلاشهای زیادی در زمینه کاری خود انجام داده و قهرمانانی که دامنه یادگیری را به شکل علم داده کنونی گسترش دادهاند مانند «جان چمبرز» (John Chambers) که خواستار پذیرش مفهوم یادگیری از دادهها توسط آماردانها شده بود، یا ویلیام کلوند که خواهان اولویتدهی به ابزارهای استخراج پیشبین قابل اجرا از دادهها یا نظریههای توصیفی بود، همه با هم رویای یک دانش کاربردی که بر فراز آمار کلاسیک و دیگر زمینههای علمی رشد میکند را تحقق بخشیدهاند.
به خاطر آینده علم داده، پروژه دونو که یک محیط همواره در حال رشد برای «دانش باز» (open science) است، مجموعه دادههای قابل استفاده برای پژوهشهای دانشگاهی را در دسترس کلیه پژوهشگران قرار میدهد. «موسسه ملی سلامت آمریکا» (US National Institute of Health) نیز برنامهای را بهمنظور ارتقا تکرارپذیری و شفافیت دادههای پژوهشی در حال اجرا دارد. بدین ترتیب، آینده علم داده نه تنها مرزهای نظریات آمار را در هم میشکند، بلکه انقلابی در پارادایمهای پژوهشی دانشگاهی برپا خواهد کرد. دونو از این جریانها چنین نتیجه میگیرد: «دامنه و تاثیر علم داده با فراهم شدن دادههای علمی و دادههایی درباره علم، به شکل فوقالعادهای در دهههای پیشرو گسترش خواهد یافت».
منبع: Faradars