سال‌های مدیدی است که جهان مملو از داده شده، حجم این داده‌ها و سرعت تولید آن‌ها با ظهور وب و البته شبکه‌های اجتماعی رشد فزاینده‌ای داشته. در واقع، حجم داده‌های دیجیتال با سرعت زیادی در حال رشد است. مطابق گزارش IBM، در سال ۲۰۱۲ هر روز بالغ بر ۲.۵ اگزابایت داده تولید می‌شده. بر اساس گزارش منتشر شده توسط DOMO، حجم تولید داده در سال ۲۰۱۸ نیز به همین منوال ادامه داشته است. در گزارش IBM آمده: «۷۵٪ داده‌های تولید شده، ساختار نیافته و منابعی مانند متن، صدا و ویدئو هستند». در ادامه به مبحث علم داده به عنوان راهکاری جهت مبدل ساختن این حجم از داده به اطلاعات و دانش پرداخته خواهد شد.

حجم بالای داده‌ها چگونه ذخیره می‌شوند؟

اولین کامپیوترها دارای حافظه‌های چند کیلوبایتی بوده‌اند، اما در حال حاضر گوشی‌های هوشمند توانایی ذخیره‌سازی بالغ بر ۱۲۸ گیگابایت داده را دارند و لپ‌تاپ‌ها می‌توانند چندین ترابایت داده را در حافظه داخلی خود ذخیره کنند. با افزایش ظرفیت و کاهش قیمت و ابعاد حافظه‌های ذخیره‌سازی، این موضوع در جهان کنونی و برخلاف گذشته دیگر موضوع قابل توجهی محسوب نمی‌شود.

 

چرا داده‌ها مهم هستند؟

عبارت «بشر در عصر اطلاعات زندگی می‌کند» بسیار معروف است. این در حالیست که در حقیقت، بشر در عصر داده‌ها زندگی می‌کند. با تبدیل این داده‌ها به اطلاعات، می‌توان آن‌ها را به شمش‌هایی از طلا مبدل ساخت.

ژیاوی هان – دانشمند داده و نویسنده کتاب «داده‌کاوی: مفاهیم و روش‌ها»

داده‌ها به میزان هوشمندی که می‌توان از آن‌ها استخراج کرد مفید و حائز اهمیت هستند. استخراج دانش و هوشمندی از داده‌ها، مستلزم انجام تحلیل‌های موثر و قدرت پردازش کامپیوتری بالا برای مواجهه با افزایش حجم داده‌ها است. در گزارش منتشر شده توسط Bain & Co در سال ۲۰۱۴، اذعان شده بود که ۴۰۰ شرکت فعال در حوزه تحلیل داده‌ها جایگاه قابل توجهی در میان شرکت‌های پیشرو در جهان طی این سال کسب کرده‌اند.

 

علم داده چیست؟

«علم داده» (data science)، یک زمینه میان رشته‌ای است که از روش‌ها، فرآیندها، الگوریتم‌ها و سیستم‌های علمی برای استخراج دانش و بینش از داده‌ها در اشکال گوناگون (ساختار یافته و ساختار نیافته) استفاده می‌کند. چیزی مشابه داده‌کاوی! علم داده مفهومی برای یکپارچه‌سازی آمار، تحلیل داده، یادگیری ماشین و دیگر مفاهیم مرتبط تحت یک عنوان واحد است. این کار به منظور درک و تحلیل پدیده‌ها با استفاده از داده‌ها انجام می‌شود.

در این دانش از روش‌ها و نظریه‌های علوم گوناگون از جمله ریاضیات، آمار، علم اطلاعات و علوم کامپیوتر استفاده می‌شود. «جیم گری» (Jim Gray) برنده جایزه تورینگ، علم داده را به عنوان پارادایم چهارم علم (پژوهش‌های تجربی، بنیادی، محاسباتی و اکنون داده‌محور ) تصور کرده و چنین ارزیابی می‌کند که: «کلیه موارد مربوط به علم تحت تاثیر فناوری اطلاعات در حال تغییر است».

 

جیم گری ـ دانشمند داده

به‌طور کلی می‌توان گفت علم داده، مطالعه محلی که داده‌ها از آن می‌آیند، نشانگر چه چیزی هستند و چگونگی مبدل ساختن آن‌ها به منبعی ارزشمند برای کسب‌و‌کار و استراتژی‌های فناوری اطلاعات سازمان است. کاوش حجم بالایی از داده‌های ساختار یافته و ساختار نیافته به‌منظور شناسایی الگوهایی انجام می‌شود که می‌توانند به سازمان‌ها جهت صرفه‌جویی در هزینه‌ها، افزایش کارایی، شناسایی فرصت‌های جدید در بازار و افزایش مزایای رقابتی کمک کنند. در علم داده، ریاضیات، آمار، علوم کامپیوتر و دیگر روش‌ها مانند یادگیری ماشین، کاوش داده و بصری‌سازی داده مورد استفاده قرار می‌گیرد.

در مجله «بررسی کسب‌و‌کار هاروارد» (Harvard Business Review)، از شغل «دانشمند داده» (data scientist) با عنوان جذاب‌ترین شغل قرن ۲۱ یاد شده است. اصطلاح علم داده یکی از واژگان باب روز است که بر تحلیل‌های کسب‌و‌کار، هوش تجاری، مدل‌سازی پیش‌بینی یا هر گونه استفاده اختیاری از داده‌ها اعمال شده و به عنوان واژه‌ای پر زرق و برق برای آمار استفاده می‌شود. در بسیاری از موارد، رویکردها و راهکارهای موجود در حوزه‌های گوناگون با عنوان «علم داده» برندسازی مجدد شده‌اند تا جذاب‌تر باشند. کاربرد این اصطلاح بیش از آنکه مفید باشد، توسط متخصصین غیر مرتبط بسیاری به شکلی گسترده اما غیر صحیح به کار برده می‌شود.

دانشمند داده، جذاب‌ترین شغل در قرن ۲۱

در حالیکه در بسیاری از دانشگاه‌های مطرح دنیا این رشته به عنوان یک زمینه دانشگاهی تدریس می‌شود، هیچ توافقی در رابطه با محتوای دوره یا سرفصل‌های آن تاکنون ایجاد نشده و هر موسسه و دانشگاهی به سبک خود عمل می‌کند. با وجود مفید و کارآمد بودن علم داده، بسیاری از پروژه‌های کلان داده (مِه داده) و علم داده به دلیل مدیریت ضعیف و به‌کارگیری نامناسب منابع، در انتقال نتایج مفید با شکست مواجه می‌شوند.

مزایای علم داده

مزیت اصلی علم داده، توانمندسازی و تسهیل تصمیم‌گیری است. سازمان‌هایی که بر علم داده سرمایه‌گذاری می‌کنند، می‌توانند از شواهد قابل سنجش و مبتنی بر داده برای تصمیم‌سازی در کسب‌و‌کار خود استفاده کنند. تصمیم‌های داده‌محور می‌تواند منجر به افزایش سود و بهبود بهره‌وری عملیاتی، کارایی کسب‌و‌کار و جریان‌های کاری بشود. در سازمان‌هایی که با ارباب رجوع سر و کار دارند، علم داده به شناسایی و جلب مخاطبان هدف کمک می‌کند. این دانش همچنین می‌تواند به سازمان‌ها در استخدام نیروهایشان کمک کند. علم داده با پردازش داخلی کاربردها و آزمون‌های احراز صلاحیت داده‌محور، می‌تواند به واحد منابع انسانی سازمان‌ها در انجام انتخاب‌های صحیح‌تر و سریع‌تر در طول فرآیند استخدام کمک کند.

ارزش‌آفرینی علم داده برای سازمان‌ها

مزایای علم داده بستگی به اهداف شرکت و صنعت مربوط به آن دارد. برای مثال دپارتمان‌های فروش و بازاریابی می‌توانند داده‌های مشتریان را برای بهبود نرخ جذب مشتری و ساخت کمپین‌های فرد به فرد کاوش کنند. موسسات بانکی، داده‌های خود را جهت ارتقا وظیفه شناسایی کلاهبرداری کاوش می‌کنند. سرویس‌های استریم مثل «نتفلیکس» (Netflix) داده‌ها را برای شناسایی آنچه کاربران به آن علاقمند هستند و استفاده از آن‌ها برای دانستن اینکه تولید چه فیلم‌ها یا برنامه‌های تلویزیونی بهتر است کاوش می‌کنند.

همچنین، در نتفلیکس از الگوریتم‌های مبتنی بر پایگاه داده به‌منظور ساخت توصیه‌های شخصی‌سازی شده متناسب با عقاید کاربران استفاده شده است. شرکت‌های حمل‌و‌نقل مانند FedEx ،DHL و UPS از علم داده برای کشف بهترین مسیرها، زمان‌ها و نوع حمل‌و‌نقل کالا استفاده می‌کنند. با وجود کاربردهای متعدد علم داده، این زمینه در کسب‌و‌کار هنوز نوظهور است، زیرا شناسایی و تحلیل حجم انبوهی از داده‌های ساختار نیافته می‌تواند برای شرکت‌ها بسیار پیچیده، گران قیمت و زمان‌بر باشد.

تاریخچه

اصطلاح علم داده طی سی سال گذشته در متون زیادی ظاهر شده اما تا چند سال اخیر در فضای دانشگاهی، پژوهشی و صنعتی جا نیفتاده بود. در سال ۱۹۶۰، «پیتر نائور» (Peter Naur) از این عبارت به عنوان جایگزینی برای علم کامپیوتر استفاده کرد. نائور بعدها اصطلاح «داده‌شناسی» (datalogy) را بدین منظور معرفی کرد. وی در سال ۱۹۷۴ در مقاله‌ای با عنوان «بررسی دقیق روش‌های کامپیوتری» از اصطلاح علم داده برای بیان پردازش‌های داده آن دوران که در گستره وسیعی از زمینه‌ها کاربرد داشتند، استفاده کرد.

پیتر نائور ـ دانشمند داده

در سال ۱۹۹۶، اعضای «فدراسیون بین‌المللی جامعه دسته‌بندی» (International Federation of Classification Societies | IFCS) برای گردهمایی دو سال یکبار خود، در شهر کوبه ژاپن گردهم آمدند. در گردهمایی مذکور، برای اولین بار از اصطلاح علم داده به عنوان اسم کنفرانس – علم داده، دسته‌بندی و روش‌های مرتبط – استفاده شد. این کار پس از آن صورت گرفت که در میزگرد برگزار شده، این اصطلاح توسط «چیوی هوایشی» (Chikio Hayashi) معرفی شد. در نوامبر سال ۱۹۹۷، سی اف جف وو (C. F. Jeff Wu) سخنرانی افتتاحیه رویدادی در حوزه علم داده را با عنوان «آمار = علم داده؟» به مناسبت انتساب به سمت استادی در دانشگاه میشیگان انجام داد.

در این سخنرانی، او از کارهای آماری به عنوان سه گانه گردآوری، مدل‌سازی و تحلیل داده و تصمیم‌سازی یاد کرد. در این استنتاج، او استفاده مدرن و غیر کامپیوتری اصطلاح علم داده را به کار برد و از آمار به عنوان علمی که به علم داده و آماردان به دانشمندان داده تغییر نام داده‌اند یاد کرد. بعدها، او سخنرانی خود با عنوان «آمار = علم داده؟» را به عنوان اولین سخنرانی رویداد Mahalanobis Memorial Lectures در سال ۱۹۹۸ ارائه کرد. سخنرانی‌های این مراسم به افتخار «پراسانتا چاندرا ماهالانوبیس» (Prasanta Chandra Mahalanobis) دانشمند و آماردان هندی و بنیان‌گذار موسسه آمار هند انجام می‌شود.

علم داده در مقایسه با آمار

در سال ۲۰۰۱، «ویلیام اس کلولند» (William S. Cleveland) علم داده را به عنوان یک اصل مستقل که ترکیبی از علم آمار و پیشرفت‌های انجام شده در محاسبات داده‌ها است معرفی کرد، او در این رابطه می‌گوید: «علم داده: برنامه اقدام به‌منظور گسترش حوزه‌های فنی رشته آمار است». در این گزارش، کلولند شش حوزه فنی را که باور داشت برای ایجاد علم داده ترکیب شده‌اند برشمرد. این حوزه‌ها عبارتند از تحقیقات چند رشته‌ای، مدل‌ها و روش‌هایی برای داده‌ها، محاسبه با داده، علوم پرورشی، ارزیابی ابزار و نظریه.

در آپریل سال ۲۰۰۲، کمیته داده برای دانش و فناوریِ (Data for Science and Technology | CODATA) شورای بین‌المللی دانش (International Council for Science | ICSU)، انتشار مجله‌ای با عنوان علم داده (Data Science Journal) را آغاز کرد. این اثر، بر مسائلی مانند توصیف سیستم‌های داده، نشر آن‌ها در اینترنت، کاربردها و مسائل قانونی مربوط به این حوزه متمرکز بود.

مدت کوتاهی پس از انتشار این مجله، در ژانویه سال ۲۰۰۳، دانشگاه کلمبیا، مجله علم داده (The Journal of Data Science) را ارائه کرد که پلتفرمی برای همه فعالان حوزه داده جهت نشر دیدگاه‌ها و تبادل ایده‌هایشان بود. این مجله به‌طور گسترده‌ای به کاربردهای روش‌های آماری و پژوهش‌های کمی می‌پرداخت.

در سال ۲۰۰۵، «انجمن علمی ملی» (National Science Board) اثری با عنوان «مجموعه داده‌های دیجیتال با عمر دراز: فراهم کردن امکان آموزش و پژوهش در قرن ۲۱» منتشر کرد و در آن دانشمندان داده را به‌عنوان دانشمندان اطلاعات و کامپیوتر، کارشناسان منضبط پایگاه داده، نرم‌افزار و برنامه‌نویسی، مربیان و سخنرانان متخصص، کتابداران و بایگانی‌سازانی معرفی کرد که برای مدیریت موفق یک مجموعه داده دیجیتال حیاتی هستند و فعالیت اصلی آن‌ها انجام تحقیق و تحلیل خلاقانه است.

 

ژورنال‌های علم داده

در حدود سال ۲۰۰۷، «جیم گری» (Jim Gray)، برنده جایزه تورینگ، علوم داده محور را به عنوان چهارمین پارادایم علم معرفی کرد که از تحلیل محاسباتی داده‌های بزرگ به عنوان روشی علمی جهت ساخت دنیایی که در آن ادبیات علم و همه داده‌های علمی آنلاین هستن استفاده می‌کند.

در سال ۲۰۱۲، دانراجی پاتیل (Dhanurjay “DJ” Patil)، در مقاله «دانشمند داده: جذاب‌ترین شغل قرن ۲۱» که در مجله بررسی کسب‌و‌کار هاروارد منتشر شد، ادعا می‌کند که همراه با «جف همرباچر» (Jeff Hammerbacher) که این عبارت را آن‌ها برای اولین بار در سال ۲۰۰۸ برای معرفی شغلشان در لینکدین و فیس‌بوک ابداع کرده‌اند. او از دانشمندان داده به عنوان نژادی جدید یاد کرده که کمبود آن‌ها منجر به محدودیت‌های جدی در برخی از بخش‌های صنعت و دانشگاه می‌شود.

در سال ۲۰۱۳، رویداد «نیروی کار علم داده و تحلیل پیشرفته» (IEEE Task Force on Data Science and Advanced Analytics) راه‌اندازی شد. همچنین، اولین «کنفرانس اروپایی تحلیل داده» (European Conference on Data Analysis | ECDA) در لوکزامبورگ برگزار و پیرو آن «اتحادیه اروپایی تحلیل داده» (European Association for Data Science | EuADS) تاسیس شد. اولین کنفرانس بین‌المللی این حوزه با عنوان «کنفرانس بین‌المللی علم داده و تحلیل‌های پیشرفته IEEE» در سال ۲۰۱۴ برگزار شد.

علم داده، آمار نیست.

در همین سال، «جنرال اسمبلی» (General Assembly)، یک اردوی تابستانی و انکوباتور داده برای علاقمندان به علم داده راه‌اندازی کرد. همچنین، انجمن آمار آمریکا، عنوان ژورنال خود را به «تحلیل‌های آماری و داده‌کاوی: ژورنال انجمن آمار آمریکا» تغییر نام داد. مدتی بعد و طی تغییر نامی دوباره، بخش اول نام این ژورنال به «یادگیری آماری و علم داده» مبدل شد.

در سال ۲۰۱۵، «ژورنال بین‌المللی علم و تحلیل داده» توسط اسپرینگر به‌منظور انتشار کارهای انجام پذیرفته در حوزه علم داده و تحلیل داده‌های کلان (مِه داده) بنا شد. در سپتامبر ۲۰۱۵، طی سومین کنفرانس ECDA در دانشگاه اسکس (Essex)، عبارت «Gesellschaft für Klassifikation» به نام «انجمن علم داده» افزوده شد.

ارتباط آمار و علم داده

محبوبیت عبارت «علم داده» در محیط‌های دانشگاهی و کسب‌و‌کار به دلیل گشایش درب‌های جدید به سوی فرصت‌های شغلی، رشد انفجاری داشت. با این حال، بسیاری از منتقدان دانشگاهی و روزنامه‌نگاران تمایزی بین این دو قائل نیستند. «گیل پرس» (Gil Press) در نوشته‌ای که در مجله «فوربز» (Forbes) منتشر شد، ادعا کرده که علم داده یک واژه باب روز ولی بدون تعریف روشن است که در متون و زمینه‌های گوناگون از جمله دوره‌های تحصیلات تکمیلی جایگزین «تحلیل کسب‌و‌کار» شده است.

در پنل پرسش‌و‌پاسخ جلسات آمار مشترک انجمن آمار آمریکا، «نیت سیلور» (Nate Silver)، آماردان کاربردی، طی سخنانی در این رابطه گفت: «من فکر می‌کنم دانشمند داده، عبارت آماردان را جذاب‌تر کرده… آمار شاخه‌ای از علم است. دانشمند داده به تدریج در بسیاری از زمینه‌ها به حشو مبدل خواهد شد. افراد نباید از واژه آماردان چشم‌پوشی کنند».

همچنین، در بخش کسب‌و‌کار، پژوهشگران و تحلیلگران گوناگون اذعان می‌کنند که دانشمندان داده به تنهایی نمی‌توانند شرکت‌ها را به مزیت‌های رقابتی واقعی برسانند و همچنین، این شغل را تنها یکی از چهار شغلی می‌دانند که برای دستیابی به قدرت کلان‌داده (مِه‌داده) مورد نیاز است. چهار شغل مذکور عبارتند از: تحلیل‌گر داده، دانشمند داده، توسعه‌دهنده کلان‌داده و مهندس کلان‌داده.

رابطه علم داده و کلان‌داده

از سوی دیگر، پاسخ‌های زیادی به چنین انتقاداتی داده شده و می‌شود. در مقاله‌ای که در سال ۲۰۱۴ در وال استریت ژورنال منتشر شد، «ایروینگ لادوسکی برگر» (Irving Wladawsky-Berger)، اشتیاق به علم داده را مقارن با طلوع علوم کامپیوتر دانست. او چنین استدلال می‌کند که علم داده مانند هر زمینه میان‌رشته‌ای دیگری از روش‌شناسی و راهکارهایی از دیگر زمینه‌های صنعتی و دانشگاهی بهره می‌برد، اما آن‌ها را در قالب جدید شکل می‌دهد. سخنان این پژوهشگر، به انتقادات تند انجام شده از علوم کامپیوتر که امروزه جایگاه ویژه‌ای در فضای دانشگاهی دارد معطوف بود.

 

به همین ترتیب، «ویسانت دار» (Vasant Dhar)، دانشمند داده و استاد دانشگاه استرن نیویورک، همچون دیگر طرفداران دانشگاهی علم داده، به استدلال در این رابطه پرداخته است. او در دسامبر سال ۲۰۱۳ با انجام سخنرانی در این رابطه، بیان می‌کند که علم داده از تحلیل‌های داده فعلی موجود در کلیه رشته‌ها متفاوت است.

ویسانت دار

تمرکز علم داده بر تشریح مجموعه داده‌ها و به دنبال الگوهای عملی و سازگار برای استفاده‌های پیش‌بینانه است. این هدف کاربردی مهندسی، علم داده را به جایگاهی فراتر از تحلیل‌های سنتی می‌برد. اکنون داده‌های رشته‌ها و زمینه‌های کاربردی مانند علوم سلامت و علوم اجتماعی که فاقد نظریه‌های مستحکم هستند را می توان با بهره‌گیری از علم داده برای ساخت مدل‌های پیش‌بین قدرتمند به کار برد.

«دیوید دونوهو» (David Donoho)، در سپتامبر ۲۰۱۵، پاسخگوی انتقادات موجود پیرامون علم داده را با رد سه تعریف اشتباهی که پیرامون علم داده وجود داشت بود. اول آنکه علم داده معادل کلان داده (مِه‌داده) نیست، زیرا اندازه مجموعه داده معیاری برای ایجاد تمایز بین علم داده و آمار نیست. دوم، علم داده به‌وسیله مهارت‌های رایانشی مرتب‌سازی مجموعه داده‌های بزرگ تعریف نمی‌شود. این مهارت‌ها عموما برای تحلیل در کلیه رشته‌های مورد استفاده قرار می‌گیرند. سوم اینکه، علم داده یک زمینه بسیار کاربردی است که در حال حاضر برنامه‌های دانشگاهی قادر به آماده‌سازی دانشمندان داده برای این شغل به شکل مناسبت نیستند. این در حالیست که بسیاری از مراکز آموزشی، دوره‌های آمار و تحلیل خود را به اشتباه با عنوان دوره‌های علم داده تبلیغ می‌کنند.

علم داده یک دانش میان‌رشته‌ای است.

دونو به عنوان یک آماردان که تلاش‌های زیادی در زمینه کاری خود انجام داده و قهرمانانی که دامنه یادگیری را به شکل علم داده کنونی گسترش داده‌اند مانند «جان چمبرز» (John Chambers) که خواستار پذیرش مفهوم یادگیری از داده‌ها توسط آماردان‌ها شده بود، یا ویلیام کلوند که خواهان اولویت‌دهی به ابزارهای استخراج پیش‌بین قابل اجرا از داده‌ها یا نظریه‌های توصیفی بود، همه با هم رویای یک دانش کاربردی که بر فراز آمار کلاسیک و دیگر زمینه‌های علمی رشد می‌کند را تحقق بخشیده‌اند.

به خاطر آینده علم داده، پروژه دونو که یک محیط همواره در حال رشد برای «دانش باز» (open science) است، مجموعه داده‌های قابل استفاده برای پژوهش‌های دانشگاهی را در دسترس کلیه پژوهشگران قرار می‌دهد. «موسسه ملی سلامت آمریکا» (US National Institute of Health) نیز برنامه‌ای را به‌منظور ارتقا تکرارپذیری و شفافیت داده‌های پژوهشی در حال اجرا دارد. بدین ترتیب، آینده علم داده نه تنها مرزهای نظریات آمار را در هم می‌شکند، بلکه انقلابی در پارادایم‌های پژوهشی دانشگاهی برپا خواهد کرد. دونو از این جریان‌ها چنین نتیجه می‌گیرد: «دامنه و تاثیر علم داده با فراهم شدن داده‌های علمی و داده‌هایی درباره علم، به شکل فوق‌العاده‌ای در دهه‌های پیش‌رو گسترش خواهد یافت».

منبع: Faradars