Data Science
Наука про дані (Data Science; іноді даталогія — Datalogy) — розділ інформатики, що вивчає проблеми аналізу, обробки та подання даних у цифровій формі. Об'єднує методи обробки даних в умовах великих обсягів і високого рівня паралелізму, статистичні методи, методи інтелектуального аналізу даних і застосування штучного інтелекту для роботи з даними, а також методи проектування та розробки баз даних.
Однак деякі експерти вважають, що це визначення є помилковим, тому що data science — не "наука про дані", як написано в російськомовній Вікіпедії. Дані є предметом цієї науки, тому називати data science синонімом запропонованої Петером Науром науки datalogy помилково. Термін data science на російську мову, можливо, варто перекладати як "наука роботи з даними" або "наукові методи роботи з даними". Отже, завдання, вирішуване тими, хто займається data science, полягає у добуванні знань з використанням методів, об'єднаних під загальною назвою data mining, в об'єднанні статистики та інших методів аналізу даних з метою розуміння того, що містять дані.
Наука про дані — це міждисциплінарна область, в якій використовуються наукові методи, процеси, алгоритми та системи для отримання знань та розуміння (insights) з даних, представлених у різних формах, як структурованих, так і неструктурованих; вона значною мірою синонімічна з глибинним аналізом даних (data mining) та великими даними. Наука про дані — це "концепція об'єднання статистики, аналізу даних, машинного навчання та пов'язаних з ними методів" для "розуміння та аналізу реальних явищ". Вона використовує методи та теорії, взяті з багатьох областей у контексті математики, статистики, інформатики та комп'ютерних наук. Володар премії Т'юрінга Джим Грей представляв науку про дані як "четверту парадигму" науки і стверджував, що "все в науці змінюється через вплив інформаційних технологій" і збільшення кількості даних (data deluge).
Четверта парадигма науки
Володар премії Тьюринга Джим Грей та астроном та футуролог Алекс Шалаї розділили наукове минуле людства на три періоди використання даних та доповнили його сучасним четвертим.
- Античні часи — опис феноменів, що спостерігаються, і логічні висновки, зроблені на основі спостережень.
- XVII століття — створення теорій з використанням для доказу їхньої істинності аналітичних моделей.
- XX століття — використання методів чисельного моделювання, що стало можливим завдяки появі комп'ютерів.
- XXI століття — використання методів, заснованих на аналізі даних; застосування для роботи з величезними обсягами даних статистичних та інших методів отримання корисної інформації.
Очевидно, data science – наука XXI століття; вона розглядається як академічна дисципліна, а з початку 2010-х років, багато в чому завдяки популяризації концепції "великих даних", — і як практична міжгалузева сфера діяльності, при цьому професія фахівця з дослідження даних (data scientist — "вченого за даними") початку 2010-х років вважається однією з найпривабливіших, високооплачуваних та перспективних.
В даний час термін data science часто використовується взаємозамінно з більш ранніми концепціями, такими як business analytics (бізнес-аналітика), business intelligence (інтелектуальний аналіз даних), predictive modeling (прогнозне моделювання) та statistics (статистика). У багатьох випадках більш ранні підходи та рішення тепер просто перейменовуються в "науку про дані", щоб стати привабливішими. Це може призвести до того, що термін стане "розмитим", як це вже сталося з терміном "великі дані".
Основні відмінності data science від business intelligence (BI)
Повнота даних, що використовуються:
BI - структуровані цифрові дані, що дають дуже обмежену картину навколишнього світу
data science - будь-які дані, достатні для відображення картини навколишнього світу з будь-якою необхідною повнотою.
Основні цілі аналізу:
BI - аналіз попередніх даних, щоб виявити тенденції бізнесу, оцінити вплив певних подій на найближче майбутнє.
data science - прогнозування майбутніх результатів з метою прийняття обґрунтованих рішень, отримання відповідей на питання "що" та "як".
Кінцевий результат:
BI-інформація
data science - знання
У обох випадках вирішальну роль грають фахівці. Головна різниця між двома спеціальностями полягає в тому, що експерт у галузі BI здатний надати об'єктивну картину від минулого до поточного моменту, тоді як data scientist повинен розуміти, як і що потрібно робити.
Дані, інформація, знання
Оскільки ми зазначили вище, що кінцевий результат інтелектуального аналізу даних (BI) – інформація, а результат аналізу data science – знання, слід згадати концепцію DIKW.
DIKW (англ. data, information, knowledge, wisdom – дані, інформація, знання, мудрість) – інформаційна ієрархія, в якій кожен наступний рівень додає певні властивості до попереднього.
- На підставі знаходиться рівень даних.
- Інформація додає контекст.
- Знання додає "як" (механізм використання)
Мудрість додає "коли" (умови використання)
Інформація — це дані, які є суттєвими для спостерігача через їх значущість для спостерігача. Знання складається з інформації, підкріпленої наміром чи напрямом. Можна сказати, що знання — те, що перетворює інформацію на інструкції (рецепти). Критики концепції DIKW вважають, що таке уявлення про знання може бути корисним (і дієвим) у контексті бізнесу, але мало узгоджується з тим, що вважалося знанням протягом тисяч років. Відповідно до DIKW знання є результатом фільтрації інформації, тоді як "традиційне" знання та пов'язані з ним процеси, не кажучи вже про мудрість, є результатом більш складних процесів: соціальних, культурних тощо. Тобто DIKW дає спотворене та спрощене уявлення про знання та мудрість. Однак "відмінні характеристики знання все ще є предметом невизначеності у філософії", а відповідь на питання "У чому ви бачите різницю між даними та інформацією?" можуть дати дуже небагато фахівців навіть зі сфери IT. Тому введення співвідношення дані-інформація-знання, нехай і у спрощеному вигляді, безперечно корисне.
Життєвий цикл Data Science
- Capture (захоплення) — збір даних, введення даних, прийом сигналу, вилучення даних).
- Maintain (підтримка) — зберігання даних, очищення даних, підготовка даних, обробка даних, архітектура даних.
- Process (обробка) — інтелектуальний аналіз даних, кластеризація / класифікація, моделювання даних, узагальнення даних).
- Analyze (аналіз) — пошуковий/підтверджуючий, прогнозний аналіз, регресія, аналіз тексту, якісний аналіз).
- Communicate (інформування про результати) — передача даних, візуалізація даних, бізнес-аналітика, прийняття рішень).
Відповідно, фахівець з вивчення даних (Data Scientist) повинен уміти не лише видобувати та аналізувати, а й обробляти великі масиви даних, причому з використанням безлічі інструментів. Однозначного опису цієї професії поки немає, та й навряд чи воно з'явиться в найближчому майбутньому — дуже залежить від сфери застосування навичок роботи з даними.
Основні завдання Data Scientist
Фахівець з вивчення даних має вміти:
- отримувати необхідну інформацію з різноманітних джерел;
- використовувати інформаційні потоки як реального часу;
- встановлювати приховані закономірності у масивах даних;
- статистично аналізувати їх для ухвалення грамотних бізнес-рішень.
Data scientist має бути цікавим і орієнтованим на результат, добре знати особливості галузі, в якій працює, мати гарні комунікаційні навички, які дозволять йому пояснювати отримані технічні результати своїм "нетехнічним" колегам. Він повинен мати значний досвід у галузі статистики та лінійної алгебри, а також знаннями в галузі програмування, сховищ даних, інтелектуального аналізу та моделювання для побудови та аналізу алгоритмів.