Business Analytics и Data Science
(после прочтения статьи рекомендуем ознакомиться с материалами Системы непрерывного развития специалиста в области прогнозирования и планирования Predictica)
Наблюдая различные варианты использования терминов Data Science и Business Analytics, нам захотелось внести ясность в различия между этими терминами. Ну, по крайней мере, так, как это интерпретируем мы. Соотнеся наш опыт с мнением зарубежных коллег мы написали эту статью.
В ней мы хотим поговорить о двух основных технологиях, связанных с данными, а именно: бизнес-аналитика (Business Analytics) и Data Science.
Оба этих понятия включают в себя сбор данных, моделирование и анализ информации. Разница между ними заключается в том, что бизнес-аналитика специфична для связанных с бизнесом проблем, таких как стоимость, прибыль, эффективность использования оборудования и т. д., а Data Science отвечает на такие вопросы, каким образом различные факторы, например, социальные, географические, сезонные и т.п влияют на бизнес в целом. Data Science увязывает данные воедино с построением алгоритма и технологией, с тем чтобы давать ответы на поставленные вопросы.
На первый взгляд, оба термина довольно тесно связаны друг с другом и используются взаимозаменяемо, но на самом деле они отличаются друг от друга.
Бизнес-аналитика, как широко используемая прикладная область, существовала довольно долго, более трех-четырех десятилетий, с конца 20-го века. Data Science как отдельная дисциплина получила оформление в качестве отдельной дисциплины где-то в 2010-х годах.
Прежде чем описывать различия, мы предлагаем рассмотреть основные понятия, общие для каждой из этих сущностей.
Итак:
Данные (если использовать это слово как термин) существуют в необработанном виде, а обработанные данные называются информацией. Тут необходимо еще упомянуть «Управление жизненным циклом данных (DLCM)» и классификацию данных.
Что такое DLCM или управление жизненным циклом данных?
- Данные, которые инициируются или обрабатываются, затем создаются, классифицируются, сохраняются, к ним обращаются, обрабатывают, снова сохраняют, используют и, наконец, уничтожают, называют управлением жизненным циклом данных.
Обычно данные в цифровом мире классифицируются как
- Структурированные
Данные видны и понятны
Для интерпретации данных требуется очень ограниченная обработка
- Слабоструктурированные
Плохо структурированы, но не случайным образом.
Имеют некоторую корреляцию
Для понимания данных требуется небольшой анализ
- Неструктурированные
Случайные данные
Требуют много ресурсов и процессов для их преобразования в значимые данные
Теперь, когда основные термины определены, попробуем разобраться что есть что.
Что такое Data Science?
Data Science - это междисциплинарная область, которая работает над декодированием и, если этот термин уместен, демистификацией больших наборов данных, именно больших данных (Big Data). В Data Science используется комбинация математики, статистики, информатики, машинного обучения, анализа данных и других смежных областей исследования.
Data Science как таковая состоит из основных 5 этапов (общий взгляд):
- Сбор данных
- Сохранение данных
- Обработка данных
- Анализ данных
- Отчётность и презентация результатов
А что есть бизнес-аналитика?
Business Analytics - это спектр технологий и практик, предназначенных для сбора, сопоставления, обработки, анализа и изучения данных, относящихся к конкретному бизнесу. Также используется для мониторинга эффективности бизнеса и улучшения бизнес-планирования.
Роль бизнес-аналитика:
Бизнес-аналитик (Business Analyst) использует различные формы количественного анализа, статистического, прогнозного, аналитического моделирования и итерационных методов для интерпретации бизнес-данных. Таким образом, с помощью полученных результатов компания получает информацию о своей прошлой деятельности, что помогает разрабатывать планы развития бизнеса. Кроме того, бизнес-аналитика также открывает возможности для решения сложных проблем в бизнес-процессах и, тем самым повышает доходность бизнеса через повышение производительности и снижение потерь.
Выделяются четыре вида бизнес-анализа:
1) Описательный анализ - эта форма аналитики отвечает на вопрос «Что случилось?» и является основной формой аналитики, которая не требует высококлассных инструментов, и может быть сделана вручную с минимальным набором инструментов, например, на Excel.
2) Диагностика - здесь основное внимание уделяется вопросу «Почему это произошло?». Этот ответ ищется с помощью аналитических инструментов, таких как детализация, анализ данных и корреляции.
3) Предиктивная аналитика. На этом этапе в аналитике появляется будущее, поскольку этот вид анализа связан с поиском ответа на вопрос «Что будет?» Тут используются статистические и математические инструменты.
Предиктивная аналитика может быть дополнительно разделена на следующие подкатегории:
- Прогнозное моделирование (Что дальше?)
- Анализ первопричин (RCA) (Почему так случилось?)
- Идентификация и корреляция данных - Data Mining
- Прогноз (Что будет с этой тенденцией, если она продолжится?)
- Метод Монте-Карло (Моделирование, определяющее, как это будет происходить?)
4) Предписывающий анализ (prescriptive analysis) – это момент действия с точки зрения бизнеса. Именно тут появляется вопрос: «Что должен делать бизнес?», и первичные рекомендации в стиле «Делать надо так». Для этой цели используются инструменты оптимизации и моделирования.
Как соотносятся Data Science и Business Analytics?
Data Science охватывает множество междисциплинарных областей, таких как компьютерные науки, математика, статистика, анализ данных и программирование, искусственный интеллект, машинное обучение, нейронные сети и deep learning для решения сложных задач, состоящих из больших наборов данных.
А учитывая, что Business Analytics используется для решения конкретных бизнес-задач с использованием оптимизации, моделирования, статистики и математики, то, как часть общего процесса Бизнес-аналитику в определенной мере можно назвать частью Data Science.
Таблица основных отличий Data Science от Business Analytics?
|
Бизнес-аналитика |
Data Science |
Навыки |
От специалиста требуются: знание математики, навыки моделирования, оптимизации и статистики |
Требует междисциплинарных навыков в области компьютерных наук, программирования, статистики, анализа данных, математики, искусственного интеллекта, ML, DL и нейронных сетей |
Использование данных |
Использование бизнес-данных |
Использование больших наборов данных, называемых Big data |
Тип используемых данных |
Используются только структурированные данные |
Используются все 3 типа данных |
Для чего применяется |
Используется для получения бизнес-аналитики по бизнес-операциям, получению доходов, прогнозированию продаж, повышению производительности, снижению издержек и брака. То есть, используется для решения конкретных бизнес-задач |
Используется для получения ответов о поведении пользователя и решения очень сложных проблем. То есть, используется для определения трендов и создания поведенческих моделей. |
Этапы или типы |
Четыре типа бизнес-аналитики - описательная, диагностическая, прогнозная и предписывающая |
Пять этапов - сбор, сохранение, обработка, анализ и отчетность |
Наиболее часто применяемые отрасли |
Применяется в промышленности, маркетинге, технологиях, ритейле и финансах |
Применяется в образовании, технологиях, финансах и электронной коммерции |
Критически важные решения |
Используется для принятия критических решений |
Результаты Data Science не используются для принятия критических решений |
Основные инструменты |
Статистический анализ |
Программирование |
Использование статистики |
Статистическое исследование данных – это основа |
Данные изучаются в том числе с использованием статистики |
Инструменты |
MS Excel, базы данных и специализированные пакеты статистического ПО |
Языки программирования. Python, AI, алгоритмы, ML, R программирование, Hadoop, алгоритмы DL, нейронные сети и т.п. |
Тип работы |
Обычная работа, требующая много итераций |
Работа включает в себя много исследований и много работы по извлечению данных |
Функциональная область |
Требуется работа, специфичная для бизнеса |
Требуется межфункциональная и междисциплинарная работа |
Комментарий Центра Статистических Технологий:
Для повышения профессионального уровня рекомендуем Систему Непрерывного Развития специалиста в области прогнозирования и планирования Predictica https://predictica.ru/