Разведывательный анализ данных (Exploratory Data Analysis, EDA)
ТГ-канал Бенчмарка | Байки промышленного аналитика
Max-канал Бенчмарка | Байки промышленного аналитика
Поиграем в шпионов? (На самом деле нет) Мы в свое время говорили про инструменты принятия решений в условиях неопределённости, и там был этот термин.
Но несмотря на интригующее название, EDA – разведывательный анализ данных - это годов эдак с 2010-х (с появления в массовом информационном поле термина Data Science) – инструмент очистки данных. Фактически, первый этап любого Data Science проекта. Да и другого проекта с большим количеством данных.
Как все появилось?
Да-да, так и тогда и начиналась Big Data.
Ну, а мы будем продолжать. Не отключайтесь…
#статистика #бигдата #датасайнс #методы
Max-канал Бенчмарка | Байки промышленного аналитика
Поиграем в шпионов? (На самом деле нет) Мы в свое время говорили про инструменты принятия решений в условиях неопределённости, и там был этот термин.
Но несмотря на интригующее название, EDA – разведывательный анализ данных - это годов эдак с 2010-х (с появления в массовом информационном поле термина Data Science) – инструмент очистки данных. Фактически, первый этап любого Data Science проекта. Да и другого проекта с большим количеством данных.
Как все появилось?
Термин Exploratory Data Analysis был введен американским статистиком Джоном Тьюки (John Tukey) в 1960-х — 1970-х годах. Его книга, вышедшая в 1977 г. так и называлась - Exploratory Data AnalysisОн утверждал, что жесткие методы проверки гипотез не позволяют «услышать» то, что говорит сам набор данных. Тьюки считал, что аналитик должен сначала позволить данным «рассказать свою историю» без строгих априорных предположений о распределении и исповедовал максимальное использование визуализации вместо сухих таблиц.
«График — это лучшая статистика, которую вы можете иметь». (с)Базово EDA состоит из трех компонентов:
Этап 1: Невариативный анализ (Univariate Analysis) Анализ одной переменной.По сути Разведывательный анализ – это адаптация конфирматорная (подтверждающей) статистики (confirmatory data analysis) к работе с большим количеством данных.
Для числовых данных: Гистограммы (Histograms, Ящики с усами (Boxplots, Сводные статистики
Для категориальных данных: Bar charts, Pie charts (редко): только для демонстрации долей, если категорий немного.
Этап 2: Бивариативный и мультивариативный анализ. Изучение взаимосвязей между переменными.
• Диаграммы рассеяния (Scatter plots): Базовый способ увидеть корреляцию между двумя числовыми переменными. Если переменных много, используют матрицы диаграмм рассеяния (pairplots).
• Тепловые карты корреляций (Correlation Heatmaps): Визуализация матрицы коэффициентов корреляции Пирсона (для линейных связей) или ранговых корреляций. Позволяет быстро выявить мультиколлинеарность (сильные связи между признаками-предикторами).
• Violin plots: Комбинация boxplot и ядерной оценки плотности. Показывает не только квартили, но и форму распределения данных в разрезе категорий (например, «Распределение зарплат по отделам компании»).
• Faceting/Grids: Разбиение графиков на панели по категориальному признаку (например, построить scatter plot цена vs площадь отдельно для каждого типа недвижимости).
Этап 3: Обработка данных в процессе EDA
Обработка пропусков, трансформация признаков, обнаружение выбросов.
Да-да, так и тогда и начиналась Big Data.
Ну, а мы будем продолжать. Не отключайтесь…
#статистика #бигдата #датасайнс #методы