Кластерный анализ все чаще находит применение в маркетинговых исследованиях. Им пользуются и университетские специалисты, и практикующие маркетологи, решая, в первую очередь, проблему группировки. Речь может идти о продуктах, клиентах, сотрудниках – при грамотном применении кластерный анализ может работать с весьма широким спектром объектов.
Girish Punj and David W. Stewart
Journal of Marketing Research,
Vol. XX, (May 1983), pp.134-148
Введение
Кластерный анализ все чаще находит применение в маркетинговых исследованиях. Кластерным анализом пользуются и университетские специалисты, и практикующие маркетологи, решая, в первую очередь, проблему группировки. Речь может идти о продуктах, клиентах, сотрудниках – при грамотном применении кластерный анализ может работать с весьма широким спектром объектов. Однако, несмотря на высокую популярность этого аппарата, зачастую исследователь не знаком с его спецификой и особенностями применения. Это, в свою очередь, влечет разочарование в аналитических возможностях метода и необоснованный скептицизм.
Как правило, при применении кластерного анализа аналитик сталкивается с двумя группами задач:
1. На основе теоретических предпосылок выбрать адекватный алгоритм
2. Грамотно провести анализ и проинтерпретировать результаты
Предметом настоящей работы является пункт 2. По поводу пункта1. Рекомендуем обратиться к классической работе Hartigan, 1975.
Кластерный анализ используется в двух основных направлениях: классификация и анализ взаимосвязей, причем подавляющее большинство исследователей использует его именно в первом направлении. Следует также заметить, что в отличие от других методов классификации, таких, как, к примеру, дискриминантный анализ,кластерный анализ не требует априорных предположений, накладываемых на выборку. По сути, метод представляет собой формализацию здравого смысла.
Кластерный анализ в маркетинговых исследованиях
Сегментация
Кластерный анализ применяется для решения широкого спектра задач, но чаще всего речь идет именно о задаче сегментация. Все исследования, посвященные проблеме сегментации, безотносительно того, какой используется метод, имеют целью идентифицировать устойчивые группы (люди, рынки, организации), каждая из которых объединяет в себя объекты с похожими характеристиками. Реализуя эту процедуру, исследователи, как правило, допускают ошибку следующего рода: характеристики, на основе которых проводится кластеризация, выбираются по принципу «доступней, проще, дешевле». Такой подход ставит под сомнение целесообразность всего дальнейшего анализа, поскольку включение даже одной-двух незначимых характеристик может привести к неадекватному разбиению на кластеры.
Анализ поведения потребителя
Вторым, но не менее важны направлением использования аппарата кластерного анализа, является построение однородных групп потребителей с целью получить максимально полное представление о том, как ведет себя клиент из каждого сегмента, какие драйверы определяют его поведение. Более подробно эта проблема освещена в работах Клакстона, Фрая и Портиса (1974), Киля и Лэйтона (1981).
Позиционирование
Кластерный анализ применяется также для того, чтобы определить, в какой нише лучше позиционировать выводимый на рынок продукт. Кластерный анализ позволяет построить карту, на основе которой можно будет определить уровень конкуренции в различных сегментах и характеристики, которыми должен обладать товар для того, чтобы попасть в целевой сегмент. Такая карта позволяет, к примеру, выявить новые рынки, для которых можно разрабатывать и продвигать свои решения.
Выбор тестовых рынков
Многие исследователи применяют кластерный анализ для того, чтобы, определить, какие рынки (магазины, продукты...) можно объединить в одну группу по релевантным характеристикам. Дело в том, что, выдвинув предположение о существовании определенной закономерности (покупатели элитных товаров с ростом цены увеличивают спрос) необходимо предложить новый, не использованный в анализе, рынок, на котором она должна быть проверена, прежде чем применять на практике.
Сокращение количества наблюдений
Простейший пример: всем известный АВС анализ объединяет, к примеру, позиции, по одной характеристике (напр. – доход). Т.е. кластеризация проводится только в одном измерении. Результат – три группы, и … (как правило) не совсем адекватное разбиение, поскольку, помимо характеристики «доход» у позиции есть показатели «доходность», «оборачиваемость», «сезонность»… Для того, чтобы аккуратно учесть все эти показатели в процессе классификации, необходимо применять многомерные методы классификации, к коим и относится кластерный анализ.
Иногда бывает разумным перейти от 5000 клиентов к 20-30 группам, и для каждой выработать индивидуальную политику обслуживания. Отсюда можно добиться существенного выигрыша в трудоемкости за счет многократного сокращения объектов анализа.
В таблице 1 дается краткая характеристика некоторых маркетинговых исследований, использовавших аппарат кластерного анализа
Таблица 1(фрагмент)
Практика применения кластерного анализа в маркетинговых исследованиях
Статья | Цель исследования | Данные |
Sexton 1974 |
Идентификация групп семей - потребителей продукта. Разработка стратегии позиционирования бренда |
Рейтинги, которые респонденты присваивали брендам и продуктам |
Montgomery and Silk 1971 | Сегментация клиентов по сфере интересов | Переменные, характеризующие предпочтения клиентов |
Anderson, Cox, Fulcher 1976 |
Выявить факторы, определяющие выбор банка. Результаты использовать для сегментации клиентов |
Характеристики банка с точки зрения покупателей |
Bass, Pessemier, and Tigert 1969 | Сегментация СМИ | Переменные, характеризующие СМИ |
Calaytone and Sawyer 1978 | Анализ стабильности сегментов банковских клиентов | Характеристики «мелких» клиентов по нескольким банкам |
Сlaxton, Fry, and Portis 1974 | Классификация покупателей мебели и мебельной фурнитуры с целью выявления факторов, определяющих их поведение. | Поведение покупателя до покупки |
Day and Heeler 1971 | Анализ запасов и группировка позиций в однородные группы | Факторы, релевантные для анализа запасов |
Morrison and Sherman 1972 | Определить, каким образом респонденты относятся к мужским и женским ролям в рекламе | Рейтинги, которые респонденты выставили различным роликам |
Kiel and Layton 1981 | Анализ поведения покупателей новых автомобилей | Факторные нагрузки, полученные при анализе набора переменных |
Применение кластерного анализа: проблемы
В отличие от большинства других методов многомерного анализа, кластерный анализ параллельно развивался в нескольких дисциплинах (психология, биология, экономика…), поэтому у большинства методов, существует по 2 и более названий, что существенно затрудняет взаимопонимание исследователей, в особенности, если речь идет о разных отраслях знания.
Другая проблема связана с обилием вариантов при выборе метрики и метода кластеризации, а также – согласования между ними. Дело в том, что зачастую, отличия в предпосылках использования той или иной метрики весьма невелики, кроме того, не всегда выбор метрики однозначно определяет допустимый метод кластеризации. В такой ситуации для выбора конкретной комбинации «метрика-метод» следует опираться на «рекомендации», которые приходится по крупицам собирать в различных источниках, а также на «здравый смысл». Понимание последнего приходит только после того, как в деталях разберешься в тонкостях каждого конкретного метода и метрики.
Обратим внимание также на то, что само понятие «кластер» неоднозначно определено. Да и в однозначном определении нет необходимости – в каждом конкретном исследовании «кластеры» свои. Как правило, руководствуются следующей рекомендацией: внутренняя однородность и внешняя изолированность.
Методы кластеризации
Выделяют две группы методов кластерного анализа: иерархические и неиерархические.
Основными методами иерархического кластерного анализа являются метод ближнего соседа, метод полной связи, метод средней связи и метод Варда. Наиболее универсальным является последний. Существуют также центроидные методы и методы, использующие медиану, но Сниат и Сокал 1973 аккуратно показали, что их применение может привести к некоторым весьма нежелательным последствиям.
Неиерархических методов больше, хотя работают они на одних и тех же принципах. По сути, они представляют собой итеративные методы дробления исходной совокупности. В процессе деления формируются новые кластеры, и так до тех пор, пока не будет выполнено правило остановки. Между собой методы различаются выбором начальной точки, правило формирования новых кластеров и правилом остановки. Чаще всего используется алгоритм К-средних. Он подразумевает, что аналитик заранее фиксирует количество кластеров в результирующем разбиении.
Говоря о выборе конкретного метода кластеризации, еще раз подчеркнем, что этот процесс требует от аналитика хорошего знакомства с природой и предпосылками методов, в противном случае полученные результаты будут похожи на «среднюю температуру по больнице». Для того чтобы убедиться в том, что выбранный метод действительно эффективен в данной области, как правило, применяют следующую процедуру:
Рассматривают несколько априори различных между собой групп и перемешивают их представителей между собой случайным образом. Затем проводят процедуру кластеризации с целью восстановить исходное разбиение на группы. Показателем эффективности работы метода будет доля совпадений объектов в выявленных и исходных группах.
Сравнительный анализ методов кластеризации
Выбирая между иерархическими и неиерархическими методами, следует обратить внимание на следующие моменты:
Неиерархические методы обнаруживают более высокую устойчивость по отношению к выбросам, неверному выбору метрики, включению незначимых переменных в базу для кластеризации и пр. Но платой за это является слово «априори». Исследователь должен заранее фиксировать результирующее количество кластеров, правило остановки и, если на то есть основания, начальный центр кластера. Последний момент существенно отражается на эффективности работы алгоритма. Если нет оснований искусственно задать это условие, вообще говоря, рекомендуется использовать иерархические методы. Заметим также еще один момент, существенный для обеих групп алгоритмов: не всегда правильным решением является кластеризация всех наблюдений. Возможно, более аккуратным будет сначала очистить выборку от выбросов, а затем продолжить анализ. Можно также не задавать очень высоким критерий остановки (можно делать остановку, к примеру, когда кластеризовано более 90% наблюдений).
Рекомендации по применению кластерного анализа
Из рассуждений, приведенных выше видно, что от аналитика в процессе применения кластерного анализа ожидается решение ряда задач. Их можно сгруппировать следующим образом:
1. Изменение исходных данных
- Выбор метрики
- Выбор метода стандартизации
- Как работать с зависимыми выборками
2. Принятие решений
- Сколько кластеров необходимо сформировать
- Какой метод кластеризации следует использовать
- Следует ли использовать все наблюдения, или
необходимо исключить некоторые подвыборки
3. Анализ полученных результатов
- Насколько полученное разбиение отличается от случайного
- Является ли оно надежным и стабильным на подвыборках.
- Какова взаимосвязь между результатами кластеризации и переменными, не участвовавшими в процессе кластеризации
- Можно ли проинтерпретировать полученные результаты
4. По какому набору переменных проводить кластеризацию наиболее эффективно
Обратим внимание на то, что, в общем случае, все эти этапы взаимосвязаны, и решения, принятые на каждом из них взаимообуславливают друг друга. Теперь остановимся подробнее на первых трех проблемах.
Изменение исходных данных
Некоторые авторы приходят к выводу, что выбор метрики и процедуры стандартизации не является ключевым моментом в кластерном анализе. Такое утверждение имеет право на жизнь, однако, с рядом оговорок. Во-первых, оно касается только более грубых - неиерархических - методов. Во-вторых, в любом случае необходимо выбирать метрику таким образом, чтобы она не противоречила идее выбранного метода объединения кластеров. Особое внимание следует уделить выбору метрики в случае, если переменные являются зависимыми. Адекватная метрика в принципе может быть решением данной проблемы.
Принятие решений
В отличие от предыдущего вопроса, здесь все авторы едины во мнении - выбор метода кластеризации является критичным для успешной кластеризации. Во многом, выбор метода определяется спецификой будущих кластеров (подозреваем ли вытянутую, или шарообразную форму, будут ли они похожих размеров, или существенно различные…) тем не менее, можно дать несколько общих рекомендаций.
Мы уже обращали внимание на то, что неиерархические методы эффективны в случае, если имеется априорная информация о количестве и центрах кластеров. Ее, в свою очередь, можно заполучить, применяя иерархические процедуры (например, метод Варда). Иерархический кластерный анализ позволит также идентифицировать и исключить из рассмотрения выбросы, с целью повысить качество материала, на основе которого сработает неиерархический метод. Эта идея лежит в основе так называемого двухшагового метода кластеризации.
Анализ полученных результатов
Даже после того, как после качественно проведенного кластерного анализа правило остановки рекомендовало нам прекратить дальнейшие вычисления, нет оснований считать, что полученное решение является адекватным. Результаты процедура кластерного анализа обязательно требуют проверки с помощью формальных и неформальных тестов.
Говоря о формальных статистиках, следует рекомендовать рассчитать значение статистики "С", предложенной Арнольдом в 1979 г. В этой же работе есть таблица распределения "С" для разного количества наблюдений и количества переменных. Однако не следует переоценивать значение формально рассчитанных показателей: немало авторов приводит примеры, когда "хорошие" с этой точки зрения результаты оказывались малосодержательными.
Неформальная проверка результатов кластерного анализа включает в себя такие процедуры как анализ результатов, полученных на подвыборках, кросс проверка на "внешних" данных, изменение порядка наблюдений, удаление небольшого количества наблюдений и повторение кластерного анализа на коротких выборках и т.д.