Модель бинарной логистической регрессии (logit)
Бинарная логистическая регрессия используется в случае, когда прогнозируемый показатель представлен в бинарной шкале, т.е. может принимает только два состояния. Например, клиент купил / не купил, ушел / остался, продукция годная / бракованная и т.п. В отличии от линейного регрессионного анализа, применяемого для количественного прогнозируемого показателя, бинарная логистическая регрессия прогнозирует вероятность того, что случатся интересующее исследователя событие (клиент купит, останется, продукция годная и т.п.). Общим для линейной регрессии и logit модели является возможность не только прогнозирования по построенной модели, но проведение анализа, т.е. выявление того, какие факторы и как влияют на прогнозируемый показатель.
Примеры ситуаций, когда можно использовать бинарную логистическую регрессию:
- Производство: моделирование и прогнозирование качества выпускаемой продукции (брак / годная) в зависимости от параметров производственного процесса.
- Банки: платежеспособность потенциального клиента (да / нет) в зависимости от различных факторов, таких как пол, возраст, наличие других кредитов, уровень дохода, семейное положение и т.п.
- Продажи и маркетинг: оценка вероятности совершить покупку в магазине в соответствии с характеристиками покупателей.
- Медицина: прогноз исхода заболевания (выжил / умер) в зависимости от схем лечения и показателей пациента.
Для многих статистических пакетов, в которых реализована logit модель, важно, чтобы бинарный прогнозируемый показатель был закодирован 0 и 1, причем единицей необходимо обозначить именно то состояние, вероятность которого будет прогнозироваться по модели.
Общий вид модели бинарной логистической регрессии:
В левой части уравнения – вероятность того, что прогнозируемой показатель примет значение, закодированное единицей. В правой части уравнения – факторы, – константа модели и коэффициенты соответственно.
Уравнение можно переписать: . Левая часть уравнения называется логитом.
При анализе такой модели важно помнить, что коэффициенты при факторах имеют следующий практический смысл: при увеличении фактора на 1 единицу шанс того, что прогнозируемый показатель пример значение, закодированное единицей, изменится на коэффициент при данном факторе.