Обзор статистики 14: Логистическая регрессия

В этом обзоре представлена ​​логистическая регрессия, которая представляет собой метод моделирования зависимости переменной двоичного ответа от одной или нескольких независимых переменных. Рассмотрены непрерывные и категориальные независимые переменные.

Вступление

Логистическая регрессия обеспечивает метод моделирования переменной бинарного ответа, которая принимает значения 1 и 0. Например, мы можем захотеть исследовать, как смерть (1) или выживаемость (0) пациентов может быть предсказана по уровню одного или нескольких метаболических маркеры. В качестве наглядного примера рассмотрим выборку из 2000 пациентов, у которых были измерены уровни метаболического маркера. В таблице 1 показаны данные, сгруппированные по категориям в соответствии с уровнем метаболических маркеров, и дана доля смертей в каждой категории. Доли смертей представляют собой оценки вероятностей смерти в каждой категории. На рисунке 1 показан график этих пропорций. Это говорит о том, что вероятность смерти увеличивается с уровнем метаболического маркера. Однако,можно видеть, что взаимосвязь нелинейна и вероятность смерти очень мало изменяется при высоких или низких крайних значениях уровня маркеров. Этот образец типичен, поскольку пропорции не могут выходить за пределы диапазона от 0 до 1. Отношения можно описать как следование S-образной кривой.

Доля смертей нанесена на график относительно средних значений группы метаболических маркеров для данных, представленных в таблице 1.

Логистическая регрессия с одной количественной независимой переменной

Функция логистики или логита используется для преобразования S-образной кривой в приблизительно прямую линию и для изменения диапазона пропорции от 0–1 до -∞ и до + ∞.

Логит-функция определяется как натуральный логарифм (ln) шансов [1] на смерть. Это,

Где p - вероятность смерти.

На рис. 2 показаны пропорции с преобразованием логита из рис. 1. Теперь точки образуют приблизительно прямую линию. Соответственно, связь между вероятностью смерти и уровнем маркера x может быть смоделирована следующим образом:

Logit (p) нанесен на средние точки группы метаболических маркеров для данных, представленных в таблице 1.

Хотя эта модель похожа на простую модель линейной регрессии, основное распределение является биномиальным, и параметры a и b не могут быть оценены точно так же, как для простой линейной регрессии. Вместо этого параметры обычно оцениваются с использованием метода максимального правдоподобия, который обсуждается ниже.

Биномиальное распределение

Когда переменная ответа является бинарной (например, смерть или выживание), то распределение вероятностей количества смертей в выборке определенного размера для данных значений независимых переменных обычно считается биномиальным. Вероятность того, что количество смертей в выборке размера n в точности равно значению r, определяется выражением n C r p r (1 - p) n - r, где n C r = n! / (R! (N - r)!) - количество способов, которыми можно выбрать r индивидуумов из n, а p - вероятность индивидуальной смерти. (Вероятность выживания 1 - р.)

Например, используя первую строку данных в таблице 1, вероятность того, что семь смертей произошли из 182 пациентов, определяется как 182 C 7 p 7 (1 - p) 175. Если принять вероятность смерти равной 0,04, то вероятность того, что произошло семь смертей, составит 182 C 7 × 0,04 7 × 0,86 175 = 0,152. Эта вероятность, рассчитанная в предположении биномиального распределения с параметром p = 0,04, называется правдоподобием.

Оценка максимального правдоподобия

Оценка максимального правдоподобия включает в себя определение значения (значений) параметра (ов), которые приводят к максимальному правдоподобию. Например, мы снова возьмем семь смертей из 182 пациентов и воспользуемся оценкой максимального правдоподобия для оценки вероятности смерти, стр. На рисунке 3 показана вероятность, рассчитанная для диапазона значений p. Из графика видно, что значение p, дающее максимальное правдоподобие, близко к 0,04. Это значение является оценкой максимального правдоподобия (MLE) p. Математически можно показать, что MLE в этом случае составляет 7/182.

Вероятность для диапазона значений p. MLE, оценка максимального правдоподобия.

В более сложных ситуациях требуются итерационные методы для определения максимального правдоподобия и соответствующих значений параметров, а также требуется компьютерный пакет.

Модель logit (p) = a + bx эквивалентна следующему:

Поскольку объясняющая переменная x увеличивается на одну единицу от x до x + 1, вероятность смерти изменяется с eae bx на eaeb (x + 1) = eae bx eb. Следовательно, отношение шансов (OR) равно eae bx eb / eae bx = eb. Отношение шансов eb имеет более простую интерпретацию в случае категориальной объясняющей переменной с двумя категориями; в данном случае это просто отношение шансов одной категории по сравнению с другой.

Оценки параметров a и b обычно получают с использованием статистического пакета, а выходные данные для данных, обобщенные в таблице 1, приведены в таблице 2. Из выходных данных b = 1,690 и eb OR = 5,4. Это указывает на то, что, например, вероятность смерти пациента с уровнем маркера 3,0 в 5,4 раза выше, чем у пациента с уровнем маркера 2,0.

Прогнозируемые вероятности

Модель может использоваться для расчета прогнозируемой вероятности смерти (p) для данного значения метаболического маркера. Например, пациенты с уровнем метаболических маркеров 2,0 и 3,0 имеют следующие прогнозируемые вероятности смерти:

Соответствующие шансы смерти для этих пациентов составляют 0,300 / (1 - 0,300) = 0,428 и 0,700 / (1 - 0,700) = 2,320, что дает отношение шансов 2,320 / 0,428 = 5,421, как указано выше.

Уровень метаболических маркеров, при котором прогнозируемая вероятность равна 0,5, то есть при котором два возможных исхода равновероятны, называется средним эффективным уровнем (EL 50 ). Решение уравнения

дает x = EL 50 = a / b

Для данных примера EL 50 = 4,229 / 1,690 = 2,50, что указывает на то, что на этом уровне маркера вероятность смерти или выживания одинакова.

Оценка подобранной модели

После оценки коэффициентов необходимо выполнить несколько шагов для оценки уместности, адекватности и полезности модели. Во-первых, важность каждой из независимых переменных оценивается путем проведения статистических тестов значимости коэффициентов. Затем проверяется соответствие модели в целом. Кроме того, оценивается способность модели различать две группы, определяемые переменной ответа. Наконец, если возможно, модель проверяется путем проверки согласия и различения на другом наборе данных, отличном от того, который использовался для разработки модели.

Тесты и доверительные интервалы для параметров

Статистика Вальда

Статистика Вальда χ 2 используется для проверки значимости отдельных коэффициентов в модели и рассчитывается следующим образом:

Каждая статистика Вальда сравнивается с распределением χ 2 с 1 степенью свободы. Статистику Вальда легко вычислить, но ее надежность сомнительна, особенно для небольших выборок. Для данных, которые дают большие оценки коэффициента, стандартная ошибка часто завышается, что приводит к более низкой статистике Вальда, и поэтому объясняющая переменная может ошибочно считаться неважной в модели. Тесты отношения правдоподобия (см. Ниже) обычно считаются лучшими.

Тесты Вальда для данных примера приведены в таблице 2. Тест на коэффициент метаболического маркера показывает, что метаболический маркер вносит значительный вклад в прогнозирование смерти.

Константа не имеет простой практической интерпретации, но обычно сохраняется в модели независимо от ее значения.

Тест отношения правдоподобия

Тест отношения правдоподобия для конкретного параметра сравнивает вероятность получения данных, когда параметр равен нулю (L 0 ), с вероятностью (L 1 ) получения данных, оцененных в MLE параметра. Статистика теста рассчитывается следующим образом:

Его сравнивают с распределением χ 2 с 1 степенью свободы. Таблица 3 показывает тест отношения правдоподобия для примеров данных, полученных из статистического пакета, и снова указывает на то, что метаболический маркер вносит значительный вклад в прогнозирование смерти.

Подгонка модели

Степень соответствия или калибровки модели определяет, насколько хорошо модель описывает переменную отклика. Оценка согласия включает исследование того, насколько близки значения, предсказанные моделью, к наблюдаемым значениям.

Когда есть только одна объясняющая переменная, как в случае данных примера, можно проверить степень соответствия модели, сгруппировав объясняющую переменную по категориям и сравнив наблюдаемые и ожидаемые подсчеты в категориях. Например, для каждого из 182 пациентов с уровнем метаболического маркера менее единицы прогнозируемая вероятность смерти была рассчитана по формуле

где x - уровень метаболического маркера для отдельного пациента. Это дает 182 предсказанных вероятности, из которых было вычислено среднее арифметическое, что дает значение 0,04. Это было повторено для всех категорий уровней метаболических маркеров. В таблице 4 показаны прогнозируемые вероятности смерти в каждой категории, а также ожидаемое количество смертей, рассчитанное как прогнозируемая вероятность, умноженная на количество пациентов в категории. Наблюдаемое и ожидаемое количество смертей можно сравнить с помощью критерия согласия χ 2, при условии, что ожидаемое количество в любой категории не меньше 5. Нулевая гипотеза для теста состоит в том, что количество смертей соответствует модели логистической регрессии. . Статистика критерия χ 2 определяется выражением

Статистика теста сравнивается с распределением χ 2, где степени свободы равны количеству категорий за вычетом количества параметров в модели логистической регрессии. Для данных примера статистика χ 2 составляет 2,68 с 9–2 = 7 степенями свободы, что дает P= 0,91, что свидетельствует о том, что количество смертей существенно не отличается от предсказанного моделью.

Тест Хосмера – Лемешоу

Тест Хосмера – Лемешоу - это обычно используемый тест для оценки согласия модели и допускающий любое количество независимых переменных, которые могут быть непрерывными или категориальными. Этот тест аналогичен критерию согласия с критерием χ 2 и имеет то преимущество, что наблюдения разбиваются на группы примерно равного размера, и, следовательно, меньше вероятность того, что будут группы с очень низкими наблюдаемыми и ожидаемыми частотами. Наблюдения сгруппированы в децили на основе предсказанных вероятностей. Статистика теста рассчитывается, как указано выше, с использованием наблюдаемых и ожидаемых подсчетов как для смертей, так и для выживших, и имеет приблизительное распределение χ 2 с 8 (= 10–2) степенями свободы. Результаты калибровки модели из данных примера показаны в таблице 5. Тест Хосмера – Лемешоу ( P= 0,576) указывает на то, что количество смертей существенно не отличается от предсказанного моделью и что в целом модель хорошо подходит.

Дальнейшие проверки могут быть выполнены на соответствие индивидуальным наблюдениям путем проверки различных типов остатков (различий между наблюдаемыми и установленными значениями). Они могут определить, являются ли какие-либо наблюдения выбросами или имеют сильное влияние на подобранную модель. Для получения дополнительной информации см., Например, Хосмер и Лемешоу [2].

R 2 для логистической регрессии

Большинство статистических пакетов предоставляют дополнительную статистику, которая может использоваться для измерения полезности модели и аналогична коэффициенту детерминации (R 2) в линейной регрессии [3]. Cox & Snell и Nagelkerke R 2 являются двумя такими статистическими данными. Значения для данных примера равны 0,44 и 0,59 соответственно. Максимальное значение, которое достигает Cox & Snell R 2, меньше 1. Nagelkerke R 2 - это скорректированная версия Cox & Snell R 2, охватывающая весь диапазон от 0 до 1, и поэтому часто предпочтительнее. Статистика R2 не измеряет степень соответствия модели, но показывает, насколько полезны объясняющие переменные при прогнозировании переменной отклика, и их можно назвать мерами величины эффекта. Значение 0,59 указывает на то, что модель полезна для прогнозирования смерти.

Дискриминация

Различимость модели - то есть насколько хорошо модель отличает выживших пациентов от умерших - можно оценить с помощью площади под кривой рабочих характеристик приемника (AUROC) [4]. Значение AUROC - это вероятность того, что у умершего пациента прогнозируемая вероятность выше, чем у выжившего пациента. Использование статистического пакета для расчета AUROC для данных примера дало значение 0,90 (95% доверительный интервал от 0,89 до 0,91), что указывает на то, что модель хорошо распознает.

Проверка

Когда качество соответствия и дискриминация модели проверяется с использованием данных, на которых модель была разработана, они, вероятно, будут переоценены. Если возможно, достоверность модели следует оценивать путем проведения тестов на соответствие и дискриминацию на наборе данных, отличном от исходного.

Логистическая регрессия с более чем одной независимой переменной

Мы можем захотеть исследовать, как смерть или выживание пациентов можно предсказать с помощью более чем одной объясняющей переменной. В качестве примера воспользуемся данными, полученными от пациентов, поступивших в отделение неотложной помощи. Уровни метаболитов в сыворотке были исследованы как потенциально полезные маркеры для раннего выявления пациентов с риском смерти. Двумя зарегистрированными метаболическими маркерами были лактат и мочевина. Пациенты также были разделены на две возрастные группы:

Как и обычная регрессия, логистическая регрессия может быть расширена, чтобы включить более одной объясняющей переменной, которая может быть количественной или качественной. Модель логистической регрессии может быть записана следующим образом:

где p - вероятность смерти, а x 1 , x 2 . x i - независимые переменные.

Метод включения переменных в модель может осуществляться поэтапно, двигаясь вперед или назад, проверяя значимость включения или исключения переменной на каждом этапе. Тесты основаны на изменении вероятности в результате включения или исключения переменной [2]. Обратное пошаговое исключение использовалось в логистической регрессии смертности / выживаемости по лактату, мочевине и возрастной группе. Первая подобранная модель включала все три переменные, и все тесты на удаление переменных были значимыми, как показано в таблице 6.

Поэтому все переменные были сохранены. Для этих данных прямое пошаговое включение переменных привело к одной и той же модели, хотя это не всегда может быть так из-за корреляции между независимыми переменными. Несколько моделей могут давать одинаково хорошие статистические данные для набора данных, поэтому при выборе модели важно учитывать биологические или клинические соображения, а не зависеть исключительно от статистических результатов.

Результаты статистического пакета представлены в таблице 7. Тесты Вальда также показывают, что все три независимые переменные вносят значительный вклад в модель. Это также видно по доверительным интервалам для отношений шансов, ни один из которых не включает 1 [5].

Из Таблицы 7 подобранная модель:

logit (p) = -5,716 + (0,270 × лактат) + (0,053 × мочевина) + (1,425 × возрастная группа)

Поскольку в модели существует более одной объясняющей переменной, интерпретация отношения шансов для одной переменной зависит от фиксированных значений других переменных. Интерпретация отношения шансов для возрастной группы относительно проста, потому что существует только две возрастные группы; отношение шансов 4,16 указывает на то, что для данных уровней лактата и мочевины шансы смерти для пациентов в группе ≥70 лет в 4,16 раза выше, чем в группе

Результаты теста Хосмера – Лемешоу (χ 2 = 7,325, 8 степеней свободы, P= 0,502) показывают, что качество подгонки является удовлетворительным. Однако значение R 2 по Нагелькерке составляло 0,17, что позволяет предположить, что модель не очень полезна для прогнозирования смерти. Хотя вклад трех независимых переменных в предсказание смерти статистически значим, размер эффекта невелик.

AUROC для этих данных дал значение 0,76 ((95% ДИ от 0,69 до 0,82)), указывая на то, что дискриминация модели является справедливой.

Допущения и ограничения

Логистическое преобразование биномиальных вероятностей - не единственное доступное преобразование, но его легче всего интерпретировать, а другие преобразования обычно дают аналогичные результаты.

В логистической регрессии не делается никаких предположений о распределении независимых переменных. Однако независимые переменные не должны сильно коррелировать друг с другом, потому что это может вызвать проблемы с оценкой.

Для логистической регрессии требуются большие размеры выборки, чтобы обеспечить достаточные числа в обеих категориях переменной ответа. Чем больше объясняющих переменных, тем больше требуется размер выборки. При небольших размерах выборки тест Хосмера – Лемешоу имеет низкую мощность и вряд ли обнаружит незначительные отклонения от логистической модели. Хосмер и Лемешоу рекомендуют размер выборки более 400.

Выбор модели всегда должен зависеть от биологических или клинических соображений в дополнение к статистическим результатам.

Вывод

Логистическая регрессия предоставляет полезные средства для моделирования зависимости переменной двоичного отклика от одной или нескольких независимых переменных, причем последние могут быть категориальными или непрерывными. Соответствие полученной модели можно оценить с помощью ряда методов.

Сокращения

= площадь под кривой рабочих характеристик приемника

= натуральный логарифм шансов

= оценка максимального правдоподобия

= рабочая характеристика приемника.

использованная литература

  1. 1.

Кирквуд Б.Р., Стерн JAC: Основная медицинская статистика. 2-е издание. Оксфорд, Великобритания: Blackwell Science Ltd; 2003 г.

Хосмер Д.В., Лемешоу С: Прикладная логистическая регрессия. 2-е издание. Нью-Йорк, США: Джон Уайли и сыновья; 2000 г.

Бьюик В., Чик Л., Болл Дж. Статистический обзор 7: Корреляция и регрессия.Crit Care2003, 7:451-459. 10.1186 / cc2401

Бьюик В., Чик Л., Болл Дж. Статистический обзор 13: Кривые рабочих характеристик приемника (ROC).Crit Care2004, 8:508-512. 10.1186 / cc3000

Бьюик В., Чик Л., Болл Дж. Статистический обзор 11: Оценка риска.Crit Care2004, 8:287-291. 10.1186 / cc2908

ПОПУЛЯРНЫЕ СТАТЬИ