Помогите мне понять скорректированное отношение шансов в логистической регрессии

Мне было трудно понять использование логистической регрессии в статье. В доступной здесь статье логистическая регрессия используется для прогнозирования вероятности осложнений во время операции по удалению катаракты.

Что меня сбивает с толку, так это то, что в статье представлена ​​модель, которая устанавливает отношение шансов, равное 1, к базовому уровню, описанному следующим образом:

Пациент, профиль риска которого входил в контрольную группу по всем показателям риска (т.е. скорректированное OR = 1,00 для всех в таблице 1), может рассматриваться как имеющий «базовый профиль риска», а модель логистической регрессии указывает «исходную прогнозируемую вероятность». для ПЦР или ВЛ или обоих = 0,736%.

Таким образом, вероятность 0,00736 представлена ​​с отношением шансов 1. На основе преобразования вероятностей в отношения шансов: $ o = \ frac

$, это не может быть равно 1: 0,00741 $ = \ frac $.

Это еще больше сбивает с толку. Составные отношения шансов, которые представляют несколько ковариат, имеющих значения, отличные от базовых, используются для расчета прогнозируемого риска.

. составной OR из Таблицы 1 будет 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5, и из графика на Рисунке 1 мы видим, что это OR соответствует прогнозируемой вероятности ПЦР или VL или того и другого около 20%.

Единственный способ получить значения, которые в статье приводятся в качестве примеров, - это умножить базовую вероятность на составные коэффициенты, например: $ 0.2025 = \ frac $.

и так, что здесь происходит? Какова логика присвоения отношения шансов 1 базовой вероятности, отличной от 0,5? Формула обновления, которую я придумал выше, дает правильные вероятности для примеров в статье, но это не прямое умножение отношения шансов, которое я ожидал. Что тогда?

1 ответ 1

Шансы - это способ выразить шансы. Соотношение шансов таково : одни шансы делятся на другие.Это означает, что отношение шансов - это то, на что вы умножаете одни шансы, чтобы получить другой. Посмотрим, как они работают в этой распространенной ситуации.

Преобразование между шансами и вероятностями

Шансы бинарного ответа $ Y $ - это отношение вероятности того, что это произойдет (закодировано с помощью $ 1 $), записано $ \ Pr (Y = 1) $, к вероятности, что оно не произойдет (закодировано с помощью $ 0 $), написано $ \ Pr (Y = 0) $:

Эквивалентное выражение справа показывает, что достаточно смоделировать $ \ Pr (Y = 1) $, чтобы найти шансы. Наоборот, обратите внимание, что мы можем решить

Логистическая регрессия

Логарифмическая регрессия моделирует логарифм шансов на $ Y $ как линейную функцию независимых переменных. В большинстве случаев, записывая эти переменные как $ x_1, \ ldots, x_p $ и включая возможный постоянный член в линейную функцию, мы можем назвать коэффициенты (которые должны быть оценены по данным) как $ \ beta_1, \ ldots, \ beta_p $ и $ \ beta_0 $. Формально получается модель

$$ \ log \ left (\ text (Y) \ right) = \ beta_0 + \ beta_1 x_1 + \ cdots + \ beta_p x_p. $$

Сами коэффициенты можно восстановить, отменив логарифм:

$$ \ текст (Y) = \ exp (\ beta_0 + \ beta_1 x_1 + \ cdots + \ beta_p x_p). $$

Использование категориальных переменных

Категориальные переменные, такие как возрастная группа, пол, наличие глаукомы и т. Д. , Вводятся посредством «фиктивного кодирования». Чтобы показать, что способ кодирования переменной не имеет значения, я приведу простой пример одной небольшой группы; его обобщение на несколько групп должно быть очевидным. В этом исследовании одной переменной является «размер зрачка» с тремя категориями: «Большой», «Средний» и «Маленький». (Исследование рассматривает их как чисто категориальные, очевидно, не обращая внимания на присущий им порядок.) Интуитивно каждая категория имеет свои собственные шансы, скажем, $ \ alpha_L $ для «Большой», $ \ alpha_M $ для «Средней» и $ \ alpha_S $ для "Маленького". Это означает, что при прочих равных условиях

$$ \ текст (Y) = \ exp (\ цвет + \ beta_1 x_1 + \ cdots + \ beta_p x_p) $$

для всех, кто находится в категории "Большие",

$$ \ текст (Y) = \ exp (\ цвет + \ beta_1 x_1 + \ cdots + \ beta_p x_p) $$

для всех, кто находится в категории "Средний", и

$$ \ текст (Y) = \ exp (\ цвет + \ beta_1 x_1 + \ cdots + \ beta_p x_p) $$

для категории «Маленькие».

Создание идентифицируемых коэффициентов

Я раскрасил первые два коэффициента, чтобы выделить их, потому что хочу, чтобы вы обратили внимание, что они допускают простое изменение: мы можем выбрать любое число $ \ gamma $ и, добавив его к $ \ beta_0 $ и вычтя из каждого $ \ alpha_L $, $ \ alpha_M $ и $ \ alpha_S $, мы не будем изменять никаких прогнозируемых шансов. Это связано с очевидной эквивалентностью вида

$$ \ alpha_L + \ beta_0 = (\ alpha_L - \ gamma) + (\ gamma + \ beta_0), $$

и т. д. Хотя это не представляет проблем для модели - она ​​по-прежнему предсказывает одни и те же вещи - это показывает, что параметры сами по себе не поддаются интерпретации. Что остается неизменным, когда мы делаем этот маневр сложения-вычитания, так это различия между коэффициентами. Обычно, чтобы решить эту проблему отсутствия идентифицируемости, люди (и по умолчанию программное обеспечение) выбирают одну из категорий в каждой переменной в качестве «базовой» или «эталонной» и просто оговаривают, что ее коэффициент будет равен нулю. Это устраняет двусмысленность.

В документе сначала перечислены ссылочные категории; «Большой» в данном случае. Таким образом, $ \ alpha_L $ вычитается из каждого из $ \ alpha_L, \ alpha_M, $ и $ \ alpha_S $ и добавляется к $ \ beta_0 $ для компенсации.

Логарифмические шансы для гипотетического индивида, попадающего во все базовые категории, поэтому равны $ \ beta_0 $ плюс набор терминов, связанных со всеми другими «ковариатами» - некатегориальными переменными:

$$ \ текст = \ exp (\ beta_0 + \ beta_1X_1 + \ cdots + \ beta_p X_p). $$

Здесь не отображаются термины, связанные с какими-либо категориальными переменными. (Я немного изменил обозначения на этом этапе: бета-версии $ \ beta_i $ теперь являются коэффициентами только ковариат , в то время как полная модель включает альфы $ \ alpha_j $ для различных категорий.)

Сравнение шансов

Давайте сравним шансы. Предположим, что гипотетический человек - это

пациент мужского пола в возрасте 80–89 лет с белой катарактой, отсутствием обзора дна матки и маленьким зрачком, оперированный специалистом-регистратором.

С этим пациентом (назовем его Чарли) связаны оценочные коэффициенты для каждой категории: $ \ alpha_ \ text $ для его возрастной группы, $ \ alpha_ \ text $ за то, что он мужчина, и так далее. Как мы видели, везде, где его атрибут является основой для этой категории, коэффициент по соглашению равен нулю . Поскольку это линейная модель, коэффициенты складываются. Таким образом, к базовому логарифмическому коэффициенту, приведенному выше, логарифмический коэффициент для этого пациента получается путем добавления в

Это именно та величина, на которую логарифмические шансы этого пациента отличаются от базового. Чтобы преобразовать логарифм шансов, отмените логарифм и вспомните, что это превращает сложение в умножение. Следовательно, базовый коэффициент необходимо умножить на

Это числа, указанные в таблице в разделе «Скорректированное ИЛИ» (скорректированное отношение шансов). (Это называется «скорректированным», потому что в модель были включены ковариаты $ x_1, \ ldots, x_p $. Как вы увидите, они не играют никакой роли ни в каких наших расчетах. Это называется «отношением», потому что это именно то сумма, на которую необходимо умножить базовые шансы, чтобы получить предсказанные шансы пациента: см. первый абзац этого сообщения.) В порядке в таблице они равны $ \ exp (\ alpha_ \ text ) = 1,58 $ , $ \ exp (\ alpha_ \ text ) = 1,28 $, $ \ exp (\ alpha_ \ text ) = 1,00 $ и т. Д. Согласно статье, их продукт стоит 34,5 $. Следовательно

(Обратите внимание, что все базовые категории имеют отношение шансов $ 1,00 = \ exp (0) $, потому что включение $ 1 $ в продукт оставляет его неизменным. Вот как вы можете определить базовые категории в таблице.)

Представление результатов как вероятностей

Наконец, преобразуем этот результат в вероятности. Нам сказали, что базовая прогнозируемая вероятность составляет 0,736 $ \% = 0,00736 $. Следовательно, используя формулы, связывающие шансы и вероятности, полученные вначале, мы можем вычислить

ПОПУЛЯРНЫЕ СТАТЬИ