Вступление

Простая линейная регрессия позволяет оценить взаимосвязь между двумя непрерывными переменными. Множественная линейная регрессия - это расширение линейной регрессии, которое позволяет нам одновременно оценивать независимое влияние нескольких независимых переменных на непрерывный результат. Мы увидим, что возможность оценивать независимый эффект от нескольких воздействий одновременно обеспечивает мощный способ контроля за искажением. Множественная логистическая регрессия аналогичным образом обеспечивает способ контроля искажений при оценке воздействия множественных воздействий на дихотомический исход для здоровья.

Цели обучения

После успешного завершения этого модуля студент сможет:

  1. Объясните непрофессиональной аудитории концепцию статистической корректировки
  2. Определите, присутствует ли вмешательство, на основе результатов множественного линейного и множественного анализа логистической регрессии.
  3. Интерпретация коэффициентов регрессии в анализе множественной линейной регрессии
  4. Интерпретировать скорректированные отношения шансов на основе анализа множественной логистической регрессии
  5. Проведите множественный регрессионный анализ в статистическом пакете R
  6. Интерпретировать вывод, генерируемый статистическим пакетом R

Гипотетический пример

В предыдущем модуле мы отметили, что простая линейная регрессия - это метод, который подходит для понимания связи между одной независимой (или предиктивной) переменной и одной непрерывно зависимой (или конечной) переменной. Анализ множественной линейной регрессии - это расширение простого линейного регрессионного анализа, которое позволяет нам оценить связь между двумя или более независимыми переменными и одной непрерывной зависимой переменной.

Это очень полезная процедура для выявления и корректировки искажений. Чтобы обеспечить интуитивное понимание того, как множественная линейная регрессия делает это, рассмотрим следующий гипотетический пример. Предположим, исследователь разработал систему баллов, которая позволила ей предсказать индекс массы тела (ИМТ) человека на основе информации о том, что они ели и в каком количестве. Исследователь хотел проверить эту новую «диетическую оценку», чтобы определить, насколько тесно она связана с фактическими измерениями ИМТ. Информация собирается от небольшой выборки субъектов, чтобы вычислить их «оценку диеты», и вес и рост каждого субъекта измеряются, чтобы вычислить их ИМТ. График справа показывает взаимосвязь между новым «показателем диеты» и ИМТ и предполагает, что «показатель диеты»не является очень хорошим предсказателем (т. е. между ними практически нет связи.

Хотя это обескураживает, исследователь считает, что вполне возможно, что смешение по возрасту и / или полу маскирует истинную взаимосвязь между «оценкой диеты» и ИМТ. Сначала она определяет, какие испытуемые старше 20 лет, и оказывается, что более молодые и пожилые люди сгруппированы на диаграмме разброса, как показано на рисунке ниже.

Исследователь подозревала, что пол также может быть смешивающим фактором, и когда она определила мужчин и женщин, график выглядел так:

Эти результаты показывают, что и возраст, и пол влияют на ИМТ, потому что у старшей группы ИМТ выше, чем у младшей группы, в то время как у мужчин стабильно выше ИМТ, чем у женщин. Кроме того, возраст и пол также связаны с «оценкой диеты», которая представляет собой интересующую «экспозицию», поскольку оценки диеты неравномерно распределяются по полу или возрасту. Другими словами, и возраст, и пол соответствуют критериям, которые могут противоречить друг другу. Мы также можем видеть (на этом очень гипотетическом примере), что существует поразительная линейная зависимость между «оценкой диеты» и ИМТ в каждой из четырех возрастных и гендерных групп. Другими словами, только после «учета» этих двух смешивающих переменных мы можем увидеть, что действительно существует взаимосвязь между показателем диеты и ИМТ.Истинные отношения были искажены этими другими факторами.

При анализе данных всегда легче работать с числовыми данными, а не с текстом. Например, при работе с дихотомическими данными число «1» может удобно указывать на наличие характеристики вместо «да» или «истина», а число «0» удобно указывать «нет» или «ложь». Также лучше всего организовать наборы данных так, чтобы информация для отдельных субъектов была указана в строке, а столбцы содержали переменные. Следовательно, в этом сценарии мой набор данных, возможно, будет выглядеть примерно так:

С данными, которые закодированы таким образом, матричная математика может использоваться для нахождения коэффициентов для каждой переменной, которая привела к наилучшему «соответствию» данных. В рассматриваемом здесь гипотетическом примере для вычисления коэффициентов можно использовать множественный линейный регрессионный анализ, который можно использовать для математического описания взаимосвязей на графике с помощью следующего уравнения:

ИМТ = 18,0 + 1,5 (оценка диеты) + 1,6 (мужчины) + 4,2 (возраст>20)

Обратите внимание, что числа красного цвета - это коэффициенты, предоставленные анализом.

Независимый эффект каждой независимой переменной

В некотором смысле приведенное выше уравнение является предсказанием того, каким будет ИМТ человека, на основе оценки его диеты, пола и возрастной группы. Уравнение имеет точку пересечения 18,0, что означает, что я начинаю с базового значения 18. Затем я умножаю 1,5 x (оценка диеты); Я умножаю 1,6 х (мужчина) и умножаю 4,2 х (возраст>20). Но помните, что в базе данных я закодировал мужчина как 1 для мужчин и как 0 для женщин; для возрастной группы я закодировал его как 1, если испытуемый был старше 20 лет, и как 0, если ему было меньше 20 лет.

Помимо того, что это математическое описание полезно для описания взаимосвязей и прогнозирования, оно обеспечивает мощное средство контроля за ошибками. Например, коэффициент 1,5 для оценки диеты означает, что для каждого дополнительного балла в оценке диеты я должен добавить 1,5 единицы к моему прогнозу , независимо от того, мужчина это или женщина, взрослый или ребенок. Другими словами, уравнение количественно оценило связь показателя диеты с ИМТ независимо от(т.е. с учетом) пола и возрастной группы. Точно так же это означает, что я должен добавить 1,6 единицы к моему прогнозу, если человек - мужчина, независимо от его возраста и оценки диеты. И я должен добавить 4,2 к моему прогнозу, если человеку больше 20 лет, независимо от его диеты или пола. В результате регрессионный анализ позволил нам выделить независимую (необоснованную) связь каждого фактора с интересующим результатом.

Рисунок выше позволяет нам увидеть влияние каждой из независимых переменных после учета смешения. Уравнение является математическим выражением того, что мы видим на рисунке, а коэффициенты для каждой переменной описывают необоснованную меру связи каждой переменной с результатом.

Множественная линейная регрессия

Мы узнали, что уравнение простой линейной регрессии имеет вид

- это прогнозируемое или ожидаемое значение результата, X - прогнозирующий фактор, b 0 - расчетная точка пересечения с Y, а b 1 - расчетный наклон. Как указывалось ранее, множественная линейная регрессия является расширением простой линейной регрессии, которую можно увидеть в уравнении множественной линейной регрессии:

- прогнозируемое или ожидаемое значение зависимой переменной, от X 1 до X p - p различных независимых или предиктивных переменных, b 0 - значение Y, когда все независимые переменные (от X 1 до X p ) равны нулю, и b От 1 до bp - расчетные коэффициенты регрессии. Каждый коэффициент регрессии представляет собой изменение Y относительно изменения на одну единицу соответствующей независимой переменной. В ситуации множественной регрессии b 1 , например, представляет собой изменение Y относительно изменения X 1 на одну единицу , при этом все другие независимые переменные остаются постоянными (т. Е. Когда оставшиеся независимые переменные сохраняются на одном и том же значении или фиксированы. ).

При выполнении простой линейной регрессии мы предоставили формулы для ручных вычислений b 0 и b 1 . Ручные вычисления этих значений (а также b 2 ,. B k ) в настройке множественной линейной регрессии могутбыть вычисленным, но это требует выполнения матричной алгебры, что выходит за рамки этого курса. Напомним, что мы первоначально описали простую линейную регрессию как способ связать непрерывную независимую переменную с непрерывной зависимой переменной. В конце модуля 9 мы также увидели, что выполнение простой линейной регрессии с бинарным предиктором эквивалентно выполнению двухвыборочного t-теста, а выполнение простой линейной регрессии с категориальным предиктором (с более чем двумя уровнями) эквивалентно выполнению двухвыборочного t-теста. выполнение ANOVA. В множественной линейной регрессии мы также можем использовать непрерывные, двоичные или многоуровневые категориальные независимые переменные. Однако исследователь должен создать набор индикаторных переменных, называемых «фиктивными переменными», для представления различных групп сравнения.

«Фиктивные» переменные в регрессионных моделях

Для выполнения множественной линейной регрессии с категориальной переменной соответствующие «фиктивные» переменные включаются в модель множественной регрессии одновременно как набор независимых переменных. Например, предположим, что участники Фрамингемского исследования сердца распределены по категориям на основе их ИМТ. Эта категориальная переменная имеет 4 уровня: недостаточный вес, нормальный, избыточный вес и ожирение. Чтобы рассматривать категорию ИМТ в качестве предиктора в регрессионной модели, мы создаем три индикаторных переменных (на одну меньше общего количества категорий ИМТ) для представления 4 различных групп. Чтобы создать набор индикаторов или фиктивных переменных, мы сначала выбираем контрольную группу. В этом примере контрольной группой является категория ИМТ, с которой мы будем сравнивать другие группы. Давайте использовать «нормальную» группу ИМТ в качестве нашей контрольной группы.Переменные-индикаторы создаются для остальных групп (с недостаточным весом, избыточным весом и ожирением) и имеют код 1 для участников, которые находятся в этой группе (например, относятся к конкретной интересующей категории ИМТ), а все остальные имеют код 0.

В модели множественной регрессии коэффициенты регрессии, связанные с каждой из фиктивных переменных (представляющих в этом примере каждую категорию ИМТ), интерпретируются как ожидаемая разница в среднем значении переменной результата для этой категории ИМТ по сравнению с «нормальным». "Группа ИМТ, сохраняя все остальные предикторы постоянными. На следующей странице мы увидим пример того, как закодировать эти фиктивные переменные и выполнить множественную линейную регрессию с фиктивными переменными в R.

Множественная линейная регрессия в R

Выполнение множественной линейной регрессии в R очень похоже на выполнение простой линейной регрессии в R. Как и в случае простой линейной регрессии, первое, что нам нужно сделать, это прочитать данные. Воспользуйтесь прочитанным. csv () для чтения данных, содержащихся в fram1.csv, и присоединения данных к R.

Чтобы выполнить множественную линейную регрессию в R, мы используем следующую общую форму:

Подобно простой линейной регрессии, mod1 - это имя объекта, в котором мы хотели бы сохранить модель, lm означает «линейную модель» и представляет собой команду R для запуска линейной регрессии, Y - наша зависимая или конечная переменная, а X1 , X2 и X3 - независимые переменные или переменные-предикторы. Затем мы используем команду summary для вывода результатов выполнения множественной линейной регрессии.

Давайте воспользуемся данными Framingham в fram1.csv для выполнения множественного линейного регрессионного анализа с систолическим артериальным давлением ( SYSBP ) в качестве зависимой переменной и следующих независимых переменных:

непрерывный ИМТ ( BMI ), возраст ( AGE) , индикатор мужского пола ( MALE ) и индикатор использования гипотензивных препаратов ( BPMEDS ). Код и соответствующие выходные данные для выполнения этой множественной линейной регрессии в R показаны ниже.

ИМТ + ВОЗРАСТ + МУЖЧИНЫ + BPMEDS)

- Мин. ***** 1 квартал - Медиана --- 3 квартал ---- Макс.

-59,867 -12,556 -2,297 10,121 130,723

== - Расчетная Станд. Ошибка t значение Pr (>| t |)

(Перехват) 52.10927 --- 2.35264 - 22.149 -

ИМТ -------- = - 1,47058 --- 0,07135 - 20,612

ВОЗРАСТ ------- = - 0,86062 --- 0,03386 - 25,420

МУЖСКОЙ ------ = - -2,27589 --- 0,58281 - -3,905 9,56e-05 ***

BPMEDS ====== 24.32760 --- 1.63934 - 14.840

Сигниф. коды: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 дюйма 1

Остаточная стандартная ошибка: 19,01 на 4349 степенях свободы

(80 наблюдений удалены из-за отсутствия)

Кратное R-квадрат: 0,276, Скорректированный R-квадрат: 0,2754

F-статистика: 414,6 на 4 и 4349 DF, значение p:

Первое, что мы сделали в простом линейном регрессионном анализе, - это посмотрели на оценки для b 0 и b 1 и выполнили проверку гипотезы, чтобы определить, отличается ли наклон от 0. С одним предиктором в модели этот подход был прекрасен. . Однако с несколькими независимыми переменными в модели нам нужно сначала оценить модель в целом. Для этого мы проводим Глобальный F-тест. Гипотезы для глобального F-теста следующие:

  • H 0 : нет связи между какой-либо из независимых переменных и результатом (b 1 = b 2 =. = B k = 0) (R 2 = 0)
  • H A : Связь по крайней мере между одной из независимых переменных и результатом (по крайней мере, один наклон отличен от 0) (R 2 0)

Обратите внимание, что гипотезы для этого теста можно сформулировать тремя различными, но эквивалентными способами. F-статистика, соответствующие степени свободы и p-значение для этого теста выделены красным на выходных данных выше. Из выходных данных мы видим, что F-статистика для глобального теста равна 414,6 с 4 и 4349 степенями свободы (df = 4, 4349) и соответствующим p-значением меньше 2,2 x 10 -16. Таким образом, мы отвергаем нуль и заключаем, что существует связь по крайней мере между одной из независимых переменных и результатом. Кроме того, отклоняя ноль, мы также заключаем, что R 2 отличается от 0. В частности, R 2 = 0,276. Интерпретация R 2 в настройке множественной линейной регрессии очень похожа на настройку простой линейной регрессии. Используя текущий пример, мы можем интерпретировать R 2 как означающее 27.6% вариабельности систолического артериального давления объясняется ИМТ, возрастом, полом и приемом гипотензивных препаратов.

Теперь, когда мы определили, что существует связь по крайней мере между одним из предикторов и результатом, мы можем выполнить проверку гипотез для каждого предиктора, чтобы определить, какие независимые переменные связаны с результатом. Как и в простой линейной регрессии, не принято проверять, отличается ли перехватчик от 0. Однако мы хотели бы выполнить проверку гипотез, чтобы определить , отличаются ли b 1 -b k от 0.

Используя текущий пример, мы можем выполнить статистический тест наклона ИМТ следующим образом.

  • H 0 : Нет связи между систолическим артериальным давлением и ИМТ (β 1 = 0).
  • H A : Существует связь между систолическим артериальным давлением и ИМТ (β 1 0).

Из выходных данных мы видим, что значение t для этого теста равно 20,612, и, как и в простой линейной регрессии, степени свободы для этой t-статистики равны степеням свободы для стандартной остаточной ошибки, которая в в данном случае - 4349. Кроме того, значение p, соответствующее этому значению t с 4349 df, меньше 2,2 x 10 -16, что намного меньше 0,05, поэтому мы отклоняем нуль и заключаем, что существует значительная связь между систолическое артериальное давление и ИМТ. Чтобы интерпретировать наклон, мы можем сказать, что на каждую единицу увеличения ИМТ мы ожидаем увеличения систолического артериального давления на 1,47 мм рт.ст. с поправкой на возраст, пол и прием гипотензивных препаратов. Как и в случае с другими анализами, которые мы сделали, мы можем рассчитать 95% доверительный интервал для наклона, который связывает ИМТ с систолическим артериальным давлением.Напомним, что общая форма 95% доверительного интервала:

Здесь равно оценке параметра для ИМТ, который составляет 1,47, а стандартная ошибка приведена в вышеприведенных выходных данных в Std. Столбец ошибок и в этой ситуации эквивалентен 0,07. Поскольку 1,96 x 0,07 = 0,1372, это означает, что 95% доверительный интервал для наклона ИМТ, поскольку он связан с систолическим артериальным давлением, с поправкой на возраст, пол и прием гипотензивных препаратов, составляет 1,47 ± 0,1372 = [1,33, 1,61] . Таким образом, мы на 95% уверены, что истинное значение находится между 1,33 и 1,61. Обратите внимание, что этот доверительный интервал исключает нулевое значение 0, что согласуется с тем, что мы сделали на основании проверки гипотезы. Аналогичным образом вы можете выполнить проверку гипотез и рассчитать 95% доверительный интервал для влияния возраста, пола и использования антигипертензивных препаратов на систолическое артериальное давление.

Чтобы найти доверительные интервалы в R для всех предполагаемых коэффициентов регрессии сразу, мы можем использовать команду confint () следующим образом:

(Перехват) 47.4969054 - 56.7216432

ИМТ ---------- 1,3307052 - 1,6104599

ВОЗРАСТ ---------- 0,7942486 - 0,9269996

МУЖЧИНЫ -------- -3.4184821 -1.1332899

BPMEDS ------ 21.1136543 27.5415553

Обратите внимание, что 95% доверительный интервал для наклона ИМТ с поправкой на возраст, пол и использование гипотензивных препаратов составляет [1,33, 1,61], что эквивалентно тому, что мы вычислили вручную.

Видео о множественной линейной регрессии в R

В качестве дополнительного ресурса для выполнения анализа множественной линейной регрессии в R вы можете посмотреть это видео Майка Марина. Обратите внимание, что набор данных, используемый в этом видео, можно получить, щелкнув следующую ссылку. (Ссылка на LungCapData)

Множественная линейная регрессия в R

Фиктивные переменные в R

Как указывалось ранее, чтобы рассматривать категориальную переменную в качестве предиктора в регрессионной модели, мы создаем индикаторные переменные для представления категорий, которые не являются эталонными. Продолжая описанный выше пример категории ИМТ, давайте пройдемся по этапам создания фиктивных переменных, чтобы мы могли включить категорию ИМТ в качестве предиктора в модель множественной линейной регрессии. Поскольку мы используем категорию «нормальный» ИМТ в качестве ориентира, нам необходимо создать индикаторные переменные для недостаточного веса, избыточного веса или ожирения. Для этого в R мы можем использовать операторы ifelse () для создания индикаторных переменных. Общая форма оператора ifelse () такова:

ПОПУЛЯРНЫЕ СТАТЬИ