Интерпретация результатов регрессии (без всякой теории статистики)

Регрессионный анализ — это один из множества методов анализа данных, используемых в бизнесе и социальных науках. Техника регрессионного анализа основана на ряде статистических концепций, включая выборку, вероятность, корреляцию, распределения, центральную предельную теорему, доверительные интервалы, z-значения, t-показатели, проверку гипотез и многое другое. Возможно, вы не изучали эти концепции. И если вы изучили эти концепции, вы можете не вспомнить все статистические концепции, лежащие в основе регрессионного анализа. Книга «Интерпретация результатов регрессии без всякой теории статистики» предназначена для вас, если вам нужно прочитать и интерпретировать данные регрессионного анализа, не зная всех основных статистических концепций.

Содержание
  1. Для кого эта книга?
  2. 5 глав по основам регрессии
  3. Используемые данные регрессии
  4. Глава 1: Источники и типы выходных данных регрессии
  5. 1.1 Вывод Microsoft Excel
  6. 1.2 R Programming Output
  7. Глава 2: Общая картина/Понимание модели
  8. 2.1 Множественное R
  9. 2.2 R-Squared или Multiple R-Squared
  10. 2.3 Скорректированный R-квадрат
  11. 2.4 Стандартная ошибка
  12. 2. 5 Значимость F
  13. Глава 3: Уравнение или модель регрессии
  14. 3.1 Что такое уравнение регрессии?
  15. 3. 2 Где я могу получить составные части уравнения регрессии?
  16. 3.3. Что говорит уравнение регрессии меня?
  17. 3,4 Что означает перехват?
  18. 3.5 На что указывают коэффициенты?
  19. 3.6 Что обозначают знаки коэффициентов?
  20. Глава 4: Подробнее об уравнении регрессии
  21. 4.1 Стандартная ошибка коэффициентов
  22. 4.2 t-статистика или t -value
  23. 4.3 P-значения
  24. 4.4 95% доверительный интервал
  25. Глава 5: Что следует помнить и предупреждения
  26. 5.1 Причинно-следственная связь против корреляции
  27. 5.2 Человек с синдромом молотка
  28. 5.3. Пример
  29. 5.4 Выбросы
  30. 5.5. Основные предположения
  31. Выбрать ресурсы по регрессии
  32. Объяснение результатов регрессионного анализа Excel
  33. Объяснение результатов регрессионного анализа Excel
  34. Объяснение выходных данных регрессионного анализа Excel: множественная регрессия
  35. РЕЗУЛЬТАТ АНАЛИЗА РЕГРЕССИИ EXCEL ЧАСТЬ ПЕРВАЯ: СТАТИСТИКА РЕГРЕССИИ
  36. ВЫВОД РЕГРЕССИОННОГО АНАЛИЗА EXCEL, ОБЪЯСНЕННАЯ ЧАСТЬ ВТОРАЯ: ANOVA
  37. АНАЛИЗ РЕГРЕССИИ EXCEL ЧАСТЬ ТРЕТЬЯ: ИНТЕРПРЕТНЫЕ КОЭФФИЦИЕНТЫ РЕГРЕССИИ
  38. Будьте внимательны при интерпретации определенных терминов
  39. Ссылки

Для кого эта книга?

Эта книга в первую очередь написана для аспирантов или студентов, изучающих бизнес или гуманитарных наук, заинтересованных в понимании и интерпретации выходных таблиц регрессионного анализа. Эта книга также полезна для руководителей и профессионалов, заинтересованных в интерпретации и использовании регрессионного анализа. Это замечательный ресурс для студентов или профессионалов, которые хотят быстро освежиться перед экзаменами или прохождением собеседований для работы в отрасли анализа данных.

Эта книга не предназначена для замены учебника по статистике или для использования в качестве пособия. полное руководство по регрессионному анализу. Он предназначен для того, чтобы быстро и легко понять результаты регрессионного анализа. «Интерпретация результатов регрессии без всякой теории статистики» фокусируется только на основных выводах, которые дает вам результат регрессии.

В этой книге нет Предположим, что читатель знаком со статистическими концепциями, лежащими в основе регрессионного анализа. Например, читатель не должен знать центральную предельную теорему или процесс проверки гипотез. Читатель НЕ должен быть экспертом в Microsoft Excel, R, Python или любом другом программном обеспечении, которое может выполнять регрессионный анализ.

Эта книга не предназначена для замены статистики учебник или полное руководство по регрессионному анализу.

Интерпретация результатов регрессии без всякой теории статистики основан на опыте обучения Сенита Мэтьюза студенты и руководители в области статистики и анализа данных более 10 лет.

5 глав по основам регрессии

В первой главе этой книги показано, как выглядят результаты регрессии в различных программных инструментах.

Вторая глава книги Интерпретация результатов регрессии без всякой теории статистики поможет вам получить общий обзор регрессионной модели. Вы поймете, насколько «хороша» или надежна эта модель.. Вторая глава поможет вам ответить на следующие вопросы:

  • Что Multiple R говорит мне о взаимосвязях между переменными X и Y?
  • R-квадрат или множественный R-квадрат рассказать мне о регрессионной модели?
  • Чем скорректированный R-квадрат отличается от R-квадрат?
  • Как это стандартная ошибка полезна?
  • Что значение F говорит мне о регрессионной модели?

Третья глава книги Интерпретация регрессии Выходные данные без всякой статистики. Теория обсуждает уравнение регрессии и помогает найти составляющие уравнения регрессии. Эта глава поможет вам ответить на следующие вопросы:

  • Что такое уравнение регрессии?
  • Где я могу получить компоненты уравнения регрессии?
  • Что мне говорит уравнение регрессии?
  • На что указывает точка пересечения?
  • На что указывают коэффициенты?
  • На что указывают знаки коэффициентов?

В четвертой главе этой книги более подробно рассматривается уравнение регрессии. Это поможет вам интерпретировать уравнение и понять его компоненты. Четвертая глава Интерпретация результатов регрессии без всякой теории статистики поможет вам ответить на следующие вопросы:

  • Как интерпретировать стандартную ошибку коэффициенты для каждой переменной в выходных данных регрессии?
  • Как вычисляется t-статистика или t-значение и на что они указывают?
  • Как я могу интерпретировать P-значения в регрессионной модели?
  • Что означает доверительный интервал 95% для каждой переменной?

В пятой главе рассматриваются важные моменты, которые вы необходимо иметь в виду при использовании регрессионного анализа. Он включает краткое обсуждение некоторых из следующих аспектов с точки зрения регрессионного анализа:

  • Причинно-следственная связь и корреляция
  • Человек с синдромом молотка
  • Влияют ли выбросы на результат регрессии?
  • Основные допущения регрессионного анализа

Приятного чтения этой книги. Если вам потребуется дополнительная помощь в интерпретации результатов регрессионного анализа, не стесняйтесь позвонить нам или отправить нам электронное письмо, и один из наших преподавателей статистики будет более чем счастлив помочь вам с интерпретацией результатов вашего регрессионного анализа.

Используемые данные регрессии

Если вам понадобится помощь в интерпретации результатов регрессионного анализа, не сомневайтесь чтобы позвонить нам или отправить нам электронное письмо.

Глава 1: Источники и типы выходных данных регрессии

Сегодня регрессионный анализ можно выполнять в самых разных программах. Вездесущий Microsoft Excel по-прежнему остается самым популярным инструментом. Для выполнения регрессионного анализа доступны различные другие бесплатные и платные инструменты. Некоторые из них включают SPSS, SAS, R, Python и JMP и т. Д.

Каждый из этих инструментов представляет выходные данные регрессионного анализа по-разному.. Однако все эти инструменты предоставляют практически одни и те же данные. Ниже мы представляем результаты регрессии некоторых из упомянутых выше инструментов.

Необработанные данные доступны на веб-странице книги здесь. Не стесняйтесь поиграть с ним вживую и увидеть, как оно влияет на уравнение регрессии и соответствующую диаграмму.

1.1 Вывод Microsoft Excel

1.2 R Programming Output

Обратите внимание, что во всех этих случаях выходные данные регрессионного анализа предоставляют по существу одну и ту же информацию, хотя они представлены в разных форматах или схемах.

Каждое число в выходных данных регрессии что-то указывает. В этой книге мы обратимся только к наиболее часто используемым числам.

Глава 2: Общая картина/Понимание модели

Первый набор чисел, на который я обращаю внимание находятся в верхней части вывода регрессии в Microsoft Excel под заголовком «Статистика регрессии».

Эти данные представлены в последних нескольких строках выходных данных регрессии в R. Этот набор данных дает вам общую картину результатов регрессии. Он позволяет вам отвечать на такие вопросы, как: Насколько хороша ваша модель? Какой процент вариации объясняется включенными переменными?

2.1 Множественное R

Множественное R — это абсолютное значение коэффициента корреляции двух оцениваемых переменных (X и Y). Коэффициент корреляции показывает, насколько близко две переменные движутся в тандеме друг с другом. Предполагается, что связь является линейной, и таким образом измеряется линейная связь между двумя переменными X и Y.

Коэффициент корреляции имеет значение от +1 до -1. Коэффициент корреляции +1 указывает на то, что переменные движутся в идеальном тандеме и в одном направлении. Коэффициент корреляции 0 указывает на отсутствие связи между переменными. Коэффициент корреляции -1 указывает на то, что переменные движутся в идеальном тандеме, но в ПРОТИВОПОЛОЖНОМ направлении.

Однако, поскольку кратное R является абсолютным значением коэффициента корреляции, мы не знаем об этом. если корреляция положительная или отрицательная! Это означает, что мы не видим направления отношений, а знаем только их силу.

Коэффициент корреляции также называется коэффициентом корреляции Пирсона или коэффициентом Пирсона r.

Множественный R в нашем примере указывает, что существует сильная корреляция между суммой, потраченной на телеобъявление, и продажами. Как указано выше, Multiple R не скажет нам, является ли корреляция положительной или отрицательной.

2.2 R-Squared или Multiple R-Squared

R-Squared (в Microsoft Excel) или Multiple R-Squared (в R) указывает, насколько хорошо модель или линия регрессии «соответствует» данным.. Он указывает долю дисперсии в зависимой переменной (Y), которая объясняется независимой переменной (X).

Мы знаем, что на переменную может повлиять один или несколько факторов. R-Squared показывает процент вариации зависимой переменной, которая объясняется независимыми переменными.

В нашем примере мы знаем, что на единицу продаж продукта будут влиять различные факторы. такие факторы, как цена, действия конкурентов, экономия и т.д., а не только расходы на рекламу. Когда мы запускаем регрессию с продажами в качестве зависимой переменной Y и только с расходами на рекламу в качестве независимой переменной X, R-квадрат указывает процент вариации в продажах единиц, который объясняется расходами на рекламу. Он сообщает вам процент изменения продаж, вызванный изменением расходов на рекламу. Это также означает, что мы можем вычислить процент отклонения, который объясняется факторами, отличными от расходов на рекламу, такими как экономика, конкуренция, цена и т. Д. Процент отклонения, который объясняется другими факторами, помимо расходов на рекламу, будет составлять 100% — R-квадрат .

Наши результаты регрессии показывают, что 81,48% вариации в единичных продажах объясняется рекламным бюджетом. И 18,52% (100% -81,48%) вариации вызваны другими факторами, кроме расходов на рекламу.

(Также обратите внимание, что, как следует из названия, R-квадрат равен квадрату множественное R!)

2.3 Скорректированный R-квадрат

Скорректированный R-квадрат используется только при анализе результатов множественной регрессии и игнорируется при анализе выходных данных простой линейной регрессии. Когда у нас есть более одной независимой переменной в нашем анализе, процесс вычислений увеличивает R-квадрат. Как видно из названия, скорректированный R-квадрат — это R-квадрат, скорректированный с учетом этой инфляции при выполнении множественной регрессии.

Интерпретация скорректированного R-квадрата аналогична R-квадрату и используется только при анализе выходных данных множественной регрессии.

2.4 Стандартная ошибка

Стандартная ошибка в выходных данных регрессии — очень важное число, которое нужно понимать при интерпретации данных регрессии. Стандартная ошибка — это мера точности модели. Он отражает среднюю ошибку регрессионной модели. Другими словами, если бы мы использовали регрессионную модель для прогнозирования или оценки интересующей зависимой переменной или переменной, стандартная ошибка показывает, насколько вы могли бы ошибиться, если бы использовали регрессионную модель для прогнозирования. Поскольку стандартная ошибка отражает, насколько вы могли ошибаться, мы хотим, чтобы стандартная ошибка была как можно меньше.

Стандартная ошибка используется, чтобы помочь вам получить доверительный интервал для ваших предсказанных значений.

2. 5 Значимость F

Самый простой способ понять значимость F — это подумать о ней как о вероятности того, что наша регрессионная модель ошибочна и от нее нужно отказаться !! Значение F дает вам вероятность того, что модель неверна. Мы хотим, чтобы значимость F или вероятность ошибиться была как можно меньше.

Значимость F: чем меньше, тем лучше…

Мы видим, что значение F в нашем примере очень мало. Обычно мы устанавливаем уровень значимости и используем его как точку отсечения при оценке модели. Обычно используются уровни значимости 1%, 5% или 10%.

С точки зрения статистики, значимость F — это вероятность того, что нулевая гипотеза в нашей регрессионной модели не может быть отклонена. Другими словами, он указывает на вероятность того, что все коэффициенты в нашем выходе регрессии на самом деле равны нулю! Значимость F вычисляется из значения F (находится слева от значимости F в выходных данных Microsoft Excel). Значение F является значением, аналогичным значению z, значению t и т. Д. Это отношение, вычисляемое путем деления средней суммы квадратов регрессии на сумму средней ошибки квадратов. Значение F находится в диапазоне от нуля до очень большого числа.

Обратите внимание, что значение F аналогично интерпретации значения P, обсуждаемого позже в более позднем разделе. Ключевое отличие состоит в том, что значение F применяется ко всей модели в целом, тогда как значение P будет применяться только к каждому соответствующему коэффициенту.

Глава 3: Уравнение или модель регрессии

Уравнение или модель регрессии — это сердце любого регрессионного анализа. Поскольку основная цель этого буклета — научить вас понимать и интерпретировать результаты регрессионного анализа, мы сразу переходим к уравнению или модели регрессии.

3.1 Что такое уравнение регрессии?

Помните, что в регрессионном анализе ваша цель — выяснить взаимосвязь между анализируемыми переменными. Один из способов выразить взаимосвязь между переменными — это математическое выражение. В простой линейной регрессии мы предполагаем, что связь линейная или, другими словами, прямая линия. Математическое выражение прямой линии:

Y = a + bX

В этом уравнении:

  • Y — это переменная, которую мы пытаемся предсказать. Она называется зависимой переменной, потому что мы предполагаем, что Y зависит от переменной X («независимая» переменная).
  • X называется независимой переменной, потому что мы предполагаем, что она не зависит от Y Это также называется независимой переменной, потому что она должна «объяснять», что вызывает изменения Y.
  • b — наклон линии регрессии. Наклон отражает, насколько большим или малым будет изменение Y при изменении единицы измерения X.
  • a — точка пересечения или точка, в которой линия регрессии будет пересекать ось Y.

3. 2 Где я могу получить составные части уравнения регрессии?

Значения a и b составляют основу регрессионной модели. Значения a и b находятся в качестве коэффициентов в любом выходе регрессии.

X и Y — переменные и будут принимать разные значения в разные моменты времени. Значения a и b подставляются в уравнение регрессии, чтобы получить связь между X и Y следующим образом:

Y = 437,88 + 16,95 * X

Это может также быть выражено в контексте примера или вопроса, чтобы сделать отношения более значимыми.

Продажи = 437,88 + 16,95 * Рекламный бюджет

3.3. Что говорит уравнение регрессии меня?

Эта регрессионная модель показывает, что продажи зависят от рекламного бюджета.

Если я потрачу 1 доллар на рекламу, я могу рассчитывать, что продажи составят 454,83 доллара США. (Продажи = 437,88 + 16,95 * 1 доллар)

Если я потрачу 2 доллара на рекламу, я могу ожидать, что продажи составят 471,78 доллара (продажи = 437,88 + 16,95 * 2 доллара)

Если я потрачу 3 доллара на рекламу, я могу рассчитывать, что продажи составят 488,73 доллара (продажи = 437,88 + 16,95 * 3 доллара)

3,4 Что означает перехват?

Перехват 437,88 означает, что продажи составят 437,88, если мы не будем тратить деньги на рекламу. Это связано с тем, что, когда расходы на рекламу равны нулю, они (ноль) умножаются на наклон или b (здесь 16,95), в результате получается ноль. Это добавляется к вашему перехвату, оставляя вам только перехватывающее значение 437,88.

Если я потрачу 0 долларов на рекламу, я могу ожидать, что продажи составят 437,88 долларов (продажи = 437,88 + 16,95 * 0 долларов)

3.5 На что указывают коэффициенты?

Коэффициент b (здесь 16,95) указывает, что на каждое увеличение единицы в переменной X (здесь расходы на телевидение) переменная Y (здесь продажи ) изменится на величину коэффициента 16.95. В простом линейном уравнении это также называется наклоном прямой.

3.6 Что обозначают знаки коэффициентов?

Если коэффициент независимой переменная X положительна, это означает, что при каждом увеличении независимой переменной на единицу, зависимая переменная будет увеличиваться на значение коэффициента. Это также означает, что на каждую единицу уменьшения независимой переменной, зависимая переменная будет уменьшаться на значение коэффициента.

С другой стороны, если коэффициент независимой переменной X отрицательный, для каждая единица увеличения независимой переменной, зависимая переменная будет уменьшаться на значение коэффициента. Соответственно, на каждую единицу уменьшения независимой переменной, зависимая переменная будет увеличиваться на значение коэффициента.

В нашем примере знак коэффициента b положительный (здесь он равен +16,95). ). Таким образом, при увеличении расходов на ТВ на 1 доллар можно ожидать увеличения продаж на 16,95 доллара (значение коэффициента).

В этом примере есть только одна независимая переменная.. Однако у вас будет более одной независимой переменной в множественной регрессии. Таким образом, вы увидите коэффициент для каждой независимой переменной в выходных данных множественной регрессии. Интерпретация этих коэффициентов будет такой же.

Глава 4: Подробнее об уравнении регрессии

В предыдущей главе мы поняли, что такое уравнение регрессии и как хороший или надежный регресс. Мы также узнали, как найти точку пересечения и коэффициенты уравнения регрессии.

В этой главе мы более подробно рассмотрим компоненты уравнения регрессии.

4.1 Стандартная ошибка коэффициентов

Стандартная ошибка коэффициентов отражает изменчивость коэффициента. Он отражает среднюю ошибку регрессионной модели. Другими словами, когда мы используем регрессионную модель для оценки коэффициента независимой переменной, стандартная ошибка показывает, насколько ошибочным может быть оценочный коэффициент, если вы используете его для прогнозов. Опять же, поскольку стандартная ошибка отражает, насколько вы могли ошибаться, мы хотим, чтобы стандартная ошибка была небольшой по отношению к ее коэффициенту.

Стандартная ошибка используется, чтобы помочь вам получить доверительный интервал для вашего значения коэффициентов. Это обсуждается далее в разделе __.

Мы замечаем, что стандартная ошибка нашей переменной 2.16 мала по сравнению с ее коэффициентом 16.95.

4.2 t-статистика или t -value

Значение t или статистика t — это не число, на которое мы рекомендуем вам сосредоточиться. Он вычисляется путем деления коэффициента на его стандартную ошибку, и его трудно интерпретировать самостоятельно. Если вы подумаете о коэффициенте и его стандартной ошибке, вы увидите, что чем больше коэффициент по сравнению со стандартной ошибкой, тем надежнее он будет. Это будет означать, что чем больше значение t, тем надежнее коэффициент.

Хотя значение t само по себе не очень полезно, оно необходимо для вычисления очень полезного числа — значения P. Значение t используется для поиска t-распределения Стьюдента для определения значения P. Распределение Стьюдента показывает, как будет вести себя среднее значение с учетом размера вашей выборки. Значение P — действительно важное и полезное число, и оно будет обсуждено далее.

4.3 P-значения

Значение P указывает вероятность того, что оцененный коэффициент неверен или ненадежный. Лучший способ понять значение P — это «вероятность ошибки». Мы хотим, чтобы значение P было как можно меньше.

Насколько маленьким должно быть значение P, зависит от уровня отсечения, который мы выбираем отдельно (также называемого уровнем значимости). Выбранное ограничение зависит от характера исследуемых данных и различных типов ошибок. Уровень отсечения или значимости обычно составляет 1%, 5% или 10%. Обычно используется точка отсечения 5%.

С точки зрения статистики, значение P — это вероятность получения результата, такого же или более экстремального, чем тот, который вы получили при случайном распределении. Другими словами, значение P — это вероятность того, что коэффициент независимой переменной в нашей регрессионной модели ненадежен или что коэффициент в наших выходных данных регрессии фактически равен нулю! Значение P вычисляется на основе статистики t с использованием таблицы распределения t Стьюдента.

Вы заметите, что значение P переменной расходов на ТВ в нашем примере очень мало. Мы не видим числа после четырех десятичных знаков. Это указывает на то, что это «значимая переменная» и что расходы на телевидение, вероятно, повлияют на показатели продаж.

Обратите внимание, что значение P аналогично интерпретации значения F, которое обсуждалось ранее в этой книге. Ключевое отличие состоит в том, что значение P применяется к каждому соответствующему коэффициенту, а значение F применяется ко всей модели в целом.

4.4 95% доверительный интервал

Коэффициент независимой переменной — это оценка влияния этой переменной на изучаемую переменную. Это оценивается на основе выборки, которая была проанализирована в нашем регрессионном анализе. Доверительный интервал 95% вашего коэффициента дает вам диапазон, в который попадает реальное значение коэффициента, который вы оцениваете. 95% доверительный интервал также отображается как нижний 95% и верхний 95% во многих пакетах.

Вы можете быть на 95% уверены, что реальное базовое значение коэффициента, который вы оцениваете, попадает где-то в этот 95% доверительный интервал. Итак, если интервал не содержит 0, ваше значение P будет .05 или меньше.

Мы видим, что нижний 95% в нашем примере равен 12,31, а верхний 95% равен 21,58. Это означает, что, хотя мы считаем, что коэффициент для телеобъявлений в нашем примере составляет 16,95, существует 95% -ная вероятность, что он может быть от 12,31 до 21,58. Поскольку этот диапазон не включает ноль, мы уверены, что расходы на телевизионную рекламу действительно повлияют на наши результаты продаж.

Глава 5: Что следует помнить и предупреждения

5.1 Причинно-следственная связь против корреляции

Анализ данных с использованием метода регрессионного анализа оценивает только взаимосвязь между изучаемыми переменными. Это не доказывает причинно-следственную связь. Другими словами, оценивается только аспект корреляции.

Причинность определяется как акт причинения чего-либо. Причинная связь возникает, когда изменение одной переменной вызывает изменение другой переменной. Это также называется причинно-следственной связью.

Причинная связь не доказана и не оценена в регрессионном анализе. Для доказательства причинно-следственной связи требуются контролируемые исследования, в которых группы разделены на две группы с различным лечением.

5.2 Человек с синдромом молотка

Пожалуйста, помните, что регрессионный анализ является лишь одним из множество инструментов для анализа данных. Вы можете попасть в ловушку, обозначенную старой поговоркой: «Для человека, у которого есть только молоток, каждая проблема выглядит как гвоздь». если вы знаете только регрессионный анализ при анализе данных. Регрессионный анализ подходит во многих ситуациях, но не во всех ситуациях анализа данных.

5.3. Пример

Помните, что регрессионный анализ основан на выборочных данных и отражает взаимосвязь данных в образец. Мы предполагаем, что выборка отражает истинную совокупность, но это не обязательно.

5.4 Выбросы

Регрессионный анализ чувствителен к выбросам. Анализируемые данные должны быть очищены от выбросов.

5.5. Основные предположения

Регрессионный анализ основан на четырех основных предположениях. Если эти предположения не верны, регрессионный анализ не будет надежным.

  • Линейная связь
  • Многомерная нормальность
  • Нет или мало мультиколлинеарности
  • Нет автокорреляции
  • Гомоскедастичность

Выбрать ресурсы по регрессии

Вот несколько ресурсов, которые помогут вам узнать больше об интерпретации данных регрессионного анализа.

  • Учебник по регрессии от PennState
  • Подробнее в тест F из блога Minitab.
  • Другой пример интерпретации результатов регрессии
  • Гипотеза регрессии и интерпретация значения F

Примечание. Когда вы посмотрите на результат регрессии в R, вы увидите сводку остатков. Интерпретация остатков становится легкой. По умолчанию среднее значение остатков равно нулю. Медиана не должна быть далека от нуля, а минимум и максимум должны быть примерно равными по абсолютной величине в идеальном сценарии.



Объяснение результатов регрессионного анализа Excel

Предыдущая статья: Практическое руководство по регрессионному анализу в Excel 2013

Посмотрите видео или прочтите следующие шаги:

Объяснение результатов регрессионного анализа Excel

В предыдущей статье я объяснил, как выполнять регрессионный анализ Excel. После того, как вы выполните все шаги, Excel выдаст результаты, которые будут выглядеть примерно так:

Объяснение выходных данных регрессионного анализа Excel: множественная регрессия

Вот разбивка того, что означает каждая часть информации в выходных данных:

РЕЗУЛЬТАТ АНАЛИЗА РЕГРЕССИИ EXCEL ЧАСТЬ ПЕРВАЯ: СТАТИСТИКА РЕГРЕССИИ

Это критерии «согласия». Они говорят вам, насколько хорошо вычисленное уравнение линейной регрессии соответствует вашим данным.

  1. Multiple R. Это коэффициент корреляции. Это говорит вам, насколько сильна линейная связь. Например, значение 1 означает идеальную положительную связь, а значение 0 означает отсутствие связи вообще. Это квадратный корень из r в квадрате (см. № 2).
  2. R в квадрате . Это r 2 , коэффициент детерминации. Он сообщает вам, сколько точек приходится на линию регрессии.. например, 80% означает, что 80% вариации значений y вокруг среднего объясняются значениями x. Другими словами, 80% значений соответствуют модели.
  3. Скорректированный R-квадрат. Скорректированный R-квадрат корректирует количество терминов в модели. Вы захотите использовать это вместо # 2, если у вас более одной переменной x.
  4. Стандартная ошибка регрессии: оценка стандартного отклонения ошибки μ. Это не то же самое, что стандартная ошибка в описательной статистике! Стандартная ошибка регрессии — это точность измерения коэффициента регрессии; если коэффициент большой по сравнению со стандартной ошибкой, то коэффициент, вероятно, отличается от 0.
  5. Наблюдения . Количество наблюдений в выборке.

ВЫВОД РЕГРЕССИОННОГО АНАЛИЗА EXCEL, ОБЪЯСНЕННАЯ ЧАСТЬ ВТОРАЯ: ANOVA

  1. SS = Сумма квадратов.
  2. MS регрессии = SS регрессии/степени свободы регрессии.
  3. Остаточная MS = среднеквадратичная ошибка (остаточная SS/остаточная степень свободы).
  4. F: общий F-тест для нулевой гипотезы.
  5. Значимость F: значимость, связанная с P-значением.

Вторая часть вывода вы получаете в Excel редко, по сравнению с выходными данными регрессии выше. Он разбивает сумму квадратов на отдельные компоненты (см .: Остаточная сумма квадратов), поэтому использовать статистику каким-либо значимым образом может быть труднее. Если вы просто выполняете базовую линейную регрессию (и не хотите вникать в отдельные компоненты), вы можете пропустить этот раздел вывода.
Например, для вычисления R 2 из этой таблицы вы должны использовать следующую формулу:
R 2 = 1 — остаточная сумма квадратов (SS Residual)/Общая сумма квадратов (SS Total).
В приведенной выше таблице остаточная сумма квадратов = 0,0366, а общая сумма квадратов составляет 0,75, поэтому:
R 2 = 1 — 0,0366/0,75 = 0,9817

АНАЛИЗ РЕГРЕССИИ EXCEL ЧАСТЬ ТРЕТЬЯ: ИНТЕРПРЕТНЫЕ КОЭФФИЦИЕНТЫ РЕГРЕССИИ

Этот раздел таблицы дает вам очень конкретную информацию о компонентах, которые вы выбрали для анализа данных. Поэтому в первом столбце (в данном случае «Дом/Квадратные футы») будет указано иное, в зависимости от того, какие данные вы вводите в рабочий лист. Например, это может быть «рост», «доход» или любые другие переменные, которые вы выберете.

Столбцы:

  1. Коэффициент: дает вам оценка методом наименьших квадратов.
  2. Стандартная ошибка: оценка стандартной ошибки методом наименьших квадратов.
  3. T-статистика: T-статистика для нулевой гипотезы и альтернативной гипотезы .
  4. Значение P: дает значение p для проверки гипотезы.
  5. Нижние 95%: нижняя граница доверительного интервала.
  6. Верхний 95%: верхняя граница доверительного интервала..

Самая полезная часть этого раздела заключается в том, что он дает вам уравнение линейной регрессии:
y = mx + b.
y = slope * x + перехватчик.
Для приведенной выше таблицы уравнение будет примерно таким:
y = 3,14 — 0,65X1 + 0,024X2.

Будьте внимательны при интерпретации определенных терминов

Будьте осторожны при интерпретации регрессионных моделей, содержащих определенные термины; Невозможно сделать вывод, глядя только на линейный член (главный эффект). Например:

  • Значительный полиномиальный член может затруднить анализ результатов, потому что изменение переменной-предиктора меняется в зависимости от значения предиктора.
  • Значительный термин взаимодействия указывает на то, что изменение связано со значением другого предиктора.

Ссылки

Кэмерон. Множественная регрессия Excel. http://cameron.econ.ucdavis.edu/excel/ex61multipleregression.html
Minitab. Как интерпретировать результаты регрессионного анализа: P-значения и коэффициенты.
Салкинд, Н. (2015). Статистика Excel: Краткое руководство, третье издание. Публикации SAGE.

CITE THIS AS:
Стефани Глен . «Объяснение результатов регрессионного анализа Excel» от StatisticsHowTo.com : элементарная статистика для всех нас! https://www.statisticshowto.com/probability-and-statistics/excel-statistics/excel-regression-analysis-output-explained/

—————- ————————————————— ————

Нужна помощь с домашним заданием или контрольным вопросом? С помощью Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области. Ваши первые 30 минут с репетитором Chegg бесплатны!

Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице Facebook .

Оцените статью
clickpad.ru
Добавить комментарий