Про психологию. Учения и методики

Регрессионный анализ заключается. Уравнение регрессии

Современная политическая наука исходит из положения о взаимосвязи всех явлений и процессов в обществе. Невозможно понимание событий и процессов, прогнозирование и управление явлениями политической жизни без изучения связей и зависимостей, существующих в политической сфере жизнедеятельности общества. Одна из наиболее распространенных задач политического исследования состоит в изучении связи между некоторыми наблюдаемыми переменными. Помогает решить эту задачу целый класс статистических приемов анализа, объединенных общим названием «регрессионный анализ» (или, как его еще называют, «корреляционно-регрессионный анализ»). Однако если корреляционный анализ позволяет оценить силу связи между двумя переменными, то с помощью регрессионного анализа можно определить вид этой связи, прогнозировать зависимость значения какой-либо переменной от значения другой переменной.

Для начала вспомним, что такое корреляция. Корреляционным называют важнейший частный случай статистической связи, состоящий в том, что равным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака х закономерным образом изменяется среднее значение признака у, в то время как в каждом отдельном случае значение признака у (с различными вероятностями) может принимать множество различных значений.

Появление в статистике термина «корреляция» (а политология привлекает для решения своих задач достижения статистики, которая, таким образом, является смежной политологии дисциплиной) связано с именем английского биолога и статистика Френсиса Галь- тона, предложившего в XIX в. теоретические основы корреляционно- регрессионного анализа. Термин «корреляция» в науке был известен и ранее. В частности, в палеонтологии еще в XVIII в. его применил французский ученый Жорж Кювье. Он ввел так называемый закон корреляции, при помощи которого по найденным в ходе раскопок останкам животных можно было восстановить их облик.

Известна история, связанная с именем этого ученого и его законом корреляции. Так, в дни университетского праздника студенты, решившие подшутить над известным профессором, натянули на одного студента козлиную шкуру с рогами и копытами. Тот залез в окно спальни Кювье и закричал: «Я тебя съем». Профессор проснулся, посмотрел на силуэт и ответил: «Если у тебя есть рога и копыта, то ты - травоядное животное и съесть меня не можешь. А за незнание закона корреляции получишь двойку». Повернулся на другой бок и уснул. Шутка шуткой, но на этом примере мы наблюдаем частный случай применения множественного корреляционно-регрессионного анализа. Здесь профессор, исходя из знания значений двух наблюдаемых признаков (наличие рогов и копыт), на основании закона корреляции вывел среднее значение третьего признака (класс, к которому относится данное животное - травоядное). В данном случае речь не идет о конкретном значении этой переменной (т.е. данное животное могло принимать различные значения по номинальной шкале - это мог быть и козел, и баран, и бык...).

Теперь перейдем к термину «регрессия». Собственно говоря, он не связан со смыслом тех статистических задач, которые решаются при помощи этого метода. Объяснение термину можно дать только исходя из знания истории развития методов изучения связей между признаками. Одним из первых примеров исследований такого рода была работа статистиков Ф. Гальтона и К. Пирсона, пытавшихся обнаружить закономерность между ростом отцов и их детей по двум наблюдаемым признакам (где X- рост отцов и У- рост детей). В ходе своего исследования они подтвердили начальную гипотезу о том, что в среднем у высоких отцов вырастают в среднем высокие дети. Этот же принцип действует в отношении низких отцов и детей. Однако если бы ученые на этом остановились, то их труды никогда не упоминались бы в учебниках по статистике. Исследователи обнаружили еще одну закономерность в рамках уже упоминавшейся подтвержденной гипотезы. Они доказали, что у очень высоких отцов рождаются в среднем высокие дети, но не сильно отличающиеся ростом от детей, чьи отцы хоть и выше среднего, но не сильно отличаются от средневысокого роста. То же и у отцов с очень маленьким ростом (отклоняющимся от средних показателей низкорослой группы) - их дети в среднем не отличались по росту от сверстников, чьи отцы были просто невысокими. Функцию, описывающую эту закономерность, они и назвали функцией регрессии. После этого исследования все уравнения, описывающие подобные функции и построенные сходным образом, стали именовать уравнениями регрессии.

Регрессионный анализ - один из методов многомерного статистического анализа данных, объединяющий совокупность статистических приемов, предназначенных для изучения или моделирования связей между одной зависимой и несколькими (или одной) независимыми переменными. Зависимая переменная по принятой в статистике традиции называется откликом и обозначается как V Независимые переменные называются предикторами и обозначаются как X. В ходе анализа некоторые переменные окажутся слабо связанными с откликом и будут в конечном счете исключены из анализа. Оставшиеся переменные, связанные с зависимой, могут именоваться еще факторами.

Регрессионный анализ дает возможность предсказать значения одной или нескольких переменных в зависимости от другой переменной (например, склонность к неконвенциональному политическому поведению в зависимости от уровня образования) или нескольких переменных. Рассчитывается он на PC. Для составления регрессионного уравнения, позволяющего измерить степень зависимости контролируемого признака от факторных, необходимо привлечь профессиональных математиков-программистов. Регрессионный анализ может оказать неоценимую услугу при построении прогностических моделей развития политической ситуации, оценке причин социальной напряженности, при проведении теоретических экспериментов. Регрессионный анализ активно используется для изучения влияния на электоральное поведение граждан ряда социально-демографических параметров: пола, возраста, профессии, места проживания, национальности, уровня и характера доходов.

Применительно к регрессионному анализу используют понятия независимой и зависимой переменных. Независимой называют переменную, которая объясняет или служит причиной изменения другой переменной. Зависимой называют переменную, значение которой объясняют воздействием первой переменной. Например, на президентских выборах в 2004 г. определяющими факторами, т.е. независимыми переменными, выступили такие показатели, как стабилизация материального положения населения страны, уровень известности кандидатов и фактор incumbency. В качестве зависимой переменной в данном случае можно считать процент голосов, поданных за кандидатов. Аналогично в паре переменных «возраст избирателя» и «уровень электоральной активности» независимой является первая, зависимой - вторая.

Регрессионный анализ позволяет решать следующие задачи:

  • 1) установить сам факт наличия или отсутствия статистически значимой связи между Ки X;
  • 2) построить наилучшие (в статистическом смысле) оценки функции регрессии;
  • 3) по заданным значениям X построить прогноз для неизвестного У
  • 4) оценить удельный вес влияния каждого фактора X на У и соответственно исключить из модели несущественные признаки;
  • 5) посредством выявления причинных связей между переменными частично управлять значениями Рпутем регулирования величин объясняющих переменных X.

Регрессионный анализ связан с необходимостью выбора взаимно независимых переменных, влияющих на значение исследуемого показателя, определения формы уравнения регрессии, оценки параметров при помощи статистических методов обработки первичных социологических данных. В основе этого вида анализа лежит представление о форме, направлении и тесноте (плотности) взаимосвязи. Различают парную и множественную регрессию в зависимости от количества исследуемых признаков. На практике регрессионный анализ обычно выполняется совместно с корреляционным. Уравнение регрессии описывает числовое соотношение между величинами, выраженное в виде тенденции к возрастанию или убыванию одной переменной величины при возрастании или убывании другой. При этом ра зл и ч а ют л инейную и нелинейную регрессии. При описании политических процессов в равной степени обнаруживаются оба варианта регрессии.

Диаграмма рассеяния для распределения взаимозависимости интереса к статьям на политические темы (У) и образования респондентов (X) представляет собой линейную регрессию (рис. 30).

Рис. 30.

Диаграмма рассеяния для распределения уровня электоральной активности (У) и возраста респондента (А) (условный пример) представляет собой нелинейную регрессию (рис. 31).


Рис. 31.

Для описания взаимосвязи двух признаков (А"и У) в модели парной регрессии используют линейное уравнение

где а, - случайная величина погрешности уравнения при вариации признаков, т.е. отклонение уравнения от «линейности».

Для оценки коэффициентов а и b используют метод наименьших квадратов, предполагающий, что сумма квадратов отклонений каждой точки на диаграмме разброса от линии регрессии должна быть минимальной. Коэффициенты а ч Ь могут быть вычислены при помощи системы уравнений:

Метод оценки наименьших квадратов дает такие оценки коэффициентов а и Ь, при которых прямая проходит через точку с координатами х и у, т.е. имеет место соотношение у = ах + Ь. Графическое изображение уравнения регрессии называется теоретической линией регрессии. При линейной зависимости коэффициент регрессии представляет на графике тангенс угла наклона теоретической линии регрессии к оси абсцисс. Знак при коэффициенте показывает направление связи. Если он больше нуля, то связь прямая, если меньше - обратная.

В приведенном ниже примере из исследования «Политический Петербург-2006» (табл. 56) показана линейная взаимосвязь представлений граждан о степени удовлетворенности своей жизнью в настоящем и ожиданиями изменений качества жизни в будущем. Связь прямая, линейная (стандартизованный коэффициент регрессии равен 0,233, уровень значимости - 0,000). В данном случае коэффициент регрессии невысокий, однако он превышает нижнюю границу статистически значимого показателя (нижнюю границу квадрата статистически значимого показателя коэффициента Пирсона).

Таблица 56

Влияние качества жизни горожан в настоящем на ожидания

(Санкт-Петербург, 2006 г.)

* Зависимая переменная: «Как Вы думаете, как изменится Ваша жизнь в ближайшие 2-3 года?»

В политической жизни значение изучаемой переменной чаше всего одновременно зависит от нескольких признаков. Например, на уровень и характер политической активности одновременно оказывают влияние политический режим государства, политические традиции, особенности политического поведения людей данного района и социальная микрогруппа респондента, его возраст, образование, уровень дохода, политическая ориентация и т.д. В этом случае необходимо воспользоваться уравнением множественной регрессии , которое имеет следующий вид:

где коэффициент Ь. - частный коэффициент регрессии. Он показывает вклад каждой независимой переменной в определение значений независимой (результирующей) переменной. Если частный коэффициент регрессии близок к 0, то можно сделать вывод, что непосредственной связи между независимыми и зависимой переменными нет.

Расчет подобной модели можно выполнить на PC, прибегнув к помоши матричной алгебры. Множественная регрессия позволяет отразить многофакторность социальных связей и уточнить меру воздействия каждого фактора в отдельности и всех вместе на результирующий признак.

Коэффициент, обозначаемый Ь, называется коэффициентом линейной регрессии и показывает силу связи между вариацией факторного признака X и вариацией результативного признака Y Данный коэффициент измеряет силу связи в абсолютных единицах измерения признаков. Однако теснота корреляционной связи признаков может быть выражена и в долях среднего квадратического отклонения результативного признака (такой коэффициент называется коэффициентом корреляции). В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения признаков, а стало быть, он сравним для любых признаков. Обычно считают связь сильной, если / > 0,7, средней тесноты - при 0,5 г 0,5.

Как известно, максимально тесная связь - это связь функциональная, когда каждое индивидуальное значение Y может быть однозначно поставлено в соответствие значению X. Таким образом, чем ближе коэффициент корреляции к 1, тем ближе связь к функциональной. Уровень значимости для регрессионного анализа не должен превышать 0,001.

Коэффициент корреляции долгое время рассматривался как основной показатель тесноты связи признаков. Однако позднее таким показателем стал коэффициент детерминации. Смысл этого коэффициента в следующем - он отражает долю общей дисперсии результирующего признака У , объясняемую дисперсией признака X. Находится он простым возведением в квадрат коэффициента корреляции (изменяющегося от 0 до 1) и в свою очередь для линейной связи отражает долю от 0 (0%) до 1 (100%) значений признака Y, определяемую значениями признака X. Записывается он как I 2 , а в результирующих таблицах регрессионного анализа в пакете SPSS - без квадрата.

Обозначим основные проблемы построения уравнения множественной регрессии.

  • 1. Выбор факторов, включаемых в уравнение регрессии. На этой стадии исследователь сначала составляет общий список основных причин, которые согласно теории обусловливают изучаемое явление. Затем он должен отобрать признаки в уравнение регрессии. Основное правило отбора: факторы, включаемые в анализ, должны как можно меньше коррелировать друг с другом; только в этом случае можно приписать количественную меру воздействия определенному фактору-признаку.
  • 2. Выбор формы уравнения множественной регрессии (на практике чаще пользуются линейной или линейно-логарифмической). Итак, для использования множественной регрессии исследователь сначала должен построить гипотетическую модель влияния нескольких независимых переменных на результирующую. Чтобы полученные результаты были достоверны, необходимо, чтобы модель точно соответствовала реальному процессу, т.е. связь между переменными должна быть линейной, нельзя проигнорировать ни одну значимую независимую переменную, точно так же нельзя включать в анализ ни одну переменную, не имеющую прямого отношения к изучаемому процессу. Кроме того, все измерения переменных должны быть предельно точными.

Из приведенного описания вытекает ряд условий применения этого метода, без соблюдения которых нельзя приступить к самой процедуре множественого регрессионного анализа (МРА). Только соблюдение всех из нижеперечисленных пунктов позволяет корректно осуществлять регрессионный анализ.

При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.

Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.

Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

  1. Определение регрессии . Регрессия - функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.

    С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.

  2. Определение коэффициента регрессии . Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения.
  3. Формула коэффициента регрессии . R у/х = r ху x (σ у / σ x)
    где R у/х - коэффициент регрессии;
    r ху - коэффициент корреляции между признаками х и у;
    (σ у и σ x) - среднеквадратические отклонения признаков x и у.

    В нашем примере ;
    σ х = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
    σ у = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
    Таким образом, R у/х - коэффициент регрессии.
    R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев.

  4. Уравнение регрессии . у = М у + R y/x (х - М x)
    где у - средняя величина признака, которую следует определять при изменении средней величины другого признака (х);
    х - известная средняя величина другого признака;
    R y/x - коэффициент регрессии;
    М х, М у - известные средние величины признаков x и у.

    Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем значении среднемесячной температуры воздуха (х). Так, если х = - 9°, R у/х = 1,8 заболеваний, М х = -7°, М у = 20 заболеваний, то у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
    Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у).

  5. Назначение уравнения регрессии . Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину (у) одного признака, если меняется величина (х) другого признака. По этим данным строится график - линия регрессии , по которой можно определить среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.
  6. Сигма регрессии (формула) .
    где σ Rу/х - сигма (среднеквадратическое отклонение) регрессии;
    σ у - среднеквадратическое отклонение признака у;
    r ху - коэффициент корреляции между признаками х и у.

    Так, если σ у - среднеквадратическое отклонение числа простудных заболеваний = 8,65; r ху - коэффициент корреляции между числом простудных заболеваний (у) и среднемесячной температурой воздуха в осенне-зимний период (х) равен - 0,96, то

  7. Назначение сигмы регрессии . Дает характеристику меры разнообразия результативного признака (у).

    Например, характеризует разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осеннне-зимний период. Так, среднее число простудных заболеваний при температуре воздуха х 1 = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 заболеваний.
    При х 2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.

    Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.

  8. Данные, необходимые для расчета и графического изображения шкалы регрессии
    • коэффициент регрессии - R у/х;
    • уравнение регрессии - у = М у + R у/х (х-М x);
    • сигма регрессии - σ Rx/y
  9. Последовательность расчетов и графического изображения шкалы регрессии .
    • определить коэффициент регрессии по формуле (см. п. 3). Например, следует определить, насколько в среднем будет меняться масса тела (в определенном возрасте в зависимости от пола), если средний рост изменится на 1 см.
    • по формуле уравнения регрессии (см п. 4) определить, какой будет в среднем, например, масса тела (у, у 2 , у 3 ...)* для определеного значения роста (х, х 2 , х 3 ...).
      ________________
      * Величину "у" следует рассчитывать не менее чем для трех известных значений "х".

      При этом средние значения массы тела и роста (М х, и М у) для определенного возраста и пола известны

    • вычислить сигму регрессии, зная соответствующие величины σ у и r ху и подставляя их значения в формулу (см. п. 6).
    • на основании известных значений х 1 , х 2 , х 3 и соответствующих им средних значений у 1 , у 2 у 3 , а также наименьших (у - σ rу/х)и наибольших (у + σ rу/х) значений (у) построить шкалу регрессии.

      Для графического изображения шкалы регрессии на графике сначала отмечаются значения х, х 2 , х 3 (ось ординат), т.е. строится линия регрессии, например зависимости массы тела (у) от роста (х).

      Затем в соответствующих точках у 1 , y 2 , y 3 отмечаются числовые значения сигмы регрессии, т.е. на графике находят наименьшее и наибольшее значения у 1 , y 2 , y 3 .

  10. Практическое использование шкалы регрессии . Разрабатываются нормативные шкалы и стандарты, в частности по физическому развитию. По стандартной шкале можно дать индивидуальную оценку развития детей. При этом физическое развитие оценивается как гармоничное, если, например, при определенном росте масса тела ребенка находится в пределах одной сигмы регрессии к средней расчетной единице массы тела - (у) для данного роста (x) (у ± 1 σ Ry/x).

    Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у ± 2 σ Ry/x)

    Физическое развитие будет резко дисгармоничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы регрессии (у ± 3 σ Ry/x).

По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице.

Требуется:

  • рассчитать коэффициент регрессии;
  • по уравнению регрессии определить, какой будет ожидаемая масса тела мальчиков 5 лет при росте, равном х1 = 100 см, х2 = 110 см, х3= 120 см;
  • рассчитать сигму регрессии, построить шкалу регрессии, результаты ее решения представить графически;
  • сделать соответствующие выводы.

Условие задачи и результаты ее решения представлены в сводной таблице.

Таблица 1

Условия задачи Pезультаты решения задачи
уравнение регрессии сигма регрессии шкала регрессии (ожидаемая масса тела (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Рост (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Масса тела (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Решение .

Вывод. Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.

  1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
  2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

Регрессионный анализ является одним из самых востребованных методов статистического исследования. С его помощью можно установить степень влияния независимых величин на зависимую переменную. В функционале Microsoft Excel имеются инструменты, предназначенные для проведения подобного вида анализа. Давайте разберем, что они собой представляют и как ими пользоваться.

Но, для того, чтобы использовать функцию, позволяющую провести регрессионный анализ, прежде всего, нужно активировать Пакет анализа. Только тогда необходимые для этой процедуры инструменты появятся на ленте Эксель.


Теперь, когда мы перейдем во вкладку «Данные» , на ленте в блоке инструментов «Анализ» мы увидим новую кнопку – «Анализ данных» .

Виды регрессионного анализа

Существует несколько видов регрессий:

  • параболическая;
  • степенная;
  • логарифмическая;
  • экспоненциальная;
  • показательная;
  • гиперболическая;
  • линейная регрессия.

О выполнении последнего вида регрессионного анализа в Экселе мы подробнее поговорим далее.

Линейная регрессия в программе Excel

Внизу, в качестве примера, представлена таблица, в которой указана среднесуточная температура воздуха на улице, и количество покупателей магазина за соответствующий рабочий день. Давайте выясним при помощи регрессионного анализа, как именно погодные условия в виде температуры воздуха могут повлиять на посещаемость торгового заведения.

Общее уравнение регрессии линейного вида выглядит следующим образом: У = а0 + а1х1 +…+акхк. В этой формуле Y означает переменную, влияние факторов на которую мы пытаемся изучить. В нашем случае, это количество покупателей. Значение x – это различные факторы, влияющие на переменную. Параметры a являются коэффициентами регрессии. То есть, именно они определяют значимость того или иного фактора. Индекс k обозначает общее количество этих самых факторов.


Разбор результатов анализа

Результаты регрессионного анализа выводятся в виде таблицы в том месте, которое указано в настройках.

Одним из основных показателей является R-квадрат . В нем указывается качество модели. В нашем случае данный коэффициент равен 0,705 или около 70,5%. Это приемлемый уровень качества. Зависимость менее 0,5 является плохой.

Ещё один важный показатель расположен в ячейке на пересечении строки «Y-пересечение» и столбца «Коэффициенты» . Тут указывается какое значение будет у Y, а в нашем случае, это количество покупателей, при всех остальных факторах равных нулю. В этой таблице данное значение равно 58,04.

Значение на пересечении граф «Переменная X1» и «Коэффициенты» показывает уровень зависимости Y от X. В нашем случае — это уровень зависимости количества клиентов магазина от температуры. Коэффициент 1,31 считается довольно высоким показателем влияния.

Как видим, с помощью программы Microsoft Excel довольно просто составить таблицу регрессионного анализа. Но, работать с полученными на выходе данными, и понимать их суть, сможет только подготовленный человек.

В результате изучения материала главы 4 обучающийся должен:

знать

  • основные понятия регрессионного анализа;
  • методы оценивания и свойства оценок метода наименьших квадратов;
  • основные правила проверки значимости и интервального оценивания уравнения и коэффициентов регрессии;

уметь

  • находить по выборочным данным оценки параметров двумерной и множественной моделей уравнений регрессии, анализировать их свойства;
  • проверять значимость уравнения и коэффициентов регрессии;
  • находить интервальные оценки значимых параметров;

владеть

  • навыками статистического оценивания параметров двумерного и множественного уравнения регрессии; навыками проверки адекватности регрессионных моделей;
  • навыками получения уравнения регрессии со всеми значимыми коэффициентами с использованием аналитического программного обеспечения.

Основные понятия

После проведения корреляционного анализа, когда выявлено наличие статистически значимых связей между переменными и оценена степень их тесноты, обычно переходят к математическому описанию вида зависимостей с использованием методов регрессионного анализа. С этой целью подбирают класс функций, связывающий результативный показатель у и аргументы„ вычисляют оценки параметров уравнения связи и анализируют точность полученного уравнения .

Функция|, описывающая зависимость условного среднего значения результативного признака у от заданных значений аргументов, называется уравнением регрессии.

Термин "регрессия" (от лат. regression – отступление, возврат к чему- либо) введен английским психологом и антропологом Ф. Гальтоном и связан с одним из его первых примеров, в котором Гальтон, обрабатывая статистические данные, связанные с вопросом о наследственности роста, нашел, что если рост отцов отклоняется от среднего роста всех отцов на х дюймов, то рост их сыновей отклоняется от среднего роста всех сыновей меньше, чем на x дюймов. Выявленная тенденция была названа регрессией к среднему состоянию.

Термин "регрессия" широко используется в статистической литературе, хотя во многих случаях он недостаточно точно характеризует статистическую зависимость.

Для точного описания уравнения регрессии необходимо знать условный закон распределения результативного показателя у. В статистической практике такую информацию получить обычно не удается, поэтому ограничиваются поиском подходящих аппроксимаций для функции f(x u х 2,.... л*), основанных на предварительном содержательном анализе явления или на исходных статистических данных.

В рамках отдельных модельных допущений о типе распределения вектора показателей <) может быть получен общий вид уравнения регрессии , где. Например, в предположении о том, что исследуемая совокупность показателей подчиняется ()-мерному нормальному закону распределения с вектором математических ожиданий

Где, и ковариационной матрицей,

где– дисперсия у,

Уравнение регрессии (условное математическое ожидание) имеет вид

Таким образом, если многомерная случайная величина ()

подчиняется ()-мерному нормальному закону распределения, то уравнение регрессии результативного показателя у по объясняющим переменнымимеет линейный по х вид.

Однако в статистической практике обычно приходится ограничиваться поиском подходящих аппроксимаций для неизвестной истинной функции регрессии f(x), так как исследователь не располагает точным знанием условного закона распределения вероятностей анализируемого результативного показателя у при заданных значениях аргументов х.

Рассмотрим взаимоотношение между истинной , модельнойи оценкой регрессии . Пусть результативный показатель у связан с аргументом х соотношением

где– случайная величина, имеющая нормальный закон распределения, причеми. Истинная функция регрессии в этом случае имеет вид

Предположим, что точный вид истинного уравнения регрессии нам неизвестен, но мы располагаем девятью наблюдениями над двумерной случайной величиной, связанной соотношениеми представленной на рис. 4.1.

Рис. 4.1. Взаимное расположение истинной f(x) и теоретической уы модели регрессии

Расположение точек на рис. 4.1 позволяет ограничиться классом линейных зависимостей вида

С помощью метода наименьших квадратов найдем оценкууравнения регрессии.

Для сравнения на рис. 4.1 приводятся графики истинной функции регрессиии теоретической аппроксимирующей функции регрессии. К последней сходится по вероятности оценка уравнения регрессии уы при неограниченном увеличении объема выборки ().

Поскольку мы вместо истинной функции регрессии ошибочно выбрали линейную функцию регрессии, что, к сожалению, достаточно часто встречается в практике статистических исследований, то наши статистические выводы и оценки не будут обладать свойством состоятельности, т.е. так бы мы ни увеличивали объем наблюдений, наша выборочная оценкане будет сходиться к истинной функции регрессии

Если бы мы правильно выбрали класс функций регрессии, то неточность в описании с помощью уы объяснялась бы только ограниченностью выборки и, следовательно, она могла бы быть сделана сколько угодно малой при

С целью наилучшего восстановления по исходным статистическим данным условного значения результативного показателяи неизвестной функции регрессии наиболее часто используют следующие критерии адекватности функции потерь .

1. Метод наименьших квадратов, согласно которому минимизируется квадрат отклонения наблюдаемых значений результативного показателя, , от модельных значений , где коэффициенты уравнения регрессии;– значения вектора аргументов в "-М наблюдении:

Решается задача отыскания оценкивектора. Получаемая регрессия называется средней квадратической.

2. Метод наименьших модулей , согласно которому минимизируется сумма абсолютных отклонений наблюдаемых значений результативного показателя от модульных значений, т.е.

Получаемая регрессия называется среднеабсолютной (медианной).

3. Метод минимакса сводится к минимизации максимума модуля отклонения наблюдаемого значения результативного показателя у, от модельного значения, т.е.

Получаемая при этом регрессия называется минимаксной.

В практических приложениях часто встречаются задачи, в которых изучается случайная величина у, зависящая от некоторого множества переменныхи неизвестных параметров. Будем рассматривать () как (k + 1)-мерную генеральную совокупность, из которой взята случайная выборка объемом п, где () результат /-го наблюдения,. Требуется по результатам наблюдений оценить неизвестные параметры. Описанная выше задача относится к задачам регрессионного анализа.

Регрессионным анализом называют метод статистического анализа зависимости случайной величины у от переменных, рассматриваемых в регрессионном анализе как неслучайные величины, независимо от истинного закона распределения

Регрессионный анализ

Регрессио́нный (линейный ) анализ - статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные - критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Ложная корреляция ), а не причинно-следственные отношения.

Цели регрессионного анализа

  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
  2. Предсказание значения зависимой переменной с помощью независимой(-ых)
  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть , - случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений определено условное математическое ожидание

(уравнение регрессии в общем виде),

то функция называется регрессией величины Y по величинам , а её график - линией регрессии по , или уравнением регрессии .

Зависимость от проявляется в изменении средних значений Y при изменении . Хотя при каждом фиксированном наборе значений величина остаётся случайной величиной с определённым рассеянием.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение Y при изменении , используется средняя величина дисперсии Y при разных наборах значений (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов , когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

(M - объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки :

Условие минимума функции невязки:

Полученная система является системой линейных уравнений с неизвестными

Если представить свободные члены левой части уравнений матрицей

а коэффициенты при неизвестных в правой части матрицей

то получаем матричное уравнение: , которое легко решается методом Гаусса . Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса−Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators) − наилучшие линейные несмещенные оценки.

Интерпретация параметров регрессии

Параметры являются частными коэффициентами корреляции; интерпретируется как доля дисперсии Y, объяснённая , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида , , свидетельствующее о наличии взаимодействий между признаками , и т. д (см. Мультиколлинеарность).

См. также

Ссылки

  • www.kgafk.ru - Лекция на тему «Регрессионный анализ»
  • www.basegroup.ru - методы отбора переменных в регрессионные модели

Литература

  • Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. - 3-е изд. - М .: «Диалектика», 2007. - С. 912. - ISBN 0-471-17082-8
  • Устойчивые методы оценивания статистических моделей: Монография. - К. : ПП «Санспарель», 2005. - С. 504. - ISBN 966-96574-0-7 , УДК: 519.237.5:515.126.2, ББК 22.172+22.152
  • Радченко Станислав Григорьевич, Методология регрессионного анализа: Монография. - К. : "Корнийчук", 2011. - С. 376. - ISBN 978-966-7599-72-0

Wikimedia Foundation . 2010 .