S-p.su

Антикризисные новости
1 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Задачи регрессионного анализа

Регрессионный анализ

Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными.

Последовательность этапов регрессионного анализа

Рассмотрим кратко этапы регрессионного анализа.

Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений.

Определение зависимых и независимых (объясняющих) переменных.

Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель.

Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная).

Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии)

Оценка точности регрессионного анализа.

Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов.

Предсказание неизвестных значений зависимой переменной.

При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, — к другому классу.

Задачи регрессионного анализа

Рассмотрим основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной.

Установление формы зависимости.

Характер и форма зависимости между переменными могут образовывать следующие разновидности регрессии:

положительная линейная регрессия (выражается в равномерном росте функции);

положительная равноускоренно возрастающая регрессия;

положительная равнозамедленно возрастающая регрессия;

отрицательная линейная регрессия (выражается в равномерном падении функции);

отрицательная равноускоренно убывающая регрессия;

отрицательная равнозамедленно убывающая регрессия.

Однако описанные разновидности обычно встречаются не в чистом виде, а в сочетании друг с другом. В таком случае говорят о комбинированных формах регрессии.

Определение функции регрессии.

Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессииопределяется в виде математического уравнения того или иного типа.

Оценка неизвестных значений зависимой переменной.

Решение этой задачи сводится к решению задачи одного из типов:

Оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом решается задача интерполяции.

Оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции.

Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.

Рассмотрим некоторые предположения, на которые опирается регрессионный анализ.

Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа.

Предположение о нормальности остатков. Оно допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммамиостатков.

При использовании регрессионного анализа следует учитывать его основное ограничение. Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей.

Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.

Уравнение регрессии выглядит следующим образом: Y=a+b*X

При помощи этого уравнения переменная Y выражается через константу a и угол наклона прямой (или угловой коэффициент) b, умноженный на значение переменной X. Константу a также называют свободным членом, а угловой коэффициент — коэффициентом регрессии или B-коэффициентом.

В большинстве случав (если не всегда) наблюдается определенный разброс наблюдений относительно регрессионной прямой.

Остаток— это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).

Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис«Пакет анализа»и инструмент анализа «Регрессия». Задаем входные интервалы X и Y. Входной интервал Y — это диапазон зависимых анализируемых данных, он должен включать один столбец. Входной интервал X — это диапазон независимых данных, которые необходимо проанализировать. Число входных диапазонов должно быть не больше 16.

На выходе процедуры в выходном диапазоне получаем отчет, приведенный в таблице 8.3а8.3в.

Читать еще:  Анализ состава и структуры активов организации

Таблица 8.3а. Регрессионная статистика

Основные задачи регрессионного анализа

В силу неоднозначности корреляционной зависимости между Y и X, для изучения влияния независимой переменной на объясняемую переменную используют «усредненные» зависимости, т.е. изучают условное математическое ожидание M[Y|X=x] (математическое ожидание случайной величины, вычисленную в предположении, что переменная X приняла значение x) в зависимости от x. Поскольку при различных значениях будут получаться различные значения условного математического ожидания, то мы будем иметь дело с некой функцией

, (5.1)

которая называется функцией регрессии Y на X.

Отметим, что реальные значения зависимой переменной Y не всегда совпадают с ее условными математическими ожиданиями и могут быть различными при одном и том же значении объясняющей переменной. Поэтому связь между зависимой и объясняющей переменной обычно записывают в виде

, (5.2)

называемое теоретическим уравнением регрессии. Величину e обычно называют случайным отклонением (ошибкой, возмущением). Это слагаемое, которое, по существу, является случайной величиной и указывает на стохастическую суть зависимости.

Возникает вопрос о причинах присутствия в регрессионных моделях случайного отклонения. Среди таких можно отметить следующие.

1. Невключение в модель всех объясняющих переменных. Отсутствие в модели «важных» факторов, оказывающих существенное влияние на результат. Парная регрессия почти всегда является большим упрощением. В действительности существуют и другие факторы, которые не учтены в уравнении (5.2). Проблема состоит ещё и в том, что никогда заранее не известно, какие факторы при создавшихся условиях действительно являются определяющими, а какими можно пренебречь. Здесь уместно отметить, что в ряде случаев учесть непосредственно какой-то фактор нельзя в силу невозможности получения по нему статистических данных. Например, величина сбережений домохозяйств может определяться не только доходами их членов,но и, например, здоровьем последних, информация о котором в цивилизованных странах составляет врачебную тайну и не раскрывается. Кроме того,ряд факторов носит принципиально случайный характер (например, погода), что добавляет неоднозначности при рассмотрении некоторых моделей (например, модель, прогнозирующая объем урожая).

2. Неправильный выбор функциональной формы модели. Из-за слабой изученности исследуемого процесса либо из-за его переменчивости может быть неверно подобрана функция, его моделирующая. Это, безусловно, скажется на отклонении модели от реальности, что отразится па величине случайного отклонения e. Например, производственная функция (Y) одного фактора (X)может моделироваться функцией , хотя должна была использоваться другая модель: , учитывающая закон убывающей эффективности.

3.Агрегирование переменных. Во многих моделях рассматриваются зависимости между факторами, которые сами представляют сложную комбинацию других, более простых переменных. Например,зависимость между урожайностью и количеством внесенных удобрений индивидуальна для различных полей и любая попытка определить зависимость между совокупным урожаем и совокупным внесением удобрений является лишь приближением (аппроксимацией).

4. Ошибки измерений. Какой бы качественной ни была модель, ошибки измерений переменных отразятся на несоответствии модельных значений эмпирическим данным, что также отразится на величине случайного отклонения. В практическом использовании регрессионных методов ошибки измерений представляют наибольшую опасность. Если ошибки спецификации можно уменьшить, изменяя форму модели (вид математической формулы), а ошибки выборки – увеличивая объем исходных данных, то ошибки измерения практически сводят на нет все усилия по количественной оценке связи между признаками. Особенно велика роль ошибок измерения при исследовании на макроуровне. Так, в исследованиях спроса и потребления в качестве объясняющей переменной широко используется «доход на душу населения». Вместе с тем статистическое измерение величины дохода сопряжено с рядом трудностей и не лишено возможных ошибок, например, в результате наличия сокрытых доходов.

Для определения параметров функции регрессии необходимо знать и использовать все значения переменных X и Y генеральной совокупности, что практически невозможно. Основные задачи регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X и Y:

а) установить форму зависимости между переменными;

б) оценить функцию регрессии (т.е. получить наилучшие оценки неизвестных параметров, проверить статистические гипотезы о параметрах модели);

в) проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений);

г) оценить неизвестные значения зависимой переменной (сделать прогноз значений).

Используя выборочные данные можно построить так называемое эмпирическое уравнение регрессии:

, (5.3)

где – оценка условного математического ожидания , – оценка функции регрессии. Следовательно, в конкретном случае

, (5.4)

где отклонение ei – оценка теоретического случайного отклонения ei. Эту величину также называют остатками (residuals).

Решений задачи построения качественного уравнения регрессии, соответствующего эмпирическим данным и целям исследования, является достаточно сложным и многоступенчатым процессом. Его можно разбить на три этапа:

Читать еще:  Анализ сильных и слабых сторон организации

1) выбор формулы уравнения регрессии (спецификация);

2) определение параметров выбранногоуравнения (параметризации);

3) анализ качества уравнения и поверка адекватности уравнения эмпирическим данным, совершенствование уравнения (верификации).

В случае парной регрессия выбор формулы обычно осуществляетсяпо графическому изображению реальных статистических данных в виде точек в декартовой системе координат, которое называется корреляционным полем (диаграммой рассеивания)(см., например, рис. 5.1).

Рис. 5.1

На рис. 5.1 представлены три ситуации.

На графике 5.1, а взаимосвязь между Х и Y близка к линейной, и прямая 1 достаточнохорошо соответствуетэмпирическим точкам. Поэтому в данном случае в качестве зависимости между Х и Y целесообразно выбрать линейную функцию .

На графике 5.1, б реальная взаимосвязь между Х и Y, скорее всего, описывается квадратичной функцией (линия 2). И какую бы мы ни провели прямую (например, линия I), отклонения точек наблюдений от нее будут существенными и неслучайными.

На графике 5.1, в явная взаимосвязь между Х и Y отсутствует. Какую бы мы ни выбрали форму связи, результаты ее спецификации и параметризации (определение коэффициентов уравнения) будут неудачными. В частности, прямые 1 и 2, проведенные через центр «облака» наблюдений и имеющие противоположный наклон, одинаково плохи для того, чтобы делать выводы об ожидаемых значениях переменной Y по значениям переменной X.

Более подробно вопросы спецификации, а также вопросы параметризациии верификации уравнения регрессии, будут обсуждены в следующих лекциях.

Задачи, решаемые корреляционно-регрессионным анализом

Методы стохастического факторного анализа.

Корреляционно-регрессионный анализ. Метод корреляционного и регрессионного (стохастического) анализа широко используется для определения тесноты связи между показателями, не находящимися в функциональной зависимости, т.е. связь, проявляется не в каждом отдельном случае, а в определенной зависимости. С помощью парной корреляции решаются две главные задачи: оставляется модель действующих факторов (уравнение регрессии); дается количественная оценка тесноты связей (коэффициент корреляции).

Матричные модели. Матричные модели представляют собой схематическое отражение экономического явления или процесса с помощью научной абстракции. Наибольшее распространение здесь получил метод анализа «затраты-выпуск», строящийся по шахматной схеме и позволяющий в наиболее компактной форме представить взаимосвязь затрат и результатов производства.

Математическое программирование – это основное средство решения задач по оптимизации производственно-хозяйственной деятельности.

Метод исследования операций направлен на изучение экономических систем, в том числе производственно-хозяйственной деятельности предприятий, с целью определения такого сочетания структурных взаимосвязанных элементов систем, которое в наибольшей степени позволит определить наилучший экономический показатель из ряда возможных.

Теория игр как раздел исследования операций – это теория математических моделей принятия оптимальных решений в условиях неопределенности или конфликта нескольких сторон, имеющих различные интересы.

Корреляционная связь (от англ. corelation — соответствие) является частным случаем статистической связи, при которой изменение среднего значения результативного признака обусловлено изменением значений факторного признака (парная корреляция) или множества факторных признаков (множественная корреляция). Для оценки тесноты связи (связь отсутствует, слабая, умеренная, сильная), определения ее направленности (связь прямая или обратная), а также формы (связь линейная, параболическая, гиперболическая, степенная и т.д.) используется корреляционно-регрессионный метод.

Корреляционно-регрессионный анализ позволяет:

1) количественно измерить тесноту, направление связи (корреляционный анализ),

2) а также установить аналитическое выражение зависимости результата от конкретных факторов при постоянстве остальных действующих на результативный признак факторных признаков (регрессионный анализ).

Таким образом, задачи корреляционного анализа сводятся к:

1) измерению тесноты известной связи между варьирующими признаками,

2) определению неизвестных причинных связей (причинный характер которых должен быть выяснен с помощью теоретического анализа) и

3) оценки факторов, оказывающих наибольшее влияние на результативный признак.

Задачами регрессионного анализа являются:

1) выбор типа модели (формы связи),

2) установление степени влияния независимых переменных на зависимую и

3) определение расчётных значений зависимой переменной (функции регрессии).

Решение всех названных задач приводит к необходимости комплексного использования этих методов.

Каждой основной задаче корреляционно-регрессионного анализа соответствуют его определенные приемами:

1. Измерение тесноты связи между результативным и факторным признаком (признаками). В зависимости от количества влияющих на результат факторов задача решается путем вычисления корреляционного отношения, коэффициентов парной, частной, множественной корреляции или детерминации.

2. Оценка параметров уравнения регрессии, выражающего зависимость средних значений результативного признака от значений факторного признака (признаков). Задача решается путем вычисления коэффициентов регрессии.

3. Определение важнейших факторов, влияющих на результативный признак. Задача решается путем оценки тесноты связи факторов с результативным показателем.

4. Прогнозирование возможных значений результативного признака при задаваемых значениях факторных признаков. Задача решается путем подстановки ожидаемых значений факторов в регрессионное уравнение и вычисления прогнозируемых значений результативного показателя.

Читать еще:  Сущность метода анализ

Исследование корреляционных соотношений имеет огромное значение в анализе хозяйственной деятельности. Это проявляется в том, что значительно углубляется факторный анализ, устанавливаются место и роль каждого фактора в формировании уровня исследуемых показателей, углубляются знания об изучаемых явлениях, определяются закономерности их развития и как итог — точнее обосновываются планы и управленческие решения, более объективно оцениваются итоги деятельности предприятий и более полно определяются внутрихозяйственные резервы.

Не нашли то, что искали? Воспользуйтесь поиском:

Лучшие изречения: Только сон приблежает студента к концу лекции. А чужой храп его отдаляет. 9297 — | 7866 — или читать все.

Математическая статистика

Регрессионный анализ

Задачи регрессионного анализа

Рассмотрим задачу определения значения случайной величины по данным значениям другой величины. Пусть Y – случайная величина, значения которой требуется определить, x – известная величина, которая может представлять собой значение некоторой случайной величины X или заданное значение некоторой переменной. Предположим, что между величинами Y и X имеется статистическая связь, т.е. распределение случайной величины Y зависит от значения x.

С точки зрения математической статистики поставленная задача представляет собой задачу оценивания значения случайной величины Y при данном значении x. Пусть $hat=hat(x)$ – оценка значения случайной величины Y при данном значении x. В связи с тем, что x – фиксированное значение, то оценка $hat$ не является случайной величиной. Случайной величиной является ошибка этой оценки:

В качестве меры точности оценки $hat(x)$ целесообразно использовать математическое ожидание квадрата ошибки $varepsilon (x)$:

Наилучшей оценкой значения случайной величины Y при данном значении x будет оценка, минимизирующая ошибку (2):

Из известного в теории вероятностей равенства

следует, что математическое ожидание квадрата ошибки (1) будет минимальным, если $hat(x)$ будет математическим ожиданием случайной величины Y при данном значении x:

Следовательно, зависимость оценки $hat(x)$ значения случайной величины Y при данном значении x представляет собой регрессию Y на X. Таким образом, оптимальной с точки зрения среднего квадрата ошибки (1) оценкой зависимости Y от x служит регрессия Y на X. В частности, оптимальным прогнозом величины Y по данному значению x будет прогноз по регрессии.

Модель, определяемая регрессией Y на X, называется регрессионной моделью. Построение и исследование регрессионных моделей составляет предмет регрессионного анализа.

Регрессионную модель имеет смысл строить, если априорно или по результатам предварительного анализа выявлено, что между входными и выходными величинами имеется статистическая связь. В терминах регрессионного анализа входные величины называются регрессорами, или предикторами, а выходные переменные — откликами модели.

Ниже перечислены основные задачи регрессионного анализа.

1) Выбор класса функций для описания зависимости откликов модели $<_<1>>. <_>$ от регрессоров $<_<1>>. <_>$.

2) Нахождение оценок неизвестных параметров функции, описывающей зависимость откликов модели $<_<1>>. <_>$ от регрессоров $<_<1>>. <_>$.

3) Статистический анализ найденной зависимости откликов модели $<_<1>>. <_>$ от регрессоров $<_<1>>. <_>$.

4) Предсказание значений откликов модели $<_<1>>. <_>$ по результатам наблюдения регрессоров $<_<1>>. <_>$ на основе найденной зависимости.

Рассмотрим случай одного регрессора X и скалярного отклика Y.

Как показано выше, оптимальной функцией, описывающей зависимость отклика модели Y от регрессора X, является функция регрессии Y на X. При этом возможны следующие ситуации.

1) Вид функции регрессии известен, исходя из априорной информации о наблюдаемых величинах. Например, если известно, что случайные величины X и Y имеют нормальный закон распределения, то уравнение регрессии Y на X (как и X на Y) может быть только линейным.

2) Вид функции регрессии не известен или эта функция слишком сложна. В этой ситуации возможны следующие подходы к определению вида функции регрессии.

а) Исследователь задаёт некоторый ограниченный класс функций Ψ, например, линейные или полиномиальные функции, в котором предлагается искать функцию регрессии. Если этот класс функций не содержит «истинную» функцию регрессии, то минимум среднего квадрата ошибки $varepsilon (x)$ при каждом значении x не может быть обеспечен. На практике ищут оценку зависимости $hat y(x)$ в выбранном классе функций из условия минимума математического ожидания (2) квадрата ошибки $varepsilon (x)$ в рассматриваемой области изменения величины x. Для выбора класса функций, в котором целесообразно искать функцию регрессии, нередко требуется проведение предварительного анализа результатов наблюдений.

б) Функция регрессии оценивается по результатам наблюдений. Такое оценивание основано на расчёте множества условных средних значений наблюдений отклика Y и аппроксимации линии регрессии по рассчитанным точкам.

Ссылка на основную публикацию
Adblock
detector