Нелинейная регрессия. Парабола второго порядка

Регрессионный и корреляционный анализ – статистические методы исследования. Это наиболее распространенные способы показать зависимость какого-либо параметра от одной или нескольких независимых переменных.

Ниже на конкретных практических примерах рассмотрим эти два очень популярные в среде экономистов анализа. А также приведем пример получения результатов при их объединении.

Регрессионный анализ в Excel

Показывает влияние одних значений (самостоятельных, независимых) на зависимую переменную. К примеру, как зависит количество экономически активного населения от числа предприятий, величины заработной платы и др. параметров. Или: как влияют иностранные инвестиции, цены на энергоресурсы и др. на уровень ВВП.

Результат анализа позволяет выделять приоритеты. И основываясь на главных факторах, прогнозировать, планировать развитие приоритетных направлений, принимать управленческие решения.

Регрессия бывает:

  • линейной (у = а + bx);
  • параболической (y = a + bx + cx 2);
  • экспоненциальной (y = a * exp(bx));
  • степенной (y = a*x^b);
  • гиперболической (y = b/x + a);
  • логарифмической (y = b * 1n(x) + a);
  • показательной (y = a * b^x).

Рассмотрим на примере построение регрессионной модели в Excel и интерпретацию результатов. Возьмем линейный тип регрессии.

Задача. На 6 предприятиях была проанализирована среднемесячная заработная плата и количество уволившихся сотрудников. Необходимо определить зависимость числа уволившихся сотрудников от средней зарплаты.

Модель линейной регрессии имеет следующий вид:

У = а 0 + а 1 х 1 +…+а к х к.

Где а – коэффициенты регрессии, х – влияющие переменные, к – число факторов.

В нашем примере в качестве У выступает показатель уволившихся работников. Влияющий фактор – заработная плата (х).

В Excel существуют встроенные функции, с помощью которых можно рассчитать параметры модели линейной регрессии. Но быстрее это сделает надстройка «Пакет анализа».

Активируем мощный аналитический инструмент:

После активации надстройка будет доступна на вкладке «Данные».

Теперь займемся непосредственно регрессионным анализом.



В первую очередь обращаем внимание на R-квадрат и коэффициенты.

R-квадрат – коэффициент детерминации. В нашем примере – 0,755, или 75,5%. Это означает, что расчетные параметры модели на 75,5% объясняют зависимость между изучаемыми параметрами. Чем выше коэффициент детерминации, тем качественнее модель. Хорошо – выше 0,8. Плохо – меньше 0,5 (такой анализ вряд ли можно считать резонным). В нашем примере – «неплохо».

Коэффициент 64,1428 показывает, каким будет Y, если все переменные в рассматриваемой модели будут равны 0. То есть на значение анализируемого параметра влияют и другие факторы, не описанные в модели.

Коэффициент -0,16285 показывает весомость переменной Х на Y. То есть среднемесячная заработная плата в пределах данной модели влияет на количество уволившихся с весом -0,16285 (это небольшая степень влияния). Знак «-» указывает на отрицательное влияние: чем больше зарплата, тем меньше уволившихся. Что справедливо.



Корреляционный анализ в Excel

Корреляционный анализ помогает установить, есть ли между показателями в одной или двух выборках связь. Например, между временем работы станка и стоимостью ремонта, ценой техники и продолжительностью эксплуатации, ростом и весом детей и т.д.

Если связь имеется, то влечет ли увеличение одного параметра повышение (положительная корреляция) либо уменьшение (отрицательная) другого. Корреляционный анализ помогает аналитику определиться, можно ли по величине одного показателя предсказать возможное значение другого.

Коэффициент корреляции обозначается r. Варьируется в пределах от +1 до -1. Классификация корреляционных связей для разных сфер будет отличаться. При значении коэффициента 0 линейной зависимости между выборками не существует.

Рассмотрим, как с помощью средств Excel найти коэффициент корреляции.

Для нахождения парных коэффициентов применяется функция КОРРЕЛ.

Задача: Определить, есть ли взаимосвязь между временем работы токарного станка и стоимостью его обслуживания.

Ставим курсор в любую ячейку и нажимаем кнопку fx.

  1. В категории «Статистические» выбираем функцию КОРРЕЛ.
  2. Аргумент «Массив 1» - первый диапазон значений – время работы станка: А2:А14.
  3. Аргумент «Массив 2» - второй диапазон значений – стоимость ремонта: В2:В14. Жмем ОК.

Чтобы определить тип связи, нужно посмотреть абсолютное число коэффициента (для каждой сферы деятельности есть своя шкала).

Для корреляционного анализа нескольких параметров (более 2) удобнее применять «Анализ данных» (надстройка «Пакет анализа»). В списке нужно выбрать корреляцию и обозначить массив. Все.

Полученные коэффициенты отобразятся в корреляционной матрице. Наподобие такой:

Корреляционно-регрессионный анализ

На практике эти две методики часто применяются вместе.

Пример:


Теперь стали видны и данные регрессионного анализа.

Лабораторная работа

Прогнозирование экономических процессов
с помощью табличного процессора Excel.

Требования к содержанию, оформлению и порядку выполнения

Для выполнения лабораторной работы необходимо создать новую рабочую книгу Excel под именем «Ваша фамилия, Лабораторная работа №1, Вариант №_» (например: «Иванов И.П. Лабораторная работа №1»Вариант №4).

Перед выполнением лабораторной работы изучите теоретическую часть и методику выполнения заданий.

Задания необходимо выполнить и оформить согласно своему варианту . Рабочие листы рабочей книги должны быть именованы Задание1, Задание2. Результаты выполнения заданий занести в файл отчета.

Варианты лабораторной работы распределяются согласно номеру № в списке группы см. таблицу

Вар. Вар. Вар. Вар. Вар. Вар. Вар.

После выполнения лабораторной работы ответьте на контрольные вопросы. Ответы на контрольные вопросы поместите в файл отчета. Свою рабочую книгу вместе с файлом отчета, необходимо предоставить преподавателю на дискете, подписав ее «Отчет по лабораторной работе №2 студента Иванова И.П., гр. 170404».

Теоретическая часть

Прогнозирование - это метод научного исследования, ставящей своей целью предусмотреть возможные варианты тех процессов и явлений, которые выбраны в качестве предмета анализа.

Задачами экономического прогнозирования являются: предвидение возможного распределения ресурсов по различным направлениям; опреде­ление нижних и верхних границ получаемых результатов; оценка макси­мально возможного количества ресурсов, необходимого для решения хо­зяйственных и научно-технических проблем и др.

В зависимости от периода времени, на которой составляется прогноз (периода упреждения), прогнозы бывает:



· краткосрочные;

· среднесрочные;

· долгосрочные;

· дальнесрочные.

Временная градация прогнозов является относительной и зависит от характера и цели данного прогноза.

Для выполнения краткосрочного прогноза чаще всего применяется метод экстраполяции.

Метод экстраполяции заключается в нахождении значений, лежащих за пределами данного статистического ряда: по известным значениям статистического ряда находятся другие значения, лежащие за пределами этого ряда.

При экстраполяции переносится выводы, сделанные при изучении тенденций развития явления в прошлом и настоящем, на будущее, т.е. в основе экстраполяции лежит предположение об определенной стабильности факторных признаков, влияющих на развитие данного явления.


Рис.1. Основные обозначения метода экстраполяции.

При экстраполяции (см. рис.1.) используется следующая терминология:

t 1 – глубина ретроспекции;

t 2 – момент прогнозирования;

t 3 – прогнозный горизонт;

t 2 – t 1 – интервал наблюдения (промежуток времени, на базе которого исследуется история развития объекта прогнозирования);

t 3 – t 2 – интервал упреждения (промежуток времени на который разрабатывается прогноз).

Чем более устойчивый характер носит прогнозируемые процессы и тенденции, тем дальше может быть отодвинут горизонт прогнозирования. Как показывает практика, интервал наблюдения должен быть в три и более раз длиннее интервала упреждения. Как правило, этот период – довольно короткий. Метод экстраполирования не работает при скачкообразных процессах.

Метод экстраполяции легко реализуется на персональном компьютере. Использование современных табличных процессоров, таких как MS Excel позволяет оперативно проводить прогнозирование экономических процессов с использованием экстраполяционного метода.

Для повышения точности прогноза, необходимо учитывать зависимость прогнозируемой величины Y, от внешних факторов Х. Совокупность изучаемых величин подвержена, как правило, воздействию случайных факторов. В связи с этим зависимость прогнозируемой величины Y, от внешних факторов Х чаще всего статистическая, или – корреляционная.

Статистической называется зависимость случайных величин, при которой каждому значению одной их них соответствует закон распределения другой, то есть изменение одной из величин влечет изменение распределения другой.

Корреляционной называется статистическая зависимость случайных величин, при которой изменение одной из величин влечет изменение среднего значения другой.

Мерой корреляционной зависимости двух случайных величин Х и Y служит коэффициент корреляции r, который является безразмерной величиной, и поэтому он не зависит от выбора единиц измерения изучаемых величин.

Свойства коэффициента корреляции:

1) Если две случайные величины Х и Y независимы, то их коэффициент корреляции равен нулю, т.е. r=0.

2) Модуль коэффициента корреляции не превышает единицы, т.е. |r|£1, что эквивалентно двойному неравенству: -1£r£1.

3) Равенство коэффици­ента -1 или +1 показывает наличие функциональной (прямой) свя­зи. Знак «+» указывает на связь прямую (увеличение или уменьшение одного признака сопровождается аналогичным изменением другого признака), знак «-» - на связь обратную (увеличение или уменьшение одного признака сопро­вождается противоположным по направлению изменением другого признака).

После определения наиболее существенных факторных признаков влияющих прогнозируемую величину, не менее важно установить их математическое описание (уравнение), дающее возможность численно оценивать результативный показатель через факторные признаки.

Уравнение, выражающее изменение средней величины результативного показателя в зависимости от значений факторных признаков, называется уравнение регрессии .

Линии на координатной плоскости, соответствующие уравнениям регрессии называются линиями регрессии .

Корреляционные зависимости могут выражаться уравнениями регрессии различных видов: линейной, параболической, гиперболической, показательной и т.д.

Линейная регрессия

Уравнением линейной регрессии (выборочным) Y на Х называется зависимость от наблюдаемых значений величины Х , выраженная линейной функцией:

где величина r называется коэффициентом линейной регрессии Y на Х, b - константа.

Линейная аппроксимация хорошо описывает изменение величин, происходящее с постоянной скоростью.

Если коэффициент корреляции двух величин Х и Y равен r =±1, то эти величины связаны линейной зависимостью. Коэффициент корреляции служит мерой силы (тесноты) линейной зависимости измеряемых величин. На практике, если коэффициент корреляции двух величин Х и Y |r |>0.5, то считают, что есть основания предполагать наличие линейной зависимости между этими величинами. Однако ориентироваться при выборе типа линии регрессии (линейной или нелинейной) лучше по виду эмпирической зависимости величин Х и Y .

Параболическая и полиномиальная регрессии.

Параболической зависимостью величины Y от величины Х называется зависимость, выраженная квадратичной функцией (параболой 2-ого порядка):

. (2)

Это уравнение называется уравнением параболической регрессии Y на Х . Параметры а , b , с называются коэффициентами параболической регрессии . Вычисление коэффициентов параболической регрессии всегда громоздко, поэтому для расчетов рекомендуется использовать компьютер.

Уравнение (2) параболической регрессии является частным случаем более общей регрессии, называемой полиномиальной. Полиномиальной зависимостью величины Y от величины Х называется зависимость, выраженная полиномом n -ого порядка:

где числа а i (i =0,1,…, n ) называются коэффициентами полиномиальной регрессии .

Полиномиальная аппроксимация используется для описания величин, попеременно возрастающих и убывающих. Она полезна, например, для анализа большого набора данных о нестабильной величине.

Степенная регрессия.

Степенной зависимостью величины Y от величины Х называется зависимость вида:

Это уравнение называется уравнением степенной регрессии Y на Х . Параметры а и b называются коэффициентами степенной регрессии .

Степенная аппроксимация полезна для описания монотонно возрастающей либо монотонно убывающей величины, например расстояния, пройденного разгоняющимся автомобилем. Использование степенной аппроксимации невозможно, если данные содержат нулевые или отрицательные значения.

Показательная регрессия.

Показательной (или экспоненциальной ) зависимостью величины Y от величины Х называется зависимость вида:

Это уравнение называется уравнением показательной (или экспоненциальной ) регрессии Y на Х . Параметры а (или k ) и b называются коэффициентами показательной (или экспоненциальной ) регрессии .

Экспоненциальная аппроксимация полезна в том случае, если скорость изменения данных непрерывно возрастает. Однако для данных, которые содержат нулевые или отрицательные значения, этот вид приближения неприменим.

Логарифмическая регрессия.

Логарифмической зависимостью величины Y от величины Х называется зависимость вида:

(6)

Это уравнение называется уравнением логарифмической регрессии Y на Х . Параметры а и b называются коэффициентами логарифмической регрессии .

Логарифмическая аппроксимация полезна для описания величины, которая вначале быстро растет или убывает, а затем постепенно стабилизируется. Логарифмическая аппроксимация использует как отрицательные, так и положительные величины.

Гиперболическая регрессия.

Гиперболической зависимостью величины Y от величины Х называется зависимость вида:

Это уравнение называется уравнением гиперболической регрессии Y на Х . Параметры а и b называются коэффициентами гиперболической регрессии .

Качество построения уравнений регрессии характеризует средняя ошибка аппроксимации или относительная ошибка прогноза:

(8)

где Y э – эмпирическое значение прогнозируемого показателя; Y – расчетное значение прогнозируемого показателя.

Проведение регрессионного анализа можно разделить на три этапа: выбор формы зависимости (вида уравнения) на основе статистических данных, вычисление коэффициентов выбранного уравнения, оценка достоверности выбранного уравнения.

Использование табличного процессора позволяет легко выполнить все этапы регрессионного анализа.

Рассмотрим парную линейную регрессионную модель взаимосвязи двух переменных, для которой функция регрессии φ(х) линейна. Обозначим черезy x условную среднюю признакаY в генеральной совокупности при фиксированном значенииx переменнойХ . Тогда уравнение регрессии будет иметь вид:

y x = ax + b , гдеa коэффициент регрессии (показатель наклона линии линейной регрессии). Коэффициент регрессии показывает, на сколько единиц в среднем изменяется переменнаяY при изменении переменнойХ на одну единицу. С помощью метода наименьших квадратов получают формулы, по которым можно вычислять параметры линейной регрессии:

Таблица 1. Формулы для расчета параметров линейной регрессии

Свободный член b

Коэффициент регрессии a

Коэффициент детерминации

Проверка гипотезы о значимости уравнения регрессии

Н 0 :

Н 1 :

, ,, Приложение 7 (для линейной регрессии р = 1)

Направление связи между переменными определяется на основании знака коэффициента регрессии. Если знак при коэффициенте регрессии положительный, связь зависимой переменной с независимой будет положительной. Если знак при коэффициенте регрессии отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

Для анализа общего качества уравнения регрессии используют коэффициент детерминации R 2 , называемый также квадратом коэффициента множественной корреляции. Коэффициент детерминации (мера определенности) всегда находится в пределах интервала . Если значениеR 2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значениеR 2 близкое к нулю, означает плохое качество построенной модели.

Коэффициент детерминации R 2 показывает, на сколько процентовнайденная функция регрессии описывает связь между исходными значениямиY иХ . На рис. 3 показана– объясненная регрессионной моделью вариация и- общая вариация. Соответственно, величинапоказывает, сколько процентов вариации параметраY обусловлены факторами, не включенными в регрессионную модель.

При высоком значении коэффициента детерминации 75%) можно делать прогноздля конкретного значенияв пределах диапазона исходных данных. При прогнозах значений, не входящих в диапазон исходных данных, справедливость полученной модели гарантировать нельзя. Это объясняется тем, что может проявиться влияние новых факторов, которые модель не учитывает.

Оценка значимости уравнения регрессии осуществляется с помощью критерия Фишера (см. табл. 1). При условии справедливости нулевой гипотезы критерий имеет распределение Фишера с числом степеней свободы , (для парной линейной регрессиир = 1 ). Если нулевая гипотеза отклоняется, то уравнение регрессии считается статистически значимым. Если нулевая гипотеза не отклоняется, то признается статистическая незначимость или ненадежность уравнения регрессии.

Пример 1. В механическом цехе анализируется структура себестоимости продукции и доля покупных комплектующих. Было отмечено, что стоимость комплектующих зависит от времени их поставки. В качестве наиболее важного фактора, влияющего на время поставки, выбрано пройденное расстояние. Провести регрессионный анализ данных о поставках:

Расстояние, миль

Время, мин

Для проведения регрессионного анализа:

    построить график исходных данных, приближенно определить характер зависимости;

    выбрать вид функции регрессии и определить численные коэффициенты модели методом наименьших квадратов и направление связи;

    оценить силу регрессионной зависимости с помощью коэффициента детерминации;

    оценить значимость уравнения регрессии;

    сделать прогноз (или вывод о невозможности прогнозирования) по принятой модели для расстояния 2 мили.

2. Вычислим суммы, необходимые для расчета коэффициентов уравнения линейной регрессии и коэффициента детерминации R 2 :

; ;;.

Искомая регрессионная зависимость имеет вид: . Определяем направление связи между переменными: знак коэффициента регрессии положительный, следовательно, связь также является положительной, что подтверждает графическое предположение.

3. Вычислим коэффициент детерминации: или 92%. Таким образом, линейная модель объясняет 92% вариации времени поставки, что означает правильность выбора фактора (расстояния). Не объясняется 8% вариации времени, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.

4. Проверим значимость уравнения регрессии:

Т.к. – уравнение регрессии (линейной модели) статистически значимо.

5. Решим задачу прогнозирования. Поскольку коэффициент детерминации R 2 имеет достаточно высокое значение и расстояние 2 мили, для которого надо сделать прогноз, находится в пределах диапазона исходных данных, то можно сделать прогноз:

Регрессионный анализ удобно проводить с помощью возможностей Exel . Режим работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу. В диалоговом окне следует заполнить следующие параметры:

Пример 2. Выполнить задание примера 1 с помощью режима "Регрессия" Exel .

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Y-пересечение

Переменная X 1

Рассмотрим представленные в таблице результаты регрессионного анализа.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). В нашем примере мера определенности равна 0,91829, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным и совпадает с коэффициентом детерминации R 2 , вычисленным по формуле.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации. В простом линейном регрессионном анализе множественный коэффициент R равен линейному коэффициенту корреляции (r = 0,958).

Коэффициенты линейной модели: Y -пересечение выводит значение свободного члена b , а переменная Х1 – коэффициента регрессии а. Тогда уравнение линейной регрессии:

у = 2,6597 x + 5,9135 (что хорошо согласуется с результатами расчета в примере 1).

Далее проверим значимость коэффициентов регрессии: a и b . Сравнивая попарно значения столбцов Коэффициенты и Стандартная ошибка в таблице, видим, что абсолютные значения коэффициентов больше, чем их стандартные ошибки. К тому же эти коэффициенты являются значимыми, о чем можно судить по значениям показателя Р-значение, которые меньше заданного уровня значимости α=0,05.

Наблюдение

Предсказанное Y

Остатки

Стандартные остатки

В таблице представлены результаты вывода остатков . При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение остатка в данном случае - 1,89256, наименьшее - 0,05399. Для лучшей интерпретации этих данных строят график исходных данных и построенной линией регрессии. Как видно из построения, линия регрессии хорошо "подогнана" под значения исходных данных, а отклонения носят случайный характер.

Параболическая зависимость имеет вид:

Результаты вспомогательных расчетов для построения параболической модели регрессии и характеристики качества модели представлены в таблице 5.

Таблица 5.

Расчетные данные

Среднее значение

Сумма квадратов

1. Определим параметры а, b, с параболической модели

Таким образом, зависимость себестоимости 1 т литья у (руб.) от брака литья х (т) по 10 литейным цехам заводов можно представить в виде параболической зависимости:

2. Проверим значимость коэффициентов регрессии по критерию Стьюдента

Как и в случае парной регрессии значимость коэффициентов множественной линейной регрессии с m объясняющими переменными проверяется на основе t-статистики.

стандартное отклонение,

стандартная ошибка регрессии, m - количество объясняющих переменных модели

Построим матрицу

Определим произведение двух построенных выше матриц (в Excel с помощью функции «МУМНОЖ»):

Определим стандартную ошибку регрессии по формуле:

Определим стандартные отклонения по формуле:

Определим расчетные значения для коэффициентов множественной регрессии:

По таблице распределения Стьюдента определим tтеор:

|tрасч| < tтеор, следовательно, коэффициенты а, с и b незначимы при уровне значимости 0,05.

3. Найдем корреляционное отношение, с помощью которого при нелинейной зависимости определяется теснота связи между двумя случайными величинами х и у.

Величина корреляционного отношения достаточно близка к 1, что свидетельствует о сильной связи между х и у, т.е. между себестоимостью 1 т литья (у) в руб. и брака литья (х) в т.

4. Определим автокорреляцию остатков по критерию Дарбина-Уотсона

Определим значение критерия d по формуле:

Подставим результаты предварительных расчетов (см. табл. 5) в формулу:

По таблице Дарбина-Уотсона определим критические границы d1 и d2 при N = 10 и m = 2:

d1 =0,697; d2 = 1,641

d2

5. Определим среднюю относительную ошибку аппроксимации в процентах

Подставим результаты предварительных расчетов (см. табл. 5) в формулу:

, > 8-10%, следовательно модель неприемлема для прогнозирования, что можно объяснить малым числом наблюдений (N=10). Для того чтобы модель можно было использовать для прогнозирования достаточно увеличить число наблюдений с 10 до 15, тогда <10 %.

Выводы по модели:

Автокорреляция остатков отсутствует, связь сильная, но коэффициенты незначимы и модель неприемлема для прогнозирования. Таким образом, модель недостаточно отражает зависимость между себестоимостью 1 т литья У (руб.) от брака литья Х (т). Возможно, необходимо расширить перечень наблюдений или рассмотреть другую выборку из генеральной совокупности.

Спецификация модели

Для того чтобы выбрать зависимость, которая бы наилучшим образом соответствовала реально существующей зависимости между себестоимостью 1 т литья У (руб.) от брака литья Х (т) по 10 литейным цехам заводов необходимо проанализировать данные, представленные в сводной таблице 6.

Сводная таблица 6.

Линейная

Гиперболическая

Логарифмическая

Степенная

Параболическая

Неизвест-ные параметры уравнения регрессии

Теснота связи между у и х

Значимость параметров уравнения регрессии (+ для линейной значимость коэффициента корреляции)

tрасч(rxy)=3,367 значим

tрасч(a)=4,618 значим

tрасч(b)=3,367 значим

tрасч(a)=11,968 значим

tрасч(b)=-2,685 значим

tрасч(a)=3,75

tрасч(b)=3,429 значим

tрасч(a)=25,999 значим

tрасч(b)=3,071 значим

tрасч(a)=1,661 незначим

tрасч(b)=1,505 незначим

tрасч(c)= -0,833

незначим

Средняя относительная ошибка аппроксимации, в %

неприемлема

неприемлема

неприемлема

неприемлема

неприемлема

Значение критерия автокорреляции остатков

автокорреляция отсутствует

автокорреляция отсутствует

автокорреляция отсутствует

автокорреляция отсутствует

автокорреляция

отсутствует

При спецификации модели в первую очередь исключаются модели, в которых имеет место автокорреляция остатков и параметры регрессии незначимы. Автокорреляция остатков отсутствует у всех моделей. Параметры всех построенных регрессий, кроме параболической, значимы. Таким образом, параболическая модель не может быть моделью наилучшим образом отражающей зависимость между х и у - ее из дальнейшего рассмотрения исключаем.

Затем необходимо из числа оставшихся зависимостей выбрать зависимость, имеющую наибольшее значение корреляционного отношения или коэффициент корреляции. Среди наших моделей примерно одинаковая теснота связи между х и у существует в линейной (rxy=0,776) и степенной () моделях.

В подобной ситуации предпочтение отдают той модели, ошибка аппроксимации которой меньше. Но линейная модель является своего рода исключением, т.к. ей отдается предпочтение независимо от величины ошибки аппроксимации. К тому же стоит отметить, что в построенных линейной и степенной моделях значения ошибки аппроксимации достаточно близки (линейная: ; степенная:). Таким образом, несмотря на то что степенная модель достаточно хорошо отражает зависимость между х и у, предпочтение отдаем линейной модели.

Итак, из всех моделей наилучшим образом отражает реально существующую зависимость между себестоимостью 1 т литья У (руб.) от брака литья Х (т) по 10 литейным цехам заводов - линейная модель. Автокорреляция остатков в данной модели отсутствует, коэффициенты значимы, связь между х и у сильная, но модель неприемлема для прогнозирования. При этом ошибка аппроксимации данной модели достаточно близка к критическому значению - 10 %, поэтому для того чтобы устранить данный недостаток и сделать модель приемлемой для прогнозирования достаточно добавить несколько наблюдений.

Линейная регрессия

Уравнение линейной регрессии представляет собой уравнение прямой, аппроксимирующей (приблизительно описывающей) зависимость между случайными величинами X и Y.

Рассмотрим случайную двумерную величину (X, Y), где -- зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины в виде линейной функции величины X:

где -- параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них -- метод наименьших квадратов. Функцию g(x) называют среднеквадратической регрессией Y на X. Функцию g(x) называют среднеквадратической регрессией Y на X.

где F -- суммарное квадратичное отклонение.

Подберем a и b так, чтобы сумма квадратов отклонений была минимальной. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, приравняем частные производные к нулю:

Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:

где -- объём выборки.

В нашем случае A = 3888; B =549; C =8224; D = 1182;N = 100.

Найдём a и b из этой линейной. Получим стационарную точку для где 1,9884; 0,8981.

Следовательно, уравнение примет вид:

y = 1,9884x + 0,8981


Рис. 10

Параболическая регрессия

Найдем по данным наблюдений выборочное уравнение кривой линии среднеквадратичной (параболической в нашем случае) регрессии. Воспользуемся методом наименьших квадратов для определения p, q, r.

Ограничимся представлением величины Y в виде параболической функции величины X:

где p, q, и r -- параметры, подлежащие определению. Это можно сделать с помощью метода наименьших квадратов.

Подберем параметры p, q и r так, чтобы сумма квадратов отклонений была минимальной. Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров:

Для отыскания минимума приравняем к нулю соответствующие частные производные:

Находим p, q и r. Выполнив элементарные преобразования, получим систему трех линейных уравнений относительно p, q и r:

Решая эту систему методом обратной матрицы, получим: p = -0,0085; q = 2,0761;

Следовательно, уравнение параболической регрессии примет вид:

y = -0,0085x 2 + 2,0761x + 0,7462

Построим график параболической регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания (см. рисунок 13).


Рис. 13

Теперь изобразим линии линейной регрессии и параболической регрессии на одной диаграмме, для наглядного сравнения (см. рисунок 14).


Рис. 14

Линейная регрессия изображена красным цветом, а параболическая -- синим. По диаграмме видно, что отличие в данном случае больше, чем при сравнении двух линий линейных регрессий. Требуется дальнейшее исследование, какая же регрессия лучше выражает зависимость между x и y, т. е. какой тип зависимости между x и y.