Бесплатная публикация статей в журналах ВАК и РИНЦ

Уважаемые авторы, образовательный интернет-портал «INFOBRAZ.RU» в рамках Всероссийской Образовательной Программы проводит прием статей для публикации в журналах из перечня ВАК РФ по направлениям: экономика, философия, политология, педагогика, филология, биология, сельское хозяйство, агроинженерия, транспорт, строительство и архитектура и др.

Возможна бесплатная публикация статей в специализированных журналах по многим отраслям и специальностям. В мультидисциплинарных журналах возможна публикация по всем другим направлениям. 

Журналы реферируются ВИНИТИ РАН. Статьям присваивается индекс DOI. Журналы включены в международную базу Ulrich's Periodicals Directory и РИНЦ.

Подпишитесь на уведомления о доступности опубликования статьи. Первую рекомендацию вы получите в течении 10 минут - ПОДПИСАТЬСЯ

ОБОБЩЕНИЕ РЕГРЕССИОННОГО АНАЛИЗА

Аннотация. В статье дано аналитическое представление среднеквадратической регрессии для моделей: линейной однофакторной, гиперболической, степенной, показательной, обратной, экспоненциальной и квадратичной.

Ключевые слова: дисперсия, статистический детерминизм, моделирование, факторы, оптимизация.

Одними из самых востребованных математических моделей, устанавливающих зависимость одной случайной величины от целого ряда других случайных и неслучайных величин являются регрессионные зависимости, описывающие эти зависимости в «среднем» и имеющие стохастический характер.

При помощи регрессионного анализа раскрывается детерминизм, существующий во всевозможных случайных связях в природе, обществе, технике, экономике и др. [1, 2].

Регрессионный анализ на основании статистической обработки экспериментальных данных устанавливает функциональную связь между двумя группами переменных: факторами и откликом. Проблема регрессии в математической статистике заключается в том, что между исследуемыми величинами нет достаточной информации их функциональной связанности и её следует определить на основании аналитических методах обработки опытных данных.

Цель исследования. Обобщение регрессионного анализа путем повышение его информационной достоверности актуально и востребовано как с позиции построения новых решений в прикладной математике, так и повышения уровня адекватности аналитического представления стохастических структур: выделение детерминизма и сопутствующего статистического рассеяния

Методика исследования

Регрессионный анализ, как метод определения аналитического представления стохастической зависимости путем нахождения наиболее информативных независимых переменных (регрессоров, факторов), влияющих на зависимую переменную (регрессию, отклик), широко используется для решения оптимизационных задач в производстве, сельском хозяйстве, технике, экономике, биологии, социологии и др..

Многофакторная регрессия является эффективным методом моделирования, прогнозирования, тести­рования гипотез, основой эмпирических исследований и т. д.

Результаты исследования

Основной задачей регрессионного анализа [1, 2, 3, 4] является установление функциональной связи между случайной величиной и факторами, как статистической зависимости в виде

y = f (X) + е = f (x1 , x2 , x3 , ..,xn ) + e = у*/ + е , (1)

здесь у – случайная переменная, Х – факторы, f (X) – статистически детерминированная («средняя») функция регрессии, её график называют линией регрессии, у* - регрессия у на Х, индуцируемая «средним» детерминизмом, e – отклонение регрессии, случайная величина, как ошибка регрессионной модели, у которой математическое ожидание Ме = 0 и дисперсия De = σ2 ˃ 0.

Практическая значимость регрессионного анализа состоит в том, что на основании реальной экспериментальной информации выстраивается функция регрессии, которая в стохастической структуре выделяет детерминизм и в дальнейшем используется для решения многих конкретных задач с большей вариативностью определенных факторов.

В задачу данного исследования входит дополнение детерминизма регрессии её дисперсией, которая характеризует случайную сопутствующую составляющую причинности, путем построения среднеквадратической регрессии, сопряжено дополняющей регрессию. Регрессия устанавливает детерминизм в стохастической структуре, а её статистический детерминизм должен описываться среднеквадратической регрессией,

По выборке (xi , yi), устанавливающей связь между опытными данными о величине факторов (xi) и отклика (yi), определяется функциональная зависимость между ними

yi = f (xi) + ei , i = 1, 2, 3, .., n. (2)

Предполагается, что вид функции f(Х) известен с точностью до неизвестных параметров B (b0, b1 , b2, b3, .., bj)

y = f (X, B) + e . (3)

 

Запишем наиболее востребованные виды линейной и нелинейной регрессионных моделей [1, 2] и выполним их обобщение на основе учета дисперсии регрессии:

- вариационный ряд

х1, х2, х3,…, хп , (3,а)

- линейная

y = b0 + b1x1 + b2x2 + ….+ bnxn + e , (4)

- гиперболическая

 

у = b0 + b1 /x + e, (5)

 

- степенная

 

у = b0 xb + e , (6)

- показательная

у = b0 bx + e, (7)

- обратная

у = 1 / (b0 + b1 x + e), (8)

- экспоненциальная

у = b0 exp(bx) + e, (9)

- полиномиальная

y = b0 + b1x + b2 x2 + … + bn xпn + e , (10)

и др..

В современном регрессионном анализе при построении функции регрессии отклонение регрессии входит в нее опосредовано, в то же время понятно, что рассеяние отклонений регрессии влияет на степень информативности самого регрессионного анализа.

Точность получаемой функции регрессии определяется на основании оценок математического ожидания, дисперсии, нормально распределенных случайных величин, корреляций и др., которые зависят от величины рассеяния.

Важнейшей характеристикой рассеяния отклонений регрессии является дисперсия.

Регрессионную модель (1) можно записать в виде

y = f (X) + [ y – f (X) ], (11)

и соответственно (3)

y = f(X, B) + [y – f (X, B)], (12)

возведем (12) в квадрат

y2 = { f(X, B) + [y – f (X, B)] }2 , (13)

и, выполнив осреднение, получаем

y2c = [f2 (X, B)] + σ2, (14)

здесь мера рассеяния σ2 = D e =
∑ [yi – f (Xi,B)]2 / n – дисперсия регрессии, оcредненное

2 ∑{ f(Xi , B) [yi – f (Xi , B)]} / n = 2 ∑ { f(Xi , B) еi} / n = 0 ,

на основании М еi = 0.

 

Из (14) следует, что среднеквадратичное регрессии равно

yc = f (X, B) { 1 + σ2 / [f2 (X, B)] }1/2 , (15)

при

σ2 / [f2 (X, B)] « 1 ,

среднеквадратичное регрессии равно

yc = f (X, B) { 1 + ½ σ2 / [f2 (X, B)] } .

Это означает, что для повышения степени информативности регрессионного анализа необходимо регрессию выстраивать с учетом функции её дисперсии, т.е. среднеквадратическое регрессии

yc = f (X, B) { 1 + σ2 (X, B) / [f2 (X, B)] }1/2 , (16)

 

здесь σ2 (X, B) – функция дисперсии регрессии.

Таким образом, «средняя» функция регрессии в современной постановке регрессионного анализа (1) следует рассматривать как первое приближение и аналитическую адекватность статистических структур необходимо повышать путем построения среднеквадратической функции регрессии (среднеквадратическая регрессия), учитывающей рассеяние отклонения.

Среднеквадратическая функция регрессии (15) и функция регрессии (3) в суперпозиции формируют информационный коридор достоверности аналитического представления реальных статистических структур (линия функции регрессии имеет толщину, определяемую её дисперсией), который повышает уровень адекватности проводимого исследования.

Выполним обобщенный регрессионный анализ на выше представленных моделях (3, а) ÷ (9).

Вариационный ряд. Для вариационного ряда (3, а)

x1, x2, x3, . ., xi, . , xn ,

среднеквадратическое равно

yc = xcp ( 1 + σ2 / x2cp )1/2 , (17)

здесь xcp = ∑ xi / n - среднее значение ряда, σ2 = ∑ (xi – xcp)2 / (n – 1) – дисперсия ряда.

Линейная однофакторная регрессия. Статистическое обобщение линейной регрессии (4), как простой, имеет вид

yi = b0 + b1 xi + ei , i = 1, 2, 3 ,.., n, (18)

здесь xi - факторы, yi - отклик, ei – отклонение регрессии, b0 , b1 – параметры линейной модели.

Одним из наиболее распространенных методов построения функции регрессии является метод наименьших квадратов [2]

∑ (yi - b0 - b1 xi )2 → min , i = 1, 2, 3 ,.., n , (19)

в котором дисперсия регрессии имеет минимальное значение

∑ (yi - b0 - b1 xi )2 / n → min , i = 1, 2, 3 ,.., n ,

поэтому метод наименьших квадратов можно определить как метод построения регрессии с минимальной дисперсией.

На основании применения этого метода постоянные параметры функции простой линейной регрессии имеет вид

b0 = ycp – xcp b1 , ycp = ∑ yi / n , xcp = ∑ xi / n ,

b1 = [(xy)cp – xcpycp] / [x2cp – (xcp)2 ] , (xy)cp = ∑ xiyi / n , x2cp = ∑ x2i / n . (20)

 

Дисперсия простой линейной регрессии

σ2 = ∑ (yi - b0 - b1 xi )2 / n , i = 1, 2, 3 ,.., n ,

с учетом (20) принимает вид

σ2 = [{∑ ( yi – ycp ) + b1 (xcp - xi) ]2/ n ,

и в результате вычислений и условия (Ме = 0) она становится линейной функцией дисперсий

σ2 = σ2y + b21 σ2x , (21)

где σ2y = ∑ (yi – ycp)2 / n , σ2x = ∑ (xcp – xi)2 / n .

Таким образом, функция среднеквадратической регрессии с учетом дисперсии регрессии имеет вид

ус = (b0 + b1 x) [ 1 + σ2 / (b0 + b1 x ]1/2 , (22)

и вместе с функцией регрессии (18) образует коридор «средних» значений функций, который обеспечивает большую достоверность информативности статистических построений.

Рассмотрим нелинейные модели, которые приводятся к линейным.

Гиперболическая регрессия (5) путем введения обратной величины фактора 1 / х = х* принимает вид линейной

у = b0 + b1 x* + e ,

здесь дисперсия функции регрессии имеет вид

 

σ2 = ∑ (yi - b0 - b1 x-1 i )2 / n , i = 1, 2, 3 ,.., n ,

 

b0 = ycp – x-1cp b1 , ycp = ∑ yi / n , x-1 cp = ∑ x-1i / n ,

b1 = [(x-1 y)cp – x-1cpycp] / [ (x-1) 2cp – (x-1cp)2 ] ,

(x-1y)cp = ∑ x-1 iyi / n , (x-1) 2cp = ∑ (x-1i) 2i / n .

σ2 = σ2y + b21 σ2x ,

где σ2y = ∑ (yi – ycp)2 / n , σ2x = ∑ (x-1 cp – x-1i)2 / n.

Степенная регрессии (6) после логарифмирования приводится к линейному виду

ln y = ln b0 + b ln x ,

и после замены

xi → ln xi = x*I , , y → ln y = y*i , b0 → ln b0 = b0* ,

получаем

y* = b0* + b x* ,

поэтому можем сразу записать

 

b0* = y* cp – x* cp b , y* cp = ∑ lnyi / n , x* cp = ∑ln xi / n ,

b = [(ln x lny)cp – (ln x) cp (lny*)cp] / [ (lnx) 2cp – (lnxcp)2 ] ,

(lnx lny)cp = ∑ lnxi lnyi / n , (lnx) 2cp = ∑ (lnxi) 2i / n ,

здесь дисперсия регрессии имеет вид

 

σ2 = ∑[ yi – xbi exp(b0*)] / n .

 

Показательная регрессия (7) после логарифмирования приводится к линейной

y* = b0* + b* x ,

здесь

y* = ln y , b0* = ln b0 ,

поэтому при вычислении параметров модели можно воспользоваться формулами (20) и (21), выполнив замену

yi → ln yi , b0 → ln b0

Обратная регрессия (8) путем представления отклика у-1 = у* приводится к линейной

у* = b0 + b1 x ,

поэтому можно воспользоваться формулами (20) и (21), выполняя замену переменных yi → 1/yi .

Экспоненциальная регрессия (9) после логарифмирования принимает вид линейной

lnу = b0 + bx ,

здесь так же можно воспользоваться формулами (20) и (21), путем замены переменных yi → lnyi .

Полиномиальная регрессия (10), ограниченная квадратичной,

 

y = b0 + b1x + b2 x2 + е ,

определяется путем вычисления параметров b0 , b1 , b2 из системы уравнений, получаемой на основании применения метода наименьших квадратов

b0 = Δ0 / Δ , b1 = Δ1 /Δ , b2 = Δ2 / Δ ,

Δ = (∑ x2i / n)3 – [(∑x2i / n) (∑xi / n) (∑x3i / n)] –

[(∑xi / n) (∑x3i / n) (∑x2i / n) (∑xi / n)2 (∑x4i / n)] +

+ n-1 (∑x3i / n)2 - n-1 [(∑x2i / n) (∑x4i / n)] ,

Δ0 = [(∑x2i / n)2 (∑x2i yi/ n)] - [(∑x2i / n) (∑xi yi / n) (∑x3i / n)] –

- [ (∑xi / n) (∑x3i / n) (∑x2i yi / n)] + [(∑xi / n) (∑xiyi / n) (∑x4i / n)] +

+ [(∑yi / n)(∑x3i / n)2 ] - [(∑yi / n) (∑x2i / n)(∑x4i / n)] ,

Δ1 = [(∑x2i / n)2 (∑xi yi / n)] – [(∑x2i / n) (∑xi / n) (∑x2i yi / n)] –

- [ (∑yi / n) (∑ x3i / n) (∑x2i / n)] + [(∑yi / n) (∑xi / n) (∑x4i / n)] +

+ n-1 [(∑x3i / n) (∑x2i yi / n) + n-1 [(∑xiyi / n) (∑x4i / n)] ,

2 = [(∑yi / n) (∑x2i / n)2 ] - [(∑yi / n) (∑xi / n) (∑x3i / n)] –

- [(∑xi / n)2 (∑ x2i yi / n)] + n-1 [(∑xi yi / n) (∑x3i / n) –

- n-1 [(∑x2i / n) (∑x2i yi / n)] .

Выводы. Согласно сформулированного обобщения регрессионного анализа регрессия становится первым приближением и её необходимо дополнять построением среднеквадратической функции регрессии, несмотря на необходимость выполнения дополнительного объема вычислений.

Суперпозиция регрессии и её среднеквадратической выстраивает коридор значений большей достоверности представления аналитической модели стохастических структур в производстве, сельском хозяйстве, технике, экономике, биологии, социологии и др..

ЛИТЕРАТУРА

  1. 1.Чернецкий В.И. Математическое моделирование
  2. стохастических систем. – Петрозаводск: ПГУ, 1994. 488 с.
  3. Максимов Ю.Д. и др. Вероятностные разделы математики.- СПб.: «Иван Федоров», 2001.588 с.
  4. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере.- М.: «Финансы и статистика», 1995.384 с.
  5. Демиденко Е.З. Линейная и нелинейная регрессия. –М.: «Финансы и статистика», 1981.302 с.

Метки: Инженерия