Logo ru.artbmxmagazine.com

Применение линейной регрессии к населению с использованием экватора

Anonim

Резюме

В этой статье приложение линейной регрессии использовалось для получения прогностических уравнений, которые помогут нам сделать аппроксимации за x квартал или год, что приведет к приблизительному количеству найденных жителей (не включая неформальные задачи), используя По данным, полученным с 2014 года по первый квартал 2018 года, эти данные были получены из ENEMDU, INEC.

линейно-регрессионного приложение популяционной занятости эквадор

Ключевые слова: ENEMDU (Национальное обследование занятости, безработицы и неполной занятости), INEC (Национальный институт статистики и переписи), Линейная регрессия.

Аннотация

В настоящей статье приложение линейной регрессии использовалось для получения прогнозных уравнений, которые помогут нам делать аппроксимации по кварталу или году топора, что приводит к приблизительному числу жителей, которые находят работу (не включая неформальные задачи),

используя данные, полученные с 2014 года до первого квартала 2018 года, эти данные были получены из ENEMDU, INEC.

Ключевые слова: Национальное обследование занятости, безработицы и неполной занятости (NSEUU), Национальный институт статистики и переписи (NISC), Линейная регрессия.

Введение

Линейная регрессия - это метод, который позволяет определять математические модели, чтобы иметь возможность выполнять определенные типы проекций или приближений, в зависимости от отношения между зависимой переменной y и независимой переменной xтермин регрессии впервые использовался при изучении антропометрических переменных при сравнении роста родителей и детей, когда оказалось, что дети, чьи родители были намного выше среднего значения, как правило, были равны ему, тогда как чьи родители были очень коротки, чтобы уменьшить их разницу со средним ростом; то есть они «вернулись» к среднему, эмпирическая проверка этого свойства была впоследствии подкреплена теоретическим обоснованием этого явления. Линейный термин используется, чтобы отличить его от других методов регрессии, которые используют модели, основанные на любой математической функции, будь то квадратичная, полиномиальная, множественные переменные, известные функции.

Рисунок 1. Типы отношений между 2 переменными.

Линейные модели представляют собой упрощенное объяснение реальности, гораздо более гибкое и с гораздо большей теоретической поддержкой математики и статистики. Модель линейной регрессии применяется в большом количестве областей, от научной до социальной сферы, посредством промышленных приложений, поскольку линейное поведение встречается во многих ситуациях, в различных приложениях, в которых можно увидеть регрессию. линейный: в физике, химии, производстве, популяционных исследованиях и т. д. поскольку каждый из них может быть представлен функцией, которая включает различные предрасположенные точки на диаграмме рассеяния.

Когда использовать линейную регрессию?

Линейная регрессия - это оптимальная модель для определенных типов паттернов, которые представляют тренд (увеличивающийся или уменьшающийся), то есть, в нескольких словах, паттерны, которые представляют линейную зависимость между зависимой переменной (y) и временем (независимая переменная (x), Дисперсионный график данных должен быть принят во внимание, если они указывают на линейную зависимость между точками дисперсии, это будет отличным показателем того, что метод регрессии для получения прогностического уравнения этих точек является линейной регрессией., Очень важно учитывать тип используемой регрессии, который будет зависеть от поведения данных, приведенных на диаграмме рассеяния, поскольку, так или иначе, если применяется тип регрессии, который не указан для В группе данных погрешность во время оценки аппроксимации будет увеличиваться, и поэтому коэффициент корреляции, измеренный в данных стандартах, будет указывать, что в случае линейной регрессии использовался ошибочный тип регрессии.

В этой статье будет подробно описан регрессионный анализ, где участвуют зависимая переменная (y) и независимая переменная (x), где между ними будет связь, которая будет представлена ​​линией линия, которая будет уравнением (прогнозом), указанным в формате наклона линии в этом исследовании, мы будем применять линейную регрессию на основе данных о населении, которые

Население с занятостью
ГОД (X) 2014 2014,3 2014,6 2014,9 2015 2015,3 2015,6 2015,9 2016 2016,3 2016,6 2016,9 2017 2017,3 2017,6 2017,9 2018 2018,3
НАЦИОНАЛЬНЫЙ ИТОГО 6664241 6706314 6643458 6866776 6921107 7091116 7098584 7274221 7140636 7412671 7415099 7637986 7463579 7728968 7781560 7842471 7712177 7802374
URBAN 4481130 4501505 4529978 4638310 4647582 4630745 4707715 4854005 4840314 4882929 4889895 5005457 4971669 5048482 5125446 5174135 5169942 5129893
СЕЛЬСКОЕ 2183111 2204809 2113480 2228466 2273525 2460371 2390869 2420216 2300322 2529742 2525203 2632529 2491910 2680487 2656114 2668336 2542236 2672481

Таблица 1. Данные о населении с занятостью в национальном, городском и сельском населении

обнаруживается при найме на работу в Эквадоре, где у нас есть данные из Национального итога, эта сумма также представляется разделенной на сельскую и городскую, на основе этих данных мы продолжим находить и составлять прогнозное уравнение, чтобы иметь возможность делать прогнозы для приближения к населению, которое воля

найти работу за год или квартал какого-либо года, которого нет в предоставленной базе данных, то есть с помощью уравнения прогноза будет найдено значение y на основе x.

Применение модели линейной регрессии.

Чтобы понять и применить этот метод в связи с рассматриваемой темой, он начал с соответствующих расследований, чтобы собрать четкую и правдивую информацию из данных о населении с использованием данных Национального, городского и сельского населения в официальных источниках с 2014 года по первый В четвертом квартале 2018 года важно иметь большой объем данных, чтобы диаграмма разброса не изменялась, поэтому были взяты ежеквартальные данные (3 месяца) за определенный период времени, так как эта большая база данных облегчает принятие решения по методу. о регрессии к использованию, вся эта информация была предоставлена ​​государственными учреждениями ENEMDU (Национальное обследование занятости, безработицы и

Неполная занятость), INEC (Национальный институт статистики и переписи населения), который предоставляет нам достоверные данные, чтобы быть уверенными в предыдущих результатах, которые должны быть выполнены с помощью соответствующих расчетов, что можно увидеть в следующих таблицах с соответствующими диаграммами дисперсии.

С данными, показанными в таблицах, будет установлена ​​математическая функция или уравнение прогнозирования, которое будет соответствовать указанным данным и будет описывать взаимосвязь между переменными посредством регрессии каждой из таблиц.

Есть 3 ключевых момента при выполнении регрессионного анализа, это:

  • Решите, какую кривую описывают точки на графике. В соответствии с графиком определите тип уравнения, который лучше всего подходит

данные.

  • Найти уравнение прогноза и проверить данные о близости.

Рисунок 2. Scatterplot National T.

Рисунок 3. График городской дисперсии

Рисунок 4. График сельской дисперсии

В результате проведенного анализа и в соответствии с тем, что уже было сказано и отмечено на рисунке 2,3,4. В котором поведение данных можно увидеть на графике с 2014 по первый квартал 2018 года и что показано на рисунке 1. Можно определить линейное поведение.

Модель линейной регрессии:

? знак равно =? + ?? (1)

Куда ? Он будет представлен следующим образом:

? =? знак равно -? ∗? ̅ (F1)

? Average = среднее значение зависимой переменной.

? ̅ = среднее по независимой переменной

Куда ? Он будет представлен следующим образом:

(F2), Los valores de los parámetros ? ? ? ecuación (1) no se conocen y deben de estimarse a partir de los datos de la muestra obtenida, estos coeficientes se calculan con valores conocidos y se los conoce como regresores.

Para el valor de los regresores se utiliza el método fundamentado en teorema los mínimos cuadrados, este método emplea los datos de la muestra (población) para determinar características de la recta que van hacer mínima la suma de los cuadrados de las desviaciones.

????(?? − ?̂)^? (2)

En dónde;

?? =Valor observado de la variable dependiente para la i-esima. ?̂ = Ecuación pronostico determinada de tablas de datos.

Reemplazando la ecuacion pronostico (1), en

(2).

?(?? − (? + ??))^? (3) esta ecuacion nos ayudara a determinar el error en funcion de las variables x, y de la funcion pronostico, para que la funcion pronostico represente el total de datos de manera much mas representatva se le debe de sumar el error que se comete en la aproximacion, este error no es mas que la distancia desde cualquie punto de la grafica hacia la recta (d1,d2,d3), como se presenta en la Figura 5. La ecuacion (3) nos permite minimizar el miembro de la ecuacion para esto se debe calcular las derivadas parciales de esta expresion respecto a cada uno de los coeficientes de regresion es decir hay que derivar con respect a α y β e igualar a cero cada una de las derivadas parciales, realizado este procedimiento obtendremos un Sistema de ecuaciones que puede ser representado como un Sistema matricial. De la siguiente manera:

??? = ?? + ???????? = ? ∗ ??? + ?????

Figura 5. Representacion del error en la grafica.

Coeficiente de correlacion.

El coeficiente de correlacion, es una medida que nos va a indicar el grado de asociacion de los datos de las variables(x,y), esta medida nos va a indicar el tipo de relacion o dependencia, con este coeficinte tambien

podemos determinar si el metodo de

regresion que usamos es el correcto de acuerdo a la escala ya dada Figura 6. Si la correlacion esta entre (-0,5;0,5) esto nos indica que existe una correlacion, en la cual no es recomendable aplicar regresion lineal esto quiere decir que la ecuacion pronostico no se ajusta de manera adeacuada a los datos dispersos en el diagrama de dispercion.

Figura 6. Escala de aceptacion del coeficiente de correlacion.

Fórmula para calcular el coeficiente de correlación.

Coeficiente de determinación.

El coeficiente de determinación se lo simboliza con la letra ?? y no es más que el coeficiente de correlación al cuadrado, lo que el coeficiente de determinación nos indica en la regresión lineal, es probar cierto tipo de hipótesis, este coeficiente ayudara a determinar la calidad del modelo (ecuación pronóstico), para replicar resultados, y la proporción de variación de los resultados.

Procedimiento para encontrar las ecuaciones pronostico.

Para encontrar las ecuaciones pronósticos respecto a URBANO, RURAL y el TOTAL DE POBLACION que es la sumatoria de ambos respectivamente y con el cual se va a comparar la sumatoria de las ecuaciones pronóstico de RURAL, URBANO respecto al TOTAL NACIAONAL y determinar la dispersión de los resultados que en este caso se lo podrá determinar como un error entre sus partes y el total, así tendríamos aplicando la ecuación (1), y encontrando sus subtérminos (F1), (F2), respectivamente se procederá a encontrar las ecuaciones pronóstico de cada categoría:

  • Ecuaciones pronostico (RURAL).

Reemplazando en ecuación (1), tenemos;

Tabla 2. Coeficientes de regresión e intervalos de confianza (Rural).

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -255885317 28788655,9 -8,88840791 1,3785E-07 -316914541 -194856093 -316914541 -194856093
Variable X 1 128126,694 14278,7071 8,97326999 1,2129E-07 97857,1871 158396,201 97857,1871 158396,201

Ecuación pronostico (URBANO).

Reemplazando en ecuación (1).

Tenemos

Tabla 3. Coeficientes de regresión e intervalos de confianza (Urbano).

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -348136220 13925907,6 -24,9991764 2,9943E-14 -377657825 -318614615 -377657825 -318614615
Variable X 1 175073,532 6907,02462 25,3471707 2,4125E-14 160431,294 189715,77 160431,294 189715,77

Ecuación pronostico (TOTAL POBLACION).

Reemplazando en ecuación (1), tenemos;

Tabla 4. Coeficientes de regresión e intervalos de confianza (Total Nacional)

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -604021371 32580998,6 -18,5390687 3,0713E-12 -673090003 -534952739 -673090003 -534952739
Variable X 1 303200,144 16159,6477 18,7627942 2,5553E-12 268943,221 337457,066 268943,221 337457,066

Como se describió anteriormente estas ecuaciones pronósticos no representan el muestral total debido a que cada una de estas ecuaciones pronostico se ajustan en una línea recta de tal manera que la distancia entre la recta y cualquier punto se aproximadamente igual y eso se lo determina como un error, entonces para que la ecuación pronostico represente de manera mucho más exacta las proyecciones se les debe de sumar el error cometido.

Factor de correlación.

El factor de correlación de cada uno de las categorías et dada por:

URBANO.

? = 0,987776078

Tabla 5. Estadísticos de la regresión Urbano.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,98777608
0,97570158
0,97418293
38113,6631
18

RURAL.

? = 0,913362204

Tabla 6. Estadísticos de la regresión Rural.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,9133622
0,83423052
0,82386992
78791,3555
18

TOTAL NACIONAL.

? = 0,978021857

Tabla 7. Estadísticos de la regresión Total Nacional.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,97802186
0,95652675
0,95380968
89170,5765
18

De acuerdo a la regla de correlación el resultado obtenido en los factores de correlación calculada nos determina que existe una correlación en un intervalo entre 0,5 y 1 los que indica que existe una correlación positiva muy fuerte, lo que nos indica que la fuerza de correlación de los datos es muy buena y nos asegura que el método que se ha empleado para realiza la regresión ha sido el correcto por ende el error que se ha obtenido nos corrobora toda la información previa ya que son cifras que indican un error muy depreciable.

Errores.

Total nacional.

Σ(?? − (−604021371,2 + 303200,143(?))

McGRAW HILL.

FAIRES, R. L. (Junio 2003). ANALISIS NUMERICO.

G., S. (s.f.). INTRODUCTION TO APPLIED MATHEMATHICS. ED.

Wesllesley Cambridge press.

Sánchez, A. N. (2002). Métodos Numéricos Aplicados a la Ingeniería.

Spiegel, MR (2010). Вероятность и статистика.

Скачать оригинальный файл

Применение линейной регрессии к населению с использованием экватора