Want to make interactive content? It’s easy in Genially!

Describe lo básico para entender la técnica de regresión y correlación en un modelo lineal.

Over 30 million people build interactive content in Genially.

Check out what others have designed:

Transcript

Análisis de Regresión y Correlación Lineal

Curso: Estadística básica aplicada

8. Análisis de Correlación9. Supuestos y propiedades de correlación10. Coeficiente de determinación11. Ejemplo de aplicación12. Ejercicios13. Videos de apoyo14. Referencias bibliográficas

1. Introducción2. Esquema3. Análisis de Regresión4. Supuestos de regresión5. Gráfico de dispersión6. Modelos de ajuste7. Estimación de parámetros

Índice

Introducción

Análisis de Regresión y Correlación

Dentro del estudio de la estadística descriptiva bidimensional (dos variables), el análisis de regresión y correlación es muy importante y aplicado a diversas áreas de la vida real; pues brindan al investigador las herramientas necesarias que permitirán ajustar los datos observados a una ecuación, con el propósito de obtener un modelo empírico de predicción precisa. Este tema trata de ver la asociación cuantitativa entre dos variables, así como también el grado de relación lineal existente entre dichas variables.

2. Esquema

  • Análisis de Regresión y Correlación

3. Análisis de Regresión

  • El objetivo principal al realizar un análisis de regresión es estimar o pronosticar el valor de una variable aleatoria, llamada variable dependiente o variable de respuesta (y), sabiendo o conociendo el valor de una o un grupo de variables independientes o de predicción (x). Donde la ecuación de regresión un modelo matemático que puede emplearse para describir la relación entre dos variables y mediante el cual también se estima el valor de la variable dependiente.

Análisis de Regresión

  • Aunque esta ecuación y la forma en la que se obtiene; puede tener muchas limitaciones con respecto a la interpretación, es un medio empírico bastante útil para proporcionar una predicción adecuada.
  • Como ejemplos, se pueden mencionar la relación entre el peso y la altura de las personas; la temperatura ambiente y el consumo de energía eléctrica, los ingresos mensuales de las personas y los gastos de las familias; etc.

Los valores de la variable 'y' son independientes.

Para los distintos valores fijos de x, las distribuciones de los valores correspondientes de 'y' tienen la misma varianza y provienen de una distribución normal.

4. Supuestos del Análisis de Regresión

Para los distintos valores fijos de x, las distribuciones de los valores correspondientes de 'y' tienen medias que se ubican en la misma línea recta.

La muestra de datos pareados (x, y) es una muestra aleatoria de datos cuantitativos.

5. Diagrama de dispersión

Un procedimiento muy útil para la selección inicial cuando se tiene una sola variable de predicción o independiente; es graficar ambas variables (dependiente e independiente), este gráfico se llama: diagrama de dispersión.

Haz clic en los indicadores

El modelo de regresión propuesto, deberá ser sencillo y contener el mínimo de parámetros posibles y aun así ajustarse bien a las observaciones. Esta ecuación de regresión describe algebráicamente la relación entre las dos variables.

6. Modelo de Regresión Lineal

Inverso

Exponencial

Polinomial

Lineal múltiple

Logarítmico

Potencial

Aunque este curso esté limitado a las relaciones lineales, se incluyen algunas relaciones comunes no lineales y múltiples.

Otros modelos:

No existe tendencia

Tendencia logarítmica

Tendencia exponencial positiva

Tendencia parabólica

Tendencia lineal decreciente

Tendencia lineal creciente

Tendencias en los gráficos:

Modelo lineal

Este método determina las estimaciones para los parámetros de la ecuación seleccionada mediante la minimización de la suma de los cuadrados de las diferencias entre los valores observados y de aquellos valores esperados de la variable dependiente, proporcionados por la ecuación de regresión utilizada.Como la idea es minimizar esta diferencia; según el tipo de ecuación que se tenga, mediante derivadas parciales, este método ofrece el sistema de ecuaciones normales, para hallar los coeficientes de regresión y el modelo que mejor ajusta los datos.

7. Estimación de parámetros por mínimos cuadrados

Los coeficientes de regresión están programados en muchas calculadoras y programas de cómputo, de manera que los valores de a y b se calculan con facilidad.

Parámetros de regresión

Otras fórmulas para determiar los coeficiente de regresión en una ecuación lineal que están en función de los promedios de x e y, varianza de x, y la covarianza son:

8. Correlación

  • En esta sección se explica el coeficiente de correlación lineal r que es una medida numérica de la fuerza de la relación entre dos variables que representan datos cuantitativos. Utilizando datos muestrales apareados (datos bivariados), se calcula el valor de r (generalmente con la ayuda de recursos tecnológicos) y luego se utiliza este valor para concluir si existe (o no) una relación entre las dos variables. En esta sección sólo consideramos las relaciones lineales, lo que quiere decir que cuando se grafican, los puntos se aproximan al patrón de una línea recta.

Puesto que el diagnóstico visual de los diagramas de dispersión es muy subjetivo, necesitamos medidas más precisas y objetivas. Se emplea el coeficiente de correlación lineal r de Pearson, que sirve para detectar patrones lineales.Se dice que una correlación existe entre dos variables, cuando una de ellas está relacionada con la otra de alguna manera.El coeficiente de correlación lineal r mide la fuerza de la relación lineal entre los valores cuantitativos apareados x e y en una muestra.

Coeficiente de correlación de Pearson

Donde el cálculo está en función de las sumatorias de las variables (1ª fórmula) o lo que es exactamente igual en la 2ª fórmula, en función de la covarianza y desviaciones típicas de las variables.Estas ecuaciones sólo sirven para el caso de regresión lineal, sin embargo también es posible calcular de manera sencilla en calculadora o softwares estadísticos.

Fórmulas:

Los pares de datos (x, y) tienen una distribución normal bivariada.

El examen visual del diagrama de dispersión debe confirmar que los puntos se acercan al patrón de una línea recta.

9. Supuestos de Correlación

Es necesario eliminar cualquier valor extremo, si se sabe que se trata de un error. Los efectos de cualquier otro valor extremo deben tomarse en cuenta calculando r con y sin el valor extremo incluido.

La muestra de datos pareados (x, y) es una muestra aleatoria de datos cuantitativos.

Intensidad de la relación

  • El valor de r está siempre entre -1 ≤ r ≤ 1.
  • El valor de r no cambia si todos los valores de cualquiera de las variables se convierten a una escala diferente.
  • El valor de r no se ve afectado por la elección de x o y. Intercambie todos los valores de x e y, el valor de r no sufrirá cambios.
  • r mide la fuerza de una relación lineal. No está diseñada para medir la fuerza de una relación que no sea lineal.

Propiedades del coeficiente de correlación r:

Este coeficiente se calcula como el cuadrado del coeficiente de correlación r y es la proporción de la variación de y que está explicada por la relación lineal entre x e y.Los valores que toma éste, siempre están comprendidos en el intervalo 0 ≤ R ≤ 1 o entre 0% a 100%. De manera ideal se quiere que R tenga un valor cercano o igual a 1, pues significaría que el modelo se ajusta bien a los datos (medida de bondad de ajuste) y por tanto, este modelo sería útil para realizar pronósticos.Si el valor de R sería igual a 0; significa que toda la variación no puede explicarse por la presencia de variables independientes que presenta el modelo. (Se debe al azar)

10. Coeficiente de Determinación: R

Regresión y correlación

11. Ejemplo de aplicación

Incendios y acres quemados

Se presenta la lista del número de incendios (en miles) y los acres que fueron quemados (en millones) en 11 estados occidentales de Estados Unidos, cada año de la década pasada (según datos de USA Today). ¿Existe una correlación? Los datos se listaron bajo el siguiente encabezado: “Leñadores se valen de los incendios para argumentar a favor de incrementar la tala”. ¿Los datos sustentan el argumento de que, a mayor número de árboles talados por los leñadores, menor es el riesgo de incendios porque los bosques son menos densos?

Ejemplo de aplicación en CODAP:

Para resolver el ejemplo de los acres e incendios, utilizaremos el programa CODAP (Common Online Data Analysis Platform), el cual podemos obtener y usar sólo con internet en google.

Solución:

Se puede ver que existe una correlación positiva (r = 0.518) entre en número de incendios y la cantidad de acres quemados. (A mayor número de incendios, mayor cantidad de acres quemados)El modelo de ajuste lineal es:Y = -1.1 + 0.068 XEl coeficiente de determinación es R = 0.268 que indica que el modelo no se ajusta tan bien a los datos.

Ver

Solución 1

12. Ejercicios propuestos

Compra de una audiencia televisiva: Calcule el mejor número predicho de televidentes para una estrella de televisión que tiene un salario de $2 millones. (En la siguiente tabla, los salarios están en millones de dólares y los números de televidentes en millones).

Ejercicio 1

Ver

Solución 2

Ejercicios propuestos

Estatura de madre e hija. Calcule el coeficiente de correlación y determine el modelo que se ajusta a estos datos. Con base a estos resultados, halle la mejor predicción de estatura de la hija de una mujer que mide 66 pulgadas de estatura.

Ejercicio 2

Ver

Solución 3

Ejercicios propuestos

Oyentes y ventas de canciones. Determine el modelo de regresión lineal. Calcule el coeficiente de determianción , será que el modelo se ajusta bien a los datos? Calcule el mejor número predicho de álbumes vendidos por una canción con 20 (en cientos de millones) impresiones de oyentes. (En la siguiente tabla, las impresiones de oyentes están en cientos de millones y el número de álbumes vendidos está en cientos de miles).

Ejercicio 3

13. Video de apoyo:Regresión

13. Video de apoyo: Correlación

14. Referencias bibliográficas:

  1. TRIOLA Mario, “Estadística Elemental”. Editorial Addison Wesley, 10ª edición. México. (2009)
  2. NEWBOLD Paul, CARLSON William. “Statistics for business and economics” Pearson Education Limited. 8ª edición. England. (2013)
  3. SPIEGEL Murray, SCHILLER Gerald, “Probabilidad y Estadística”, MacGraw Hill, 3° edición, México. (2010)

Gracias!