Análisis de regresión y correlación


Cuando se trabaja con dos o más variables, es importante conocer la relación entre ellas. Si una o más variables son aleatorias, no habrá una relación unívoca entre los valores de dos de las variables -es decir, dado un valor de una variable (la variable controlada), hay un posible rango de valores de la otra- y por lo tanto se requiere una descripción probabilística. La relación probabilística de las variables, que se describe con la media y la varianza de una variable aleatoria en función de los valores de la otra variable, se conoce como análisis de regresión. Cuando el análisis se limita a funciones lineales, se trata de una regresión lineal, pero la regresión puede ser también de tipo no lineal. En algunos casos, problemas de regresión no lineal pueden convertirse en lineales mediante una transformación de las variables originales.

 

Regresión con varianza constante

Cuando se ubican en una gráfica bidimensional las parejas de datos de dos variables X y Y, debe tenerse en cuenta que los valores de Y por ejemplo, dependen de X, y por tanto los datos de Y han de analizarse (para determinar la media, la varianza, etc.) con la debida consideración de X. En la figura 1 se observa una tendencia general de los valores de Y, a aumentar directamente proporcionales con X (X puede ser determinística o aleatoria). Entonces la media de los valores de Y aumentará con el aumento de los valores de X, aunque los valores reales de Y no necesariamente tienen que incrementarse directamente con los valores de X.

Supongamos que esta relación es lineal, es decir,

(1)

donde y son constantes, y la varianza de Y puede ser independiente o ser función de X. Esta ecuación se conoce como la regresión lineal de Y sobre X. Vamos a considerar el caso con = constante.

Muchas rectas, pueden satisfacer la función del valor medio de Y, dependiendo de los valores de y. La mejor línea será la que pase entre los puntos de los datos con el mejor ajuste. En la figura 1, se muestra la diferencia entre cada valor observado y la recta , es decir,. Entonces la mejor línea es aquella con la diferencia total mínima, y se obtiene minimizando la suma de los errores (diferencias) cuadrados, o sea minimizando

(2)

Donde n es el número de puntos de los datos. Este es el método conocido como de los mínimos cuadrados. Para obtener los estimados y se procede a derivar la ecuación (2):

 

wpeE.jpg (8514 bytes)

 

 

Figura 1. Análisis de Regresión lineal de datos de dos variables

 

de donde se obtiene

(3)

(4)

donde

La línea de regresión de los mínimos cuadrados es entonces:

(5)

Esta línea de regresión es válida solamente en el rango de valores de x observados. Las ecuaciones (1) a (5) se refieren a la regresión de Y sobre X. Si X y Y son ambas variables aleatorias, puede obtenerse también la regresión de X sobre Y, siguiendo el mismo procedimiento; en este caso se obtendría la ecuación de regresión de . En general, esta es una ecuación lineal diferente de . Sin embargo las dos ecuaciones siempre se interceptan en .

Ya que la tendencia general de la relación se explica con la línea de regresión de la ecuación (5), la varianza alrededor de esta línea es la medida de dispersión, que es la varianza condicional . Para el caso en el cual la varianza condicional se asume constante en el rango de interés de x, un estimado imparcial de la varianza es

(6)

que es igual a

Y por lo tanto, la desviación estándar condicional es .

Los coeficientes , y , son estimados de los valores reales de , y .

 

Análisis de correlación. Estimación del coeficiente de correlación

El estudio del grado de relación lineal entre variables aleatorias se conoce como análisis de correlación. La exactitud de una predicción lineal dependerá de la correlación entre las variables.

Matemáticamente la correlación entre dos variables X y Y, se mide por el coeficiente de correlación definido como

Basado en un grupo de valores observados X y Y, el coeficiente de correlación puede ser estimado por

(7)

Donde , , y son respectivamente las medias muestrales y las desviaciones estándares muestrales de X y Y. El valor de está comprendido entre –1 y 1 y es una medida de la relación lineal entre las variables X y Y. Si el estimado está cercano a 1 ó -1, hay una fuerte relación lineal entre X y Y, y el análisis de regresión lineal puede ser realizado; si , no existe una buena relación lineal entre las variables.

De las ecuaciones (4) y (7) puede demostrarse que

(8)

la cual es una relación útil entre el estimado de y el coeficiente de regresión . Sustituyendo (8) en (6) se obtiene

de lo cual se tiene

A mayor valor de , mayor será la reducción en la varianza y por tanto, mejor será la predicción basada en la ecuación de regresión.


Bibliografía

Lomax W. R., Saul A.J. Laboratory Work in Hydraulics. Bolton Institute of Technology. Great Britain 1979.

Laboratory Work in Hydraulics

Ang Alkfredo H-S, Teng Wilson H. Probability Concepts in engineering Planning and Design. Volumen I. Basic Principles. John Wiley & Sons