Análisis de regresión y correlación
Cuando se trabaja con dos o más variables, es importante conocer la relación entre ellas. Si una o más variables son aleatorias, no habrá una relación unívoca entre los valores de dos de las variables -es decir, dado un valor de una variable (la variable controlada), hay un posible rango de valores de la otra- y por lo tanto se requiere una descripción probabilística. La relación probabilística de las variables, que se describe con la media y la varianza de una variable aleatoria en función de los valores de la otra variable, se conoce como análisis de regresión. Cuando el análisis se limita a funciones lineales, se trata de una regresión lineal, pero la regresión puede ser también de tipo no lineal. En algunos casos, problemas de regresión no lineal pueden convertirse en lineales mediante una transformación de las variables originales.
Regresión con varianza constante
Cuando se ubican en una gráfica bidimensional las parejas de datos de dos variables X y Y, debe tenerse en cuenta que los valores de Y por ejemplo, dependen de X, y por tanto los datos de Y han de analizarse (para determinar la media, la varianza, etc.) con la debida consideración de X. En la figura 1 se observa una tendencia general de los valores de Y, a aumentar directamente proporcionales con X (X puede ser determinística o aleatoria). Entonces la media de los valores de Y aumentará con el aumento de los valores de X, aunque los valores reales de Y no necesariamente tienen que incrementarse directamente con los valores de X.
Supongamos que esta relación es lineal, es decir,
|
(1) |
donde
y
son constantes, y la varianza de Y puede ser independiente o ser función de
X. Esta ecuación se conoce como la regresión lineal de Y sobre X. Vamos a considerar el
caso con
= constante.
Muchas rectas, pueden satisfacer la función del valor medio de Y,
dependiendo de los valores de
y
. La mejor línea será la que pase entre
los puntos de los datos con el mejor ajuste. En la figura 1, se muestra la
diferencia entre cada valor observado
y la
recta
, es decir,
. Entonces la mejor
línea es aquella con la diferencia total mínima, y se obtiene minimizando la suma de los
errores (diferencias) cuadrados, o sea minimizando
|
(2) |
Donde n es el número de puntos de los datos. Este es el método
conocido como de los mínimos cuadrados. Para obtener los estimados
y
se procede a derivar la ecuación (2):
![]()
![]()

Figura 1. Análisis de Regresión lineal de datos de dos variables
de donde se obtiene
|
(3) |
|
(4) |
donde ![]()
La línea de regresión de los mínimos cuadrados es entonces:
|
(5) |
Esta línea de regresión es válida solamente en el rango de valores
de x observados. Las ecuaciones (1) a (5) se refieren a la regresión de Y
sobre X. Si X y Y son ambas variables aleatorias, puede obtenerse también la regresión
de X sobre Y, siguiendo el mismo procedimiento; en este caso se obtendría la ecuación de
regresión de
. En general, esta es una ecuación lineal diferente
de
. Sin embargo las dos ecuaciones siempre
se interceptan en
.
Ya que la tendencia general de la relación se explica con la línea de
regresión de la ecuación (5), la varianza alrededor de esta línea es la medida
de dispersión, que es la varianza condicional
. Para el caso en
el cual la varianza condicional
se asume constante en el rango de
interés de x, un estimado imparcial de la varianza es
|
(6) |
![]()
que es igual a
![]()
Y por lo tanto, la desviación estándar condicional es
.
Los coeficientes
,
y
, son estimados de los valores reales de
,
y
.
Análisis de correlación. Estimación del coeficiente de correlación
El estudio del grado de relación lineal entre variables aleatorias se conoce como análisis de correlación. La exactitud de una predicción lineal dependerá de la correlación entre las variables.
Matemáticamente la correlación entre dos variables X y Y, se mide por el coeficiente de correlación definido como
![]()
Basado en un grupo de valores observados X y Y, el coeficiente de correlación puede ser estimado por
|
(7) |

Donde
,
,
y
son respectivamente
las medias muestrales y las desviaciones estándares muestrales de X y Y. El valor de
está comprendido entre 1 y 1 y es una medida de la relación
lineal entre las variables X y Y. Si el
estimado está cercano a 1 ó -1, hay una fuerte relación lineal entre X y Y, y el
análisis de regresión lineal puede ser realizado; si
, no existe
una buena relación lineal entre las variables.
De las ecuaciones (4) y (7) puede demostrarse que
|
(8) |
la cual es una relación útil entre el estimado de
y el coeficiente de regresión
. Sustituyendo (8) en (6) se obtiene

![]()
de lo cual se tiene

A mayor valor de
, mayor será la reducción en
la varianza y por tanto, mejor será la predicción basada en la ecuación de regresión.
Bibliografía
Lomax W. R., Saul A.J. Laboratory Work in Hydraulics. Bolton Institute of Technology. Great Britain 1979.
Laboratory Work in Hydraulics
Ang Alkfredo H-S, Teng Wilson H. Probability Concepts in engineering Planning and Design. Volumen I. Basic Principles. John Wiley & Sons