NÚMEROS. Revista de didáctica de las matemáticas
Volumen 35, septiembre de 1998, páginas 32-43
Resumen
Aspectos geométricos de la regresión y
correlación lineal
Juan-Bosco Romero Márquez,
María de los Ángeles López y Sánchez-Moreno
Con este trabajo elemental de investigación en el aula presentamos como
una experiencia el estudio del problema: LA REGRESIÓN Y LA CORRELACIÓN
LINEAL DE UNA VARIABLE ESTADÍSTICA BIDIMENSIONAL
Y EL SIGNIFICADO GEMOÉTRICO, utilizando para ello las propiedades
elementales del trinomio de segundo grado y su gráfica, que es una parábola, y
la traslación de ejes de coordenadas, evitando con ello el cálculo con derivadas.
Al final damos una aplicación a la geometría del plano.
Abstract
In this article we presents sorne geometric topics over the regression and
correlation lineal in the secondary teaching.
Introducción
Comenzamos enunciando el siguiente problema.
Problema.- Sea la variable estadística bidimensional (X,Y) donde X e Y
son variables estadísticas unidimensionales, de la que conocemos la distribución
conjunta de puntos, P¡(X¡,Y¡), con i = 1, ... n
Queremos encontrar e interpretar las rectas de regresión lineal de y sobre
x, dada por y = b x + a, y la recta de regresión lineal de x sobre y, dada por
x = b' y+ a', utilizando como criterio de optimización el de mínimos cuadrados,
para determinarlas como las curvas de ajuste o aproximación de la nube de
puntos P¡, i = 1, ... n.
Es decir: calcular las rectas de regresión lineal de tal forma que la desviación
cuadrática, de y sobre x, como de x sobre y, que están dadas, respectivamente,
por las fórmulas:
n
S (a, b) = 2: (Y¡ - (a+b x¡))2 (1), (y sobre x ), y
i= 1
Aspectos geométricos de la regresión y correlación lineal
n
S (a' ,b') = L (X¡ - (a'+b' Y¡))2 (2), ( x sobre y),
i= 1
sean mínimas.
33
Basta resolver el problema para el caso (1), ya que el caso (2), se resolverá
por simetría intercambiando los papeles de las variables.
Observación: A la desviación cuadrática definida anteriormente, también
se le llama error cuadrático.
Resultados previos
Los alumnos deben conocer y manejar completamente los siguientes conceptos
y resultados:
a) La función cuadrática y= f(x) = ax2+ bx + c, donde a,b,c, EJR, con a no
nulo y cuya gráfica es una parábola con eje de simetría vertical, y con las
ramas hacia arriba (cóncava) si a> O, y con las ramas hacia abajo (convexa),
si a< O.
Los resultados anteriores son consecuencia del estudio del signo de la función
cuadrática, y = ax2 + bx + c, y de sus propiedades algebraicas y geométricas
elementales, en su dominio, lR
a1) El vértice, V, de la parábola viene dado por:
V (-b/2a, f(-b/2a)), que es, el punto mínimo o máximo absoluto de la función
o de la parábola, respectivamente, para a > O, y a< O.
a2) Dada la variable estadística X, cuyos valores dados son X¡, i = 1,2, ... n.
n
2: X¡
i = 1 Definimos X
n , (3), la media aritmética de los datos,
X¡, i = 1,2, .. . n.
Definimos el error de un dato X¡, con respecto a la media X, o con respecto
a un dato arbitrario x, por las expresiones:
d¡ =X¡ - X, o, d¡ (x) O X¡= x. Es claro que puede ocurrir que la suma de todos
los errores anteriores puede dar cero. Por esta causa esta suma de errores o
desviaciones no es significativa para estudiar las propiedades de la media arit-mética,
x.
Para caracterizar la media aritmética, X, necesitamos definir el error
cuadrárico de los errores d = x - X, i = 1,2, ... n, de las desviaciones de los datos
X¡, con respecto a la media, x, como sigue:
34 Juan-Basca Romero Márquez y María de los Ángeles López y Sánchez-Moreno
n
S (x) = L (X¡ - xl, donde X EJR , (4)
i = 1
Es claro, que la función y= S (x) es una función cuadrática de la variable x,
que es, positiva, y que, por lo tanto alcanza su mínimo absoluto en el punto
2: x. - -, d . 1 d. X = , es ec1r en a me 1a.
n
a) Traslación de ejes de coordenadas.- Si designamos por XY, y X'Y' dos
sistemas de coordenadas cartesianas relacionados por el vector de traslación,
t = (a,b) tenemos que, si P(x,y) y P(x' ,y'), son las coordenadas del punto P, con
respecto a los ejes XY, y X'Y', respectivamente, tenemos para las ecuaciones
de la traslación de ejes:
x' = x - a, y' =y - b. (5)
Con todo lo anterior ya estamos en condiciones de resolver el problema
propuesto.
Rectas de regresión lineal. Coeficiente de correlación lineal y su interpretación
geométrica y algebraica.
Sea la variable estadística bidimensional, (X, Y), de la que conocemos la
distribución de datos, P¡(X¡,Y¡), i = 1,2, .. . n.
Llamamos centro de gravedad o baricentro de la distribución o nube de
puntos anterior, al punto G( X, y), donde X e y, son las medias aritméicas de las
variables estadísticas unidimensionales x e y, respectivamente.
Recuérdese que, en cierto sentido, toda variable estadística bidimensional
se puede considerar como la proyección o recomposición según nos convenga,
de las variables estadísticas, X e Y, respectivamente.
Vamos a determinar, por ejemplo, la recta de regresión de Y, sobre X, es
decir, la recta de la forma: y = a + b x, (donde a y b son los parámetros a
determinar del haz de rectas del tipo anterior), de manera que el error cuadrático,
de y sobre x, dado por (1), sea mínimo. Esto es: la recta de y sobre x, que está
más cerca de la nube de puntos de acuerdo con el criterio del error cuadrático,
o el también llamado "método de ajuste o de aproximación por nínimos cuadrados".
Aspectos geométricos de la regresión y correlación lineal 35
Para resolver el problema propuesto definimos la traslación de ejes, x' =
x - x, y'= y - Y, de modo que, con este cambio de coordenadas, el origen del
nuevo sistema de coordenadas, es el punto O' (x, y).
Así, en el nuevo sistema de coordenadas la variable bidimensional (X,Y) se
transforma en la variable bidimensional (X' ,Y'), de tal manera que:
x'¡=x¡-X, y'¡= Y¡ - y, i = 1,2, ... n.
son las coordenadas de los puntos, P¡, en el sistema de coordenadas, X'Y'.
Por tanto, de acuerdo con la fórmula del error de mínimos cuadrados dada
por ( 1 ), podemos escribir operando y reagrupando términos en la misma que:
S(a, b) = ¿:(Y¡ - (a+ b x¡))2 =¿:(Y¡+ y -Y - a - b(x¡ -x+x)) =
S(a, b) = ¿:(y'¡+ y- a - b x'¡ - b x)2 (6) , a, b E lR que es una función
de las variables reales, a y b, y que representaría, en el sistema de coordenadas,
(a,b,S), un paraboloide elíptico, como es fácil de probar.
Ahora bien, si elegimos entre las rectas que buscamos aquellas en las que
y= a + b x, es decir las que pasan por el punto G(x, y), que es el centro de
gravedad de la distribución, en la relación (6), obtenemos:
S(a, b) = S'(b) = L (y'¡ - b x'j)2 =b2 L x'¡2 -2 b L x'¡ y'¡+ LY'¡2 =
= A b2
- 2 B b + C, (7), que es una función cuadrática en b, que puede ser
representada como una parábola en el plano (b S'), y donde hemos puesto
como A=L:x'¡2
, B=L:x'¡ y'¡ y C=L:y'¡2
Como A> O, el vértice de (7) está en el mínimo absoluto, y viene dado por:
2B
b=
2A
""' ,2 ,2
L, Xi y i
L ,2
X· 1
(8)
De la relación (8), obtenemos que el mínimo de (7), es:
""' ' 2 L, Xi • ""' ' 2 ( ""' ' ' )2 L-Y¡ - _¿,X¡Y¡
S'(b)=-------- --~O, (9)
""' ' 2 L, Xi
36 Juan-Bosco Romero Márquez y María de los Ángeles López y Sánchez-Moreno
De la fórmula (9), obtenemos a partir de su numerador positivo una nueva
demostración de la desigualdad de Cauchy-Schawarz, y con la igualdad alcanzada,
si y sólo si, y'¡ =kx'¡, i = 1,2, ... n, es decir si los vectores x' = (x'¡, ... ,x'n)
e y' =(y' ¡, .. . y' n) son proporcionales.
Por todo lo anterior, tenemos que la recta de regresión de y sobre x viene
dada por las dos relaciones siguientes:
y= a+ b x, y= a+b x.
Restando ambas, llegamos a
:¿ x'¡ y'¡
y-y=by x(x- x)=----"'
' 2 ¿,X i
(X - X),
, se llama coeficiente de regresión lineal de y sobre x,
sxy = C(X,Y) = covarianza de X e Y= 2: x'¡ y'¡, y s/ = 2: x'¡2
, es el
cuadrado de la covarianza, de la variable X.
Por simetría se obtiene la recta de regresión de x sobre y. Viene dada por:
X - X = bxy ( y -Y ),
donde bxy' es el coeficiente de regresión lineal de x sobre y, y viene dado por
b sxy 1 · · d fi · · · xy = --2
- , con as mismas notac10nes y e 1mc10nes anteriores.
sy
Se define el coeficiente de correlación lineal, r = ± ybyx bxy , media
geométrica con signo de byx y bxy .
Se puede demostrar que:
1) - 1 ~ r ~ l.
2 2) r = -------
variación explicada
variación total
L ( Yest - Y )2
2: C Y - Y )2
1
.,
Aspectos geométricos de la regresión y correlación lineal 37
3) Definimos como sy. x =error .típico de estima de y sobre
x= ,y
sx . Y = error típico de estima x sobre y ~ ¡_L_(_x_~_x_est_)_2 _
Demostrar que
-
i) sy~x = s/ ( 1 - r2 ) = S' ( b ) y 2 - 2 2) sx·y - sx ( 1 - r .
ii) sy~x / s/y para la regresión lineal. ¿Es el resultado cierto para la regresión
no lineal?
Observación y Problemas.
1) La resolución clásica del problema de buscar la recta de regresión lineal
de y sobre x, dada por y = a + b x, minimizando la función
n
S(a,b) = _¿ (Y¡ - (a+ b x))2
, como una función diferenciable en las variables,
1= 1
a y b, utilizando el cálculo diferencial de dos variables para la determinación de
su mínimo, ver(l).
2) Una buena colección de ejercicios de ampliación para profesores y alumnos
sobre los siguientes tópicos de este tema: rectas de regresión lineal, coeficientes
de regresión, coeficiente de correlación lineal, coeficiente de determinación
(r\ varianza residual, con el estudio y el significado de sus propiedades
algebraicas y geométricas, tanto en lo que se refiere a la población, como a la
muestra se puede enontrar en los libros citados en la bibliografia, y en ~special,
en (1).
También se encuentran en todos los libros citados en la bibliografia la representación
gráfica e interpretación de las rectas de regresión lineal, y de sus
topicos asociados.
En (1 ), también se estudia la regresión no lineal y la regresión múltiple y
parcial, lineal y no lineal.
38 Juan-Bosco Romero Márquez y María de los Ángeles López y Sánchez-Moreno
Problemas
1) Si la recta de regresión de mínimos cuadrados de y sobre x viene dada
por
y = a + b x, demostrar s}y =
2 LY -a2:y-b2:xy
n
2) Utilizando 1 ), probar:
L (y - y )2 - b L (X-X) (y-y)
S 2 - ------------- y·x
n
3) Demostrar que 2: ( y - Y )2
= L (y - y est )
2 + L ( y est - Y )2
4) La recta de regresión de y sobre x es y = a + b x donde b = r sy / sx.
Análogamente, la recta de regresión de x sobre y es x = c + d y donde ·
2 d = r sy / sx. Entones b d = r .
5) Aplicando la fórmula del ámgulo entre dos rectas, demostrar que el ángulo
determinado por las dos rectas de regresión lineal muestrales de mínimos cuadrados
viene dada por
2 (1-r)sxy
arct --------
Aplicaciones y complementos
En esta sección damos diferentes aplicaciones y complementos relacionados
con la regresión y correlación lineal.
Aplicaciones
Vamos a resolver un problema de regresión y correlación lineal a través de
un problema de tipo geométrico, y cuyo enunciado es el siguiente:
Considera el triángulo rectángulo de vértices A(O,O), B( a,O) y C(O,b ). Interpretando
estos vértices como datos una variable estadística bidimensional
Z = (X, Y), demostrar que las rectas de regresión lineal de Y sobre X, y de X
sobre Y son, las medianas correspondientes a los catetos del triángulo.
Calculad el coeficiente de correlación lineal.
Veamos la solución. Podemos considerar los casos: 1) a > O y b > O;
2) a> O y b >O. Basta con resolver el primero. Ver la figura (1) aparte.
Aspectos geométricos de la regresión y correlación lineal 39
Tenemos para el cálculo la siguiente tabla de frecuencias.
X y x2 y2 XY
o o o o o
o 2 o o a a
o b o b2 o
b
2 b2 o a a
Los momentos de primer y segundo orden de la distribución (X, Y) vienen
dados por:
ª10 = x = a/3 Y ª01 =y= b/3, ~o = a2/3 Y ª02 = b2/3, ª11 = O
El centro de gravedad o de la distribución es el baricentro del triángulo,
G(x,Y).
Las desviaciones típicas de X, de Y, y la covarianza de (X,Y) respectivamente,
están dadas por:
Y~o - ªlo
a v2. sx 3
Yao2 - a51
b V2. sy 3
sxy ª11 - ª10 ª01 - ab I 9
Nota: Los momentos respecto al origen de una variable estadística bidimensional,
Z = (X,Y) de frecuencias unitarias vienen dados por la siguiente expresión:
ªij = L ¡ , j xi yi , donde i, j =O, 1, 2 ...... .
Los coeficientes de regresión de Y sobre X, y de X sobre Y, denotados, byx'
bxy' respectivamente son:
2 2
byx = sxy I sx = - b/2a, bxy = sxy / sy = - a / 2 b.
De aquí, las rectas de regresión de Y sobre X y de X sobre Y, son las
siguientes:
ryx : y -Y = byx ( x - X ) ; y - b/3 = -b/2a ( x - a/3 ),
40 Juan-Bosco Romero Márquez y María de los Ángeles López y Sánchez-Moreno
rxy : X - X = bxy (y - y) ; X - a/3 = -a/2b (y - b/3 )
Se puede comprobar sin ninguna dificultad que son las medianas de los
catetos del triángulo rectángulo dado.
El coeficiente de correlación lineal
r = ± V byx bxy = ± 112
Nota: Se puede generalizar este problema para un triángulo cualquiera, y para
algunos tipos de polígonos.
Complementos
En la revista Parábola Vol. 14, n.3, editada por la University ofNew South
Wales, 1978, en las p.p. 33-34, encontramos el problema propuesto n. 377:
Sean X¡, Y¡ ( i = 1,2, ... n) números reales tales que
Probar que si z1, z2, .... , zn es cualquier ordenación de y 1, y2, .... , Yn
entonces X. (X· - z. )2
1 1 1
Ver (11) para encontrar la solución.
En la revista The Mathematical Gazette, n. 77 (1993), aparece la siguiente
nota: "Comparing Spearman's rank the product-moment correlation
coefficients", el siguiente teorema:
Teorema,. Sean (x1,y 1), (x2,y2) ... (xn,Yn) n z 2 datos de una variable
bidimensioal con x 1< x2 < .... <xn y y1< y2 < ... <yn tales que r8
= l.
Entonces
1
rz-n
- 1
Aspectos geométricos de la regresión y correlación lineal 41
Los autores son: C. Bradley y N. Lord. Ver (12).
Más recientemente, en la revista Monthly de la MAA, en Vol. 104, n5, May,
1997, pp. 458-459, tenemos el problema 10.384, propuesto por F. Kemp, en
1994, sobre "A Lower Bound on Correlation" y cuyo enunciado es:
"Supongamos x1 < x2 < ... < xn y y1 < y2 < ... <yn. Definimos el
coeficiente de correlación r en la forma usual:
donde x e y son las medias aritmética de los x e y, respectivamente. Demostrar
que
1
r ::'.'.
n - 1
La resolución que se publica es la dada por R.J. Chapman, de la University
de Exeter. Exeter, U.K., y la técnica empleada por este es distinta a la dada
anteriormente y consiste en utilizar el espacio euclídeo :!Rn en el que se construyen
un conjunto C, y unos vectores u, v E IRn, apropiados. Ver (13).
Conclusiones y comentarios
Está claro que en esta demostración para la obtención de las rectas de
regresión lineal de y sobre x, de x sobre y, respectivamente, hemos evitado en
todo momento el cálculo de derivadas parciales.
Se puede hacer de esta exposición elemental de la experiencia que hemos
presentado aquí, en la forma geométrica y algebraica de la regresión y correlación
lineal sin grandes dificultades en el segundo ciclo de la ESO, en el bachillerato
LOGSE, y en el actual BUP. Esta experiencia se ha realizado en este
año con un provecho aceptable para los alumnos.
Todo esto supone un cambio metodológico y didáctico profundo y posiblemente
novedoso e importante en la enseñanza de este tema, debido al carácter
elemental de la exposición: tanto de los razonamientos como de las técnicas
utilizadas. Todo ello es necesario hacerlo así, en este nivel educativo, para
conseguir la mejor educación matemática con nuestros alumnos en su doble
vertiente: enseñanza y aprendizaje de calidad.
Esperamos las críticas y las sugerencias constructivas que mejoren nuestra
42 Juan-Bosco Romero Márquez y María de los Ángeles López y Sánchez-Moreno
pequeña investigación, presentada en este artículo. Si, además, logramos no
aburrir a los alumnos menudo objetivo habremos conseguido, al hacerles más
sencillo y más asequible el aprendizaje de las matemáticas en estos niveles
educativos.
Hoy, para los tiempos que corren en la enseñanza ya es mucho.
Bibliografia
(1) Spiegel. M.(1970). Probabilidades y Estadística, Schaun, MacGraw-Hill,
Bogotá.
(2) Mode, E.B. (1982). Elementos de Probabilidad y Estadística, Reverte,
S.A. Barcelona.
(3) Nieto de Alba, U. (1980). Introducción a la Estadística, Vol. 1, 11, III,
Aguilar S.A., Madrid.
(4) A. Haber y R.P. Runyon. (1973). Estadística General, Fondo Educativo
Interamericano, México.
(5) L.G. Gotkin y L.S. Goldstein. (1079). Estadística Decriptiva, 1, 11, Texto
Programado, Limusa, México.
(6) A. Nortes. (1993). Estadística Teórica y Aplicada, PPU, Barcelona.
(7) M.R. Spiegel. (1970). Teoría y Problemas de Estadística, Schaum, MacGraw-
Hill, México.
(8) V.E. Gurman. (1974). Teoría de Probabilidades y estadística matemática,
Mir, Moscu.
(9) J.J. Thomas. (1980). Introducción al análisis estadístico para economista,
Marcombo, Barcelona.
(1 O) D. Downing y J. Clark. (1989). Statistic the easy way, Barron's, New
York.
(11) Parábola. (1978). Vol. 14, Nº 3, p.p. 33-34, Published the University of
New South Wales, Kensington, Australia.
(12) C. Bradley y N. Lord. (1993). Comparing Spearman 's rank and the
product-moment correlation coefficients, Vol. 77, p.p. 84-88.
(13) Problema. (1997). 10.384, Monthly, Vol. 104, Nº 5, May, p.p. 458-459.
(14) R. Courant y F. John. (1976). Introducción al cálculo y al análisis
matemático, Vol. 1, Limusa, México, .
(15) S. Ríos. (1967). Métodos estadísticos, De. Castillo, S.A. Madrid.
(16) W. Feller. (1962). An Introduction to Probability Theory and Its
Applications, John Wiley and Sons, New York.
Aspectos geométricos de la regresión y correlación lineal 43
(17) H. Cramer. (1953). Métodos Matemáticos de la Estadística, Aguilar,
S.A., Madrid.
(18) L.J. Kazmier. (1978). Teoría y problemas de Estadística aplicada a la
Economía y a la Administración, Schaum, MacGraw-Hill, Madrid.
Juan Bosco Romero Márquez (Montilla, Córdoba, 1945). Licenciado en
Ciencias Matemáticas, por la Universidad Complutense de Madrid. Fue
profesor de dicha Universidad, entre 1971 y 1976. Becario del Consejo
Superior de Investigaciones Científicas, desde 1972 a 1975. Actualmente
es catedrático de Enseñanza Media en Matemáticas en el I.E.S. "Isabel de
Castilla" de A vi la. Numerosas publicaciones en artículos, comunicaciones,
problemas, en revistas nacionales y extranjeras sobre Matemática Elemental
y Superior, sobre todo en problemas. Vicepresidente por Castilla-León
de la Sociedad "Puig Adam" de Profesores de Matemáticas.
María de los Ángeles López y Sánchez-Moreno (Madrid, 1946). Licenciada
en Ciencias Matemáticas por la Universidad Complutense de
Madrid. Desde 1976 es profesora de Matemáticas en diferentes Institutos.
Es profesora Tutora del Centro Asociado de la UNED de Avila.
Tiene publicaciones sobre Didáctica de las Matemáticas. Ha presentado
diversas comunicaciones en diferentes Jornadas, Congresos, etc.