Example: confidence

Correlación y regresión, simple y múltiple

Correlaci n y regresi n, simple y m ltiple Pedro Morales Vallejo Universidad Pontificia Comillas, Madrid, Facultad de Ciencias Humanas y Sociales ( ltima revisi n: 5 de Julio de 2011). Documento disponible en ndice 1. Correlaci n simple (bivariada) y regresi n simple .. 3. Significado del coeficiente de correlaci n .. 3. Correlaci n y predicci n .. 3. C mo construir la recta de regresi n .. 5. El coeficiente b: aumento en Y (variable dependiente) al aumentar en una unidad X (variable independiente): .. 6. Significaci n estad stica de la pendiente de la recta (b).. 9. La predicci n de las puntuaciones individuales .. 9. Regresi n, residuales y proporci n de varianza explicada por el coeficiente de correlaci 10. Regresi n y an lisis de 12. 2. Correlaci n m ltiple y regresi n m ltiple.

En la figura 2 suponemos que X representa la dificultad percibida de una asignatura e Y es el número de respuestas correctas en una prueba objetiva. Si en el caso de la figura 2 (r = .78) trazamos una perpendicular desde el eje de las abscisas (X) a la recta de regresión y de la recta

Tags:

  Asignatura

Information

Domain:

Source:

Link to this page:

Please notify us if you found a problem with this document:

Other abuse

Transcription of Correlación y regresión, simple y múltiple

1 Correlaci n y regresi n, simple y m ltiple Pedro Morales Vallejo Universidad Pontificia Comillas, Madrid, Facultad de Ciencias Humanas y Sociales ( ltima revisi n: 5 de Julio de 2011). Documento disponible en ndice 1. Correlaci n simple (bivariada) y regresi n simple .. 3. Significado del coeficiente de correlaci n .. 3. Correlaci n y predicci n .. 3. C mo construir la recta de regresi n .. 5. El coeficiente b: aumento en Y (variable dependiente) al aumentar en una unidad X (variable independiente): .. 6. Significaci n estad stica de la pendiente de la recta (b).. 9. La predicci n de las puntuaciones individuales .. 9. Regresi n, residuales y proporci n de varianza explicada por el coeficiente de correlaci 10. Regresi n y an lisis de 12. 2. Correlaci n m ltiple y regresi n m ltiple.

2 13. Correlaci n m ltiple .. 13. Correlaci n m ltiple ajustada .. 14. Valoraci n de la magnitud de R2 .. 14. N mero de sujetos y n mero de 14. Ecuaci n de regresi n m ltiple .. 15. Los coeficientes beta .. 15. Finalidades de las ecuaciones de regresi n m ltiple .. 16. a) nfasis en la explicaci n .. 16. b) nfasis en la predicci n .. 17. Selecci n de las mejores variables predictoras o explicativas .. 17. a) Criterios 18. b) Escoger y comparar subconjuntos con un n mero menor variables .. 19. c) Procedimientos hacia delante y hacia atr s .. 20. d) Regresi n paso a paso (stepwise regression) .. 22. Otros an lisis multivariados .. 22. Referencias bibliogr ficas .. 22. 2. Correlaci n y regresi n simple y m ltiple 3. 1. Correlaci n simple (bivariada) y regresi n simple Significado del coeficiente de correlaci n Recordamos en primer lugar algunas ideas b sicas (que suponemos conocidas) sobre el concepto e interpretaci n del coeficiente de correlaci n (r de Pearson): r = expresa en qu grado los sujetos tienen el mismo orden en las variables X e Y.

3 Si la correlaci n es perfecta (r = 1) el orden de los sujetos en ambas variables es el mismo y el diagrama de dispersi n coincidir con una recta (la recta de regresi n)1. r2 = expresa la proporci n de variaci n conjunta (varianza com n). El coeficiente de relaci n supone y expresa relaciones lineares en las que a un mayor valor en X corresponde un mayor valor de Y, como se ve gr ficamente en los diagramas de dispersi n. Sin embargo el valor de la correlaci n por s solo no nos dice si la relaci n es linear: la relaci n puede ser curvil nea: a m s X corresponde m s Y, hasta llegar a un punto de inflexi n en el que si aumenta X empieza a bajar Y. Un ejemplo claro ser a el de la relaci n entre edad y fuerza f sica en una muestra de sujetos entre 10 y 90 a os: en los primeros tramos de edad a mayor edad tendremos m s fuerza f sica, pero se llega un punto de inflexi n en el que al aumentar la edad va bajando la fuerza f sica.

4 De hecho coeficientes de correlaci n de id ntica magnitud pueden provenir de situaciones muy distintas que no se corresponden con una relaci n linear, por eso es conveniente verificar al menos con alg n m todo gr fico (como los diagramas de dispersi n) la tendencia linear de la relaci En general en las Ciencias Sociales asumimos que las relaciones son lineares. Tambi n el valor del coeficiente de relaci n puede dar una impresi n equ voca porque puede estar determinado por algunos sujetos at picos; por eso es normal excluir en estos estudios correlacionales a los sujetos que tienen puntuaciones muy extremas o hacer los an lisis por duplicado, con y sin los sujetos extremos. Si los resultados son distintos se pueden examinar las peculiaridades de estos sujetos3. Correlaci n y predicci n En el caso de relaci n perfecta entre dos variables (r = 1) el diagrama de dispersi n ser a una recta, y trazando una perpendicular desde el eje de las abscisas (X, variable independiente o predictora) hasta la recta y trazando desde la recta otra perpendicular hasta el eje de las coordenadas (Y, variable dependiente o predicha o explicada por X) tendr amos la puntuaci n en Y que corresponde a una determinada puntuaci n en X (como queda claro en la figura 1).

5 1. El nombre y concepto de la recta de regresi n tiene su origen en las investigaciones sobre gen tica de Francis Galton (primo de Charles Darwin) que descubri que los hijos de padres altos tienden a ser m s bajos que sus padres, y los hijos de padres bajos tienden a ser m s altos; lo mismo observ en las hijas con respecto a sus madres; hay una regresi n hacia a la media. 2. Anscombe (1973) public con datos ficticios cuatro diagramas de dispersi n muy distintos pero que corresponden a un id ntico coeficiente de correlaci n de .82; estos diagramas son muy ilustrativos y los reproducen con su explicaci n algunos autores (por ejemplo Fox; 1993:246 y Etxcheberria, 1999:49) y tambi n podemos encontrarlos en Internet (como Dallal, 2001;. Dodson, 2006; Behrens, 1997). 3. No hay un criterio un nime sobre cu ndo una puntuaci n es at pica; un criterio aceptable y habitual es excluir a los sujetos con una puntuaci n t pica superior a z = 3 (Osborne y Overbay, 2004; en estos autores puede verse un tratamiento m s amplio sobre los outliers).

6 Correlaci n y regresi n simple y m ltiple 4. Y. Variable criterio Recta de (dependiente) regresi n X. Variable predictora (independiente). Figura 1. La variable criterio o dependiente (Y) es la que buscamos explicar o estimar (o predecir). por su relaci n con la variable X, que es la variable independiente, explicativa o predictora. Unas veces nuestra intenci n ser predecir o hacer una estimaci n de la puntuaci n en Y de un sujeto una vez conocida su puntuaci n en X; otras veces m s que predecir en sentido propio nos interesa ver simplemente en qu medida las diferencias en X explican las diferencias en Y4. Estamos suponiendo que ambas variables, X e Y, son continuas pero la variable independiente (X) tambi n puede ser dicot mica (1 0), como puede ser la pertenencia a un grupo u otro (por ejemplo, grupos experimental y control); en cualquier caso ahora nos referimos a puntuaciones continuas.

7 Si la correlaci n, como suele suceder, no es perfecta, el diagrama de dispersi n ya no coincidir con una recta, aunque s podemos trazar la recta que mejor expresa la relaci n (recta de regresi n, figura 2). La recta que mejor se ajusta a los datos es la que minimiza las diferencias (elevadas al cuadrado) de los puntos con respecto a la recta (recta de cuadrados m nimos). El s mbolo r del coeficiente de correlaci n (desarrollado despu s por Pearson) viene del concepto de regresi n. 40 r = .7828. A = 37. B = Y 34. 31. 28. 25. 22. 0 1 2 3 4 5 6. X. Figura 2. 4. Deben estar claras las dos finalidades o intenciones del investigador. Explicar y predecir (o pronosticar) no son palabras sin nimas. La intenci n del investigador (quiz s la m s habitual) puede ser explicar, entender las diferencias en una variable (Y) a partir de su relaci n con otra (X), pero tambi n puede ser la de estimar o pronosticar la puntuaci n en Y una vez conocida su relaci n con X.

8 Esta distinci n tiene mayor importancia en la correlaci n y regresi n m ltiple, cuando queremos escoger los mejores predictores entre varios posibles (cuando ste es el caso; tambi n podemos tener una finalidad explicativa en la regresi n m ltiple). Correlaci n y regresi n simple y m ltiple 5. En la figura 2 suponemos que X representa la dificultad percibida de una asignatura e Y es el n mero de respuestas correctas en una prueba objetiva. Si en el caso de la figura 2 (r = .78). trazamos una perpendicular desde el eje de las abscisas (X) a la recta de regresi n y de la recta de regresi n al eje de las coordenadas (Y), no tendr amos la puntuaci n exacta en Y que corresponde a una determinada puntuaci n en X, pero s tendr amos la puntuaci n m s probable (por supuesto con un margen de error, que ser mayor en la medida en que el coeficiente de correlaci n sea menor).

9 Realmente la puntuaci n localizada en Y es la media esperada de los sujetos que tengan una puntuaci n determinada en X. C mo construir la recta de regresi n Lo que importa ahora es ir captando que a una mayor pendiente de la recta corresponde un mayor impacto de X sobre Y, por eso es importante ver c mo se dibuja la recta de regresi n (aunque nos la d hecha un programa de ordenador), porque nos ayuda a entender qu variables hacen que la pendiente sea mayor o menor. La recta no puede obviamente pasar por todos los puntos (solamente en el caso improbable de que r = 1); nuestra recta de regresi n va a ser el mejor ajuste: como ya hemos indicado, esta recta pasar entre esos puntos de forma que se minimicen las sumas de cuadrados (diferencias elevadas al cuadrado) entre esa recta y los puntos del diagrama.

10 Ya sabemos que la media es el punto de la distribuci n que hace m nimas la suma de las desviaciones con respecto a ese punto; en nuestro caso la recta equivale o es an loga a una media, o, m s exactamente, la recta une las medias de Y que corresponden a las sucesivas puntuaciones en X. De la misma manera que la suma algebraica (manteniendo los signos m s y menos) de todas las puntuaciones con respecto a la media es igual a cero, la suma algebraica de todas las desviaciones de los puntos con respecto a la recta de regresi n es tambi n igual a cero. Nos basta conocer dos puntos para dibujar una recta: a = valor de Y cuando X = 0 (origen de la recta; donde la recta corta el eje de las ordenadas (Y) (tambi n se le denomina intercepci n o intercept en ingl s). b = cu nto aumenta Y al aumentar X en una unidad.)


Related search queries