Transcription of Lucrarea nr. 7 — Regresia liniară simpl - Excel, SPSS
1 Statistic multivariat Lucrarea nr. 7 Regresia liniar simpl - Excel, SPSS - A. No iuni teoretice Consider m c , ntr-un e antion de volum n s-au determinat perechile de valori (xi,yi), i=1,..,n, corespunz toare celor dou variabile pentru care dorim s studiem asocierea i rela ia dintre ele. O prim apreciere asupra distribu iei comune o vom avea dac realiz m diagrama de mpr tiere a valorilor, de fapt reprezentarea ntr-un sistem de axe a punctelor av nd coordonatele x i y. Analiza vizual a organiz rii i formei norului de puncte ob inut poate oferi indicii importante asupra rela iei dintre variabile.
2 Datele de sondaj vor sus ine ipoteza asocierii ntre variabile dac forma norului de puncte se apropie de o curb func ional . Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dac n norul de puncte nu se poate distinge o tendin , se va spune c variabilele nu sunt corelate. n figura urm toare sunt ilustrate c teva tendin e identificabile direct. Cazul (a) ilustreaz o asociere pozitiv , (b) o asociere negativ , (c) lips de asociere, (d) asociere curbilinie. Rela iile de interes pentru discu ia din continuare sunt cele ilustrate n cazurile (a) i (b), unde este identificabil o tendin liniar n norul de puncte.
3 Pentru a sintetiza modul n care schimb rile lui Y sunt asociate cu schimb rile lui X, metoda matematic utilizat este "metoda celor mai mici p trate" (Legendre, 1806). Aplicat n cazul nostru, asocierea dintre X i Y este reprezentat printr-o dreapt trasat printre punctele diagramei de mpr tiere. Linia estimat este "cea mai bun " n sensul c exprim cel mai central drum printre puncte: linia pentru care suma p tratelor distan elor (pe vertical ) dintre puncte i dreapt este minim . Termenul comun pentru dreapta estimat este acela de dreapta de regresie.
4 X0 y0 Distan ele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizeaz valoarea minim a p tratelor erorilor, n sensul c orice alt dreapt produce o sum de p trate mai mare. Este de amintit c o proprietate a mediei aritmetice este aceea c suma p tratelor diferen elor de la medie are o valoare minim . Astfel se poate spune c dup cum media reprezint punctul de echilibru pentru o distribu ie univariat de scoruri, la fel dreapta de regresie reprezint punctul de echilibru ntr-o distribu ie bivariat . Utilitatea dreptei de regresiei este aceea c serve te ca baz pentru predic ia valorilor lui Y asociate valorilor lui X.
5 Astfel, dat o valoare x0, valoarea prognozat pentru Y este y0, ordonata pe dreapta de regresie corespunz toare abscisei x0. Problema estim rii erorilor de predic ie va fi tratat o dat cu prezentarea modelului general. Problema prezentat poate fi formulat matematic drept determinarea cantit ilor a i b din ecua ia Ye = a + b X, unde Ye este valoarea prezis (estimat ) a variabilei dependente; a este termenul liber al dreptei de regresie (valoarea pentru X=0); b este coeficientul de regresie (cantitatea cu care se modific Y atunci c nd X se modific cu o unitate); X este valoarea variabilei independente.
6 Se demonstreaz c , prin metoda celor mai mici p trate, se ob ine: b = 2)())((XxYyXxiii i a = XbY . Valoarea estimat , totu i, este numai o medie care se poate a tepta. Acurate ea depinde de c t de bine se potrive te dreapta de regresie cu datele reale. Aceast potrivire este evaluat prin considerarea unei statistici: eroarea standard a estima iei, definit ca abaterea standard a erorilor de estimare (a reziduurilor estima iei): s = 2n)(2i eiyy unde yei reprezint valoarea estimat (prin ecua ia de regresie) pentru xi. O eroare standard mare arat c valorile observate sunt la distan de dreapta de regresie i deci aceasta este mai pu in reprezentativ pentru datele reale.
7 N consecin i valorile prognozate sunt afectate de erori mai mari. Analiza distribu ional a ecua iei de regresie simple Deoarece coeficien ii ecua iei de regresie sunt calcula i dintr-un e antion, rezult c au caracterul de statistici, se poate deci vorbi de reparti ia lor de sondaj etc. Acest fapt permite analiza distribu ional a coeficien ilor, n sensul inferen ei statistice: ecua ia determinat prin formulele prezentate este doar o estima ie a ecua iei care are loc la nivel de popula ie. Prin urmare, ecua ia de regresie calculat Ye = a + b X este estima ia modelului general Ye = + X.
8 O discu ie mai ampl este prezent la Lucrarea cu tema "modelul liniar", aici se prezint doar c teva elemente. Analiza distribu ional este bazat pe ipoteza: pentru orice valoare fixat X (variabila independent ), Y (variabila dependent ) este distribuit normal, cu aceea i dispersie peste tot. Se demonstreaz atunci c reparti ia de sondaj a fiec rui coeficient de sondaj are ca medie valorile parametrilor: Exp(a) = , Exp(b) = . Teste de semnifica ie. Testul principal este acela al coeficientului lui X, deoarece acesta con ine informa ia privind asocierea dintre Y i X.
9 Ipotezele testului (un test t) sunt: H0: = 0 H1: 0 Dac nu se respinge H0, atunci leg tura liniar dintre Y i X nu este semnificativ , cea mai bun predic ie este dat de media lui Y. Valorile estimate de dreapta de regresie trebuiesc g ndite ca medii ale valorilor Y asociate cu un X particular. Altfel spus, dac am dispune de e antioane repetate, mediile valorilor Y (corespunz toare valorii X) vor fi date de dreapta de regresie. Dac not m cu y0 valoarea estimat corespunz toare lui xo, adic y0 = a + b x0, atunci abaterea standard a lui y0 este s(y0) = s +220)()(1xxxxni, unde s este abaterea standard a estima iei.
10 Se poate construi atunci, pentru un prag de semnifica ie fixat , intervalul de ncredere pentru valoarea estimat : (y0-t1- /2;n-2s(y0), y0+t1- /2;n-2s(y0)) Atunci c nd valorile x0 sunt mai dep rtate de media lui X, intervalul de ncredere se m re te, prognoza este nso it de erori mai mari. Predic iile pentru valorile Y vor fi mai precise n apropiereas mediei lui X. Coeficientul de corela ie (liniar ) Analiza de regresie este, n esen , o metod pentru a permite predic ii, adic s estim m o valoare a unei variabile Y atunci c nd dispunem de o valoare a variabilei asociate X.