Example: tourism industry

Lucrarea nr. 7 — Regresia liniară simpl - Excel, SPSS

Statistic multivariat Lucrarea nr. 7 Regresia liniar simpl - Excel, SPSS - A. No iuni teoretice Consider m c , ntr-un e antion de volum n s-au determinat perechile de valori (xi,yi), i=1,..,n, corespunz toare celor dou variabile pentru care dorim s studiem asocierea i rela ia dintre ele. O prim apreciere asupra distribu iei comune o vom avea dac realiz m diagrama de mpr tiere a valorilor, de fapt reprezentarea ntr-un sistem de axe a punctelor av nd coordonatele x i y. Analiza vizual a organiz rii i formei norului de puncte ob inut poate oferi indicii importante asupra rela iei dintre variabile.

semnificativă, cea mai bună predicţie este dată de media lui Y. Valorile estimate de dreapta de regresie trebuiesc gândite ca medii ale valorilor Y asociate cu un X particular. Altfel spus, dacă am dispune de eşantioane repetate, mediile valorilor Y (corespunzătoare valorii X) vor fi date de dreapta de regresie.

Information

Domain:

Source:

Link to this page:

Please notify us if you found a problem with this document:

Other abuse

Transcription of Lucrarea nr. 7 — Regresia liniară simpl - Excel, SPSS

1 Statistic multivariat Lucrarea nr. 7 Regresia liniar simpl - Excel, SPSS - A. No iuni teoretice Consider m c , ntr-un e antion de volum n s-au determinat perechile de valori (xi,yi), i=1,..,n, corespunz toare celor dou variabile pentru care dorim s studiem asocierea i rela ia dintre ele. O prim apreciere asupra distribu iei comune o vom avea dac realiz m diagrama de mpr tiere a valorilor, de fapt reprezentarea ntr-un sistem de axe a punctelor av nd coordonatele x i y. Analiza vizual a organiz rii i formei norului de puncte ob inut poate oferi indicii importante asupra rela iei dintre variabile.

2 Datele de sondaj vor sus ine ipoteza asocierii ntre variabile dac forma norului de puncte se apropie de o curb func ional . Astfel, se pot aprecia asocieri liniare, curbilinii etc. Dac n norul de puncte nu se poate distinge o tendin , se va spune c variabilele nu sunt corelate. n figura urm toare sunt ilustrate c teva tendin e identificabile direct. Cazul (a) ilustreaz o asociere pozitiv , (b) o asociere negativ , (c) lips de asociere, (d) asociere curbilinie. Rela iile de interes pentru discu ia din continuare sunt cele ilustrate n cazurile (a) i (b), unde este identificabil o tendin liniar n norul de puncte.

3 Pentru a sintetiza modul n care schimb rile lui Y sunt asociate cu schimb rile lui X, metoda matematic utilizat este "metoda celor mai mici p trate" (Legendre, 1806). Aplicat n cazul nostru, asocierea dintre X i Y este reprezentat printr-o dreapt trasat printre punctele diagramei de mpr tiere. Linia estimat este "cea mai bun " n sensul c exprim cel mai central drum printre puncte: linia pentru care suma p tratelor distan elor (pe vertical ) dintre puncte i dreapt este minim . Termenul comun pentru dreapta estimat este acela de dreapta de regresie.

4 X0 y0 Distan ele sunt referite ca erori (reziduuri). Deci dreapta de regresie realizeaz valoarea minim a p tratelor erorilor, n sensul c orice alt dreapt produce o sum de p trate mai mare. Este de amintit c o proprietate a mediei aritmetice este aceea c suma p tratelor diferen elor de la medie are o valoare minim . Astfel se poate spune c dup cum media reprezint punctul de echilibru pentru o distribu ie univariat de scoruri, la fel dreapta de regresie reprezint punctul de echilibru ntr-o distribu ie bivariat . Utilitatea dreptei de regresiei este aceea c serve te ca baz pentru predic ia valorilor lui Y asociate valorilor lui X.

5 Astfel, dat o valoare x0, valoarea prognozat pentru Y este y0, ordonata pe dreapta de regresie corespunz toare abscisei x0. Problema estim rii erorilor de predic ie va fi tratat o dat cu prezentarea modelului general. Problema prezentat poate fi formulat matematic drept determinarea cantit ilor a i b din ecua ia Ye = a + b X, unde Ye este valoarea prezis (estimat ) a variabilei dependente; a este termenul liber al dreptei de regresie (valoarea pentru X=0); b este coeficientul de regresie (cantitatea cu care se modific Y atunci c nd X se modific cu o unitate); X este valoarea variabilei independente.

6 Se demonstreaz c , prin metoda celor mai mici p trate, se ob ine: b = 2)())((XxYyXxiii i a = XbY . Valoarea estimat , totu i, este numai o medie care se poate a tepta. Acurate ea depinde de c t de bine se potrive te dreapta de regresie cu datele reale. Aceast potrivire este evaluat prin considerarea unei statistici: eroarea standard a estima iei, definit ca abaterea standard a erorilor de estimare (a reziduurilor estima iei): s = 2n)(2i eiyy unde yei reprezint valoarea estimat (prin ecua ia de regresie) pentru xi. O eroare standard mare arat c valorile observate sunt la distan de dreapta de regresie i deci aceasta este mai pu in reprezentativ pentru datele reale.

7 N consecin i valorile prognozate sunt afectate de erori mai mari. Analiza distribu ional a ecua iei de regresie simple Deoarece coeficien ii ecua iei de regresie sunt calcula i dintr-un e antion, rezult c au caracterul de statistici, se poate deci vorbi de reparti ia lor de sondaj etc. Acest fapt permite analiza distribu ional a coeficien ilor, n sensul inferen ei statistice: ecua ia determinat prin formulele prezentate este doar o estima ie a ecua iei care are loc la nivel de popula ie. Prin urmare, ecua ia de regresie calculat Ye = a + b X este estima ia modelului general Ye = + X.

8 O discu ie mai ampl este prezent la Lucrarea cu tema "modelul liniar", aici se prezint doar c teva elemente. Analiza distribu ional este bazat pe ipoteza: pentru orice valoare fixat X (variabila independent ), Y (variabila dependent ) este distribuit normal, cu aceea i dispersie peste tot. Se demonstreaz atunci c reparti ia de sondaj a fiec rui coeficient de sondaj are ca medie valorile parametrilor: Exp(a) = , Exp(b) = . Teste de semnifica ie. Testul principal este acela al coeficientului lui X, deoarece acesta con ine informa ia privind asocierea dintre Y i X.

9 Ipotezele testului (un test t) sunt: H0: = 0 H1: 0 Dac nu se respinge H0, atunci leg tura liniar dintre Y i X nu este semnificativ , cea mai bun predic ie este dat de media lui Y. Valorile estimate de dreapta de regresie trebuiesc g ndite ca medii ale valorilor Y asociate cu un X particular. Altfel spus, dac am dispune de e antioane repetate, mediile valorilor Y (corespunz toare valorii X) vor fi date de dreapta de regresie. Dac not m cu y0 valoarea estimat corespunz toare lui xo, adic y0 = a + b x0, atunci abaterea standard a lui y0 este s(y0) = s +220)()(1xxxxni, unde s este abaterea standard a estima iei.

10 Se poate construi atunci, pentru un prag de semnifica ie fixat , intervalul de ncredere pentru valoarea estimat : (y0-t1- /2;n-2s(y0), y0+t1- /2;n-2s(y0)) Atunci c nd valorile x0 sunt mai dep rtate de media lui X, intervalul de ncredere se m re te, prognoza este nso it de erori mai mari. Predic iile pentru valorile Y vor fi mai precise n apropiereas mediei lui X. Coeficientul de corela ie (liniar ) Analiza de regresie este, n esen , o metod pentru a permite predic ii, adic s estim m o valoare a unei variabile Y atunci c nd dispunem de o valoare a variabilei asociate X.


Related search queries