Example: bachelor of science

Analisi delle Componenti Principali

UUNNIIVVEERRSSIITT DDEEGGLLII SSTTUUDDII DDEELLLLAA BBAASSIILLIICCAATTAA FFAACCOOLLTT DDII IINNGGEEGGNNEERRIIAA CCOORRSSOO DDII LLAAUURREEAA IINN IINNGGEEGGNNEERRIIAA MMEECCCCAANNIICCAA TESINA IN COMPLEMENTI DI PROBABILIT E STATISTICA 3 crediti Analisi delle Componenti Principali DOCENTE: Prof.: ELVIRA DI NARDO ANNO ACCADEMICO 2005/2006 STUDENTE: D ANDRIA PATRIZIA 22673 Analisi delle Componenti Principali 2 Indice Analisi delle Componenti Principali pg. 3 1 Descrizione del pg. 5 La varianza delle Componenti Procedura di estrazione delle Componenti Principali della matrice di covarianza.

nella medicina, in campo agro-alimentare, ecc... fino anche alla compressione di immagini; questo perché quando ci si trova a semplificare un problema, riducendo la dimensione dello spazio di rappresentazione, si ha allo stesso

Tags:

  Anche

Information

Domain:

Source:

Link to this page:

Please notify us if you found a problem with this document:

Other abuse

Transcription of Analisi delle Componenti Principali

1 UUNNIIVVEERRSSIITT DDEEGGLLII SSTTUUDDII DDEELLLLAA BBAASSIILLIICCAATTAA FFAACCOOLLTT DDII IINNGGEEGGNNEERRIIAA CCOORRSSOO DDII LLAAUURREEAA IINN IINNGGEEGGNNEERRIIAA MMEECCCCAANNIICCAA TESINA IN COMPLEMENTI DI PROBABILIT E STATISTICA 3 crediti Analisi delle Componenti Principali DOCENTE: Prof.: ELVIRA DI NARDO ANNO ACCADEMICO 2005/2006 STUDENTE: D ANDRIA PATRIZIA 22673 Analisi delle Componenti Principali 2 Indice Analisi delle Componenti Principali pg. 3 1 Descrizione del pg. 5 La varianza delle Componenti Procedura di estrazione delle Componenti Principali della matrice di covarianza.

2 Propriet delle Componenti Principali .. Il rango della matrice di La scelta del numero delle Componenti Standardizzazione delle variabili di Interpretazione delle Componenti Interpretazione geometrica delle Componenti Principali .. Le Componenti Principali nel caso di campione multivariato Sintesi delle caratteristiche delle Componenti Principali .. 2 pg. 23 Esempio n 1 .. Esempio n 2 .. Appendice Alcune 33 Analisi delle Componenti Principali Introduzione L Analisi delle Componenti Principali (detta pure PCA oppure CPA) una tecnica utilizzata nell ambito della statistica multivariata per la semplificazione dei dati d origine. Lo scopo primario di questa tecnica la riduzione di un numero pi o meno elevato di variabili (rappresentanti altrettante caratteristiche del fenomeno analizzato) in alcune variabili latenti.

3 Ci avviene tramite una trasformazione lineare delle variabili che proietta quelle originarie in un nuovo sistema cartesiano nel quale le variabili vengono ordinate in ordine decrescente di varianza: pertanto, la variabile con maggiore varianza viene proiettata sul primo asse, la seconda sul secondo asse e cos via. La riduzione della complessit avviene limitandosi ad analizzare le Principali (per varianza) tra le nuove variabili. Diversamente da altre trasformazioni (lineari) di variabili praticate nell ambito della statistica, in questa tecnica sono gli stessi dati che determinano i vettori di trasformazione. La PCA una tecnica statistica adoperata in molti ambiti: nell astronomia, nella medicina, in campo agro-alimentare, fino anche alla compressione di immagini; questo perch quando ci si trova a semplificare un problema, riducendo la dimensione dello spazio di rappresentazione, si ha allo stesso Analisi delle Componenti Principali 4tempo una perdita dell informazione contenuta nei dati originali.

4 La PCA consente di controllare egregiamente il trade-off tra la perdita di informazioni e la semplificazione del problema (basta scegliere il numero appropriato di autovettori). Il presente elaborato mira a descrivere tale metodologia dal punto di vista sia matematico che qualitativo. Analisi delle Componenti Principali 51. Descrizione del metodo L Analisi delle Componenti Principali con riferimento a p variabili, piconXXXXpi,..,,,..,,..,,21=21 (vettore casuale multivariato), consente di individuare altrettante p variabili (diverse dalle prime), piconYYYYpi,..,,,..,,..,,21=21 (vettore multivariato), ognuna combinazione lineare delle p variabili di partenza.

5 L obiettivo della PCA consiste nell individuare opportune trasformazioni lineari iY delle variabili osservate facilmente interpretabili e capaci di evidenziare e sintetizzare l informazione insita nella matrice iniziale Xr. Tale strumento risulta utile soprattutto allorquando si ha a che fare con un numero di variabili considerevole da cui si vogliono estrarre le maggiori informazioni possibili pur lavorando con un set pi ristretto di variabili. I dati di partenza vengono organizzati in una matrice, indicata con Xr: pjepiconXXXXXXXXXXXXX ppppppp,..,,,..,,21=21= = =21222211121121 LMOMMLLMr dove: le colonne rappresentano le p osservazioni effettuate; le righe sono le p variabili considerate per il fenomeno in Analisi . Si pu notare come la matrice dei dati d origine viene sinteticamente rappresentata con un vettore casuale multivariato (TpXXXX)(Kr21=).

6 Analisi delle Componenti Principali 6 Data la matrice Xr, che contiene p variabili correlate tra loro, si vuole ottenere una matrice di nuovi dati Yr, composta da p variabili incorrelate tra loro, che risultano essere combinazione lineare delle prime. E quindi si ha: )()()(ppppppXLY = =rr ( ) in forma estesa : = = =21222211121121222211121121222211121121p ppppppppppppppppppXXXXXXXXX lllllllllYYYYYYYYYYYYYLMOMMLLLMOMMLLLMOM MLLr ( ) Una generica componente di Yr, ad esempio la prima, si esprimer come: XlXlXlXlYYYYT piipipiiipiiiprKK11=11=211=11112111= == ,,,),,,( ( ) In sintesi, si ha che l i-esima componente di Yr data da: XlYTiir= ( ) a cui corrisponde una varianza pari a: iTiillYVarrr =)( ( ) e una covarianza di: jTijillYYCovrr =),( ( ) L la matrice caratteristica della trasformazione lineare, mentre le iY sono dette Componenti Principali .

7 Analisi delle Componenti Principali 7Il vettore multivariato TpYYYY)(Kr21= tale che il primo elemento 1Y comprenda la maggiore variabilit possibile (e quindi maggiori informazioni) delle variabili originarie, e che 2Y rappresenti la maggiore variabilit delle iX dopo la prima componente, e cos fino a pY che tiene conto della pi piccola frazione dell originaria varianza. Perci le Componenti Principali sono quelle combinazioni lineari delle variabili aleatorie iX a norma unitaria che ne rendono massima la varianza e che sono incorrelate. La varianza delle Componenti Principali Si definita la varianza delle Componenti Principali secondo l espressione ( ), ossia: iTiillYVarrr =)( Occorre per porre un vincolo sul vettore dei coefficienti.

8 Supponendo di aver trovato un vettore 1lr che massimizzi la varianza di 1Y, tale varianza potr essere ulteriormente incrementata utilizzando anzich il vettore 1lr appena trovato, un nuovo vettore 1lcr, con 1>c. Con tale ragionamento si otterranno un infinit di soluzioni, note a meno di un fattore di proporzionalit c. Pertanto per avere un unica soluzione necessario porre un vincolo sugli elementi del vettore 1lr, espresso nella seguente condizione: 1=11llTrr ovvero il vettore 1lr deve avere norma unitaria. Analisi delle Componenti Principali 8 Per individuare la prima componente principale bisogner risolvere il seguente problema di massimo vincolato: ( ) Procedura di estrazione delle Componenti Principali della matrice di covarianza Data la matrice di covarianza , dovendo perseguire l obiettivo stabilito dalla ( ), si definisce come funzione obiettivo da massimizzare la funzione di Langrange: )(1 =iTiiTillllPrrrr dove il moltiplicatore di Lagrange.

9 Massimizzare la funzione obiettivo rispetto a ilr significa trovare l opportuno vettore di pesi da assegnare alle variabili presenti nella matrice Xr in modo tale che la nuova variabile ottenuta, iY, spieghi la massima quota possibile della variabilit totale, . Trattandosi di un problema di massimo vincolato, la soluzione si trova uguagliando a zero la derivata , rispetto al vettore ilr, della funzione Lagrangiana: 0= 2=2 2= iiiilIlllPrrrr)( ( ) 1= =11111llconllYVarTTrrrrmax)( Analisi delle Componenti Principali 9dove I la matrice identit . Dal teorema di Rouch -Capelli, l equazione ( ) individua un sistema lineare omogeneo che ammette soluzioni se e solo se la matrice )(I singolare, ovvero: 0= )det(I ( ) Le soluzioni della ( ) sono gli autovalori della matrice , per cui la risoluzione della ( ) comporta la ricerca del rango della matrice )(I.

10 Poich ha dimensione )(pp , si avranno al massimo p soluzioni. Ordinando le soluzioni i in senso decrescente, si ha: 0 21p K Presa la massima soluzione 1 della ( ), si trover il vettore 1lr corrispondente risolvendo il seguente sistema: 0= 1lIr)( ( ) e quindi: 111= llrr ( ) Ne deriva che il problema del massimo vincolato si tradurr in un problema di autovalori e autovettori, in quanto il vettore 1lr non altro che l autovettore di norma unitaria della matrice associata all autovalore 1 . Moltiplicando entrambi i membri della ( ) per Tl1r, si ha: 11111= llllTTrrrr Analisi delle Componenti Principali 10essendo il vettore 1lr di norma unitaria, si ottiene: )(1111== YVarllT rr La varianza della prima componente principale sar dunque massimizzata in quanto si scelta per 1 il pi grande degli autovalori di.


Related search queries