Analiza bivariata a datelor
Analiza bivariata a datelor Presupune masurarea gradului de asociere a doua variabile sub aspectul: Directiei (naturii) Intensitatii Semnificatiei statistice Variabilele nominale
Tabele de frecvente (contingenta) considerata simultan pentru doua sau
mai multe variabile caracteristice aceluiasi esantion.
Coeficientul de corelatie (valori intre -1 si +1) ad
r phi
[(a
b)(c
d )(a
bc c)(b
1/2 d)]
Directia asocierii este data de valoarea lui (rphi)2 Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane independente este determinat cu ajutorul testului χ2, McNemar
sau Fisher. 2 Testul neparametric χ Bazat pe ipoteza nula: H0: nu exista diferente semnificative intre cele doua 2 r k variabile. O A )
2
c
ij
( i1 j 1
Valoarea calculata χc2 a testului se compara cu valoarea tabelata χ 2
ij
A ij
c t
a
acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului si gradele de libertate asociate: (r-1)(k-1).
χ 2 ≤ χ 2 : se accepta ipoteza nula c t χ 2 > χ 2 : se respinge ipoteza nula c t
2 Testul neparametric χ
Pentru mai mult de doua subesantioane independente trebuie ca frecventele Oij > 1 si Oij < 5 sa nu depaseasca 20%.
Masurarea gradului de asociere se poate realiza cu ajutorul coeficientului de contingenta:
2
C
c
N
2
c
Testul Fisher
Inlocuieste testul χ2 atunci cand dimensiunea esantionului N<40 si k=r=2 Testul probabilitatii exacte (Fisher) are aceiasi ipoteza nula: H0: nu exista diferente semnificative intre cele doua variabile. p
(A B)!(C D)!(A C)!(B D)! N! A!B!C!D!
Valoarea calculata p a testului se compara cu probabilitatea de garantare a rezultatului (ex.: 95%). p ≤ 0,05 : se respinge ipoteza nula p > 0,05 : se accepta ipoteza nula
Testul McNemar
Inlocuieste testul χ2 atunci cand cele doua esantioane investigate nu sunt independente
Testul McNemar are aceiasi ipoteza nula: H0: nu exista diferente semnificative intre cele doua variabile. 2 ( a d 1) 2 c ad
a si d reprezinta frecventele subesantioanelor independente.
Interpretarea χ2 :
este aceiasi ca si in cazul testului
χc2 ≤ χ 2 : se accepta ipoteza nula c t χc2 > χ 2 : se respinge ipoteza nula c t
Variabilele ordinale
Tabele de frecvente (contingenta) considerata simultan pentru doua sau mai multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere
se poate utiliza coeficientul Spearman de corelatie a rangurilor n
6 Di2 1
i 1 1) 2 n(n
Directia asocierii este data de valoarea lui ρ sau γ. Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane independente este determinat cu testului semnificatiei coeficientului Spearman.
Coeficientul de corelatie Spearman Bazat pe ipoteza nula: H0: nu exista o corelatie intre variabilele investigate.
Zc
1
n 1
Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt ≤ Zc ≤ Zt : se accepta ipoteza nula altfel : se respinge ipoteza nula
Coeficientul de corelatie γ al lui Goodman si Kruskall
Se poate utiliza atunci cand coeficientul Spearman nu ofera valori concludente.
Valoarea lui γ, la fel ca si ρ, poate lua valori in intervalul -1 si +1. P Q P Q
P se obtine inmultind valoarea frecventei din coltul din stanga sus a tabelului de frecvente asociat cu valorile de pe randul urmator, fara cea care se afla imediat sub ea, si cu celelalte valori ale tabelului, dupa care se insumeaza cu produsul dintre prima valoare a randului urmator si suma frecventelor incepand de pe randul urmator, insa din nou fara valoarea aflata imediat sub ea, iterativ. Q se calculeaza dupa aceleasi reguli, insa incepand din dreapta sus.
Variabilele metrice
Tabele de frecvente (contingenta) considerata simultan pentru doua sau mai multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere
se poate utiliza coeficientul Pearson de corelatie a rangurilor n n n nxi yi xi yi r 1
i n 2 n (x ) ( x ) 2
i1 i1 n
n
n
i 1
i
i i 1
n( y )2 ( y )2 i1
i
i 1
i
Directia asocierii este data de valoarea lui r. Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane este determinat prin testarea semnificatiei statistice a coeficientului r.
Coeficientul de corelatie Pearson
Utilizat pentru variabile
normale, cu dispersii asemanatoare
Bazat pe ipoteza nula:
H0: nu exista o corelatie intre variabilele investigate (r nu este in mod semnificativ diferit de zero). Zc
1,1513
1 r log10 (
1 1 r
)
n 3
Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt2 ≤ Z 2 ≤ Z 2 : se accepta ipoteza nula c t t altfel : se respinge ipoteza nula
Analiza multivariata a datelor
Analiza multivariata
Presupune utilizarea unui grup de metode statistico-matematice cu ajutorul carora se pot cerceta simultan legaturile de asociere existente intre mai mult de doua variabile.
Analiza multivariata Cele mai utilizate tehnici: Analiza regresiei multiple Analiza discriminantului Analiza multivariata a variatiei Analiza canonica Analiza factoriala Analiza grupurilorScalarea multidimensionala
Clasificare
Criterii de clasificare
Existenta unor relatii de dependenta (cauzalitate) si/sau asociere Numarul de variabile dependente Tipul de scala utilizat
Clasificare
O singura variabila dependenta: Scale parametrice: analiza discriminantului liniar multiplu Scale nonparametrice: regresia multipla
Mai multe variabile dependente: Scale parametrice: analiza multivariata a variatiei Scale nonparametrice: analiza canonica
Clasificare
Variabile independente: Scale parametrice: Analiza factoriala Analiza grupurilor
Scalare multidimensionala parametrica Scale nonparametrice: Scalare multidimensionala nonparametrica Analiza structurilor latente
Metoda regresiei multiple Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe variabile indepentende Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de covarianta ei cu variabilele independente. ˆ Y a
1 X 1 2 X 2 ˆ
ˆ
...
ˆ
i Xi
...
ˆ
n Xn
Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.) Discriminantul liniar multiplu Estimarea relatiei dintre o variabila dependenta masurata cu ajutorul unei scale nonparametrice si combinatii liniare ale mai multor variabile independenta (masurate pe o scala parametrica) Presupune definirea a doua sau mai multe grupuri, omogene interne si eterogene intre ele. Obiectiv: maximizarea raportului dintre dispersie dintre grupuri si dispersia interna
Discriminantul liniar multiplu
Utilizari: Determinarea contributiei fiecarei variabile explicative la discriminare Determinarea celei mai bune combinatii liniare a variabilelor explicative care maximizeaza raportul intre dispersia dintre grupuri si dispersiile din interiorul grupurilor Stabilirea procedurilor de predictie legata de apartenenta componentelor la diversele grupuri (segmentare) Analiza existentei diferentelor semnificative statistic intre profilurile grupurilor definite
Analiza multivariata a varitiei
Cuprinde un grup de metode: proiectari factoriale, patratele latine, patratele grecolatine. Obiectiv: separarea si testarea semnificatiei efectelor cauzate de actiunea simultana a mai multor factori
Analiza multivariata a variatiei
Cerinte asupra datelor:
Datele provin de la grupuri experimentale, la nivelul unei populatii normale, pe baza unei esantionari aleatoare. Eroarea experimentala are o abatere standard constanta. Variatia aleatoare este independeta de timp. Efectele diferitelor surse de variatie este aditiv, nu multiplicativ.
Analiza canonica
Nu depinde de tipul scalei utilizate. Obiectiv: studierea relatiei liniare intre un
grup de variabile dependente si un grup de variabile independente. Numarul maxim de functii utilizat este egal cu numarul variabilelor din grupul cel mai mic.
Analiza canonica
Utilizari: Determinarea directiei, intensitatii si semnificatiei corelatiei dintre cele doua seturi de variabile. Estimarea coeficientilor celor doua seturi de variabile, in conditiile maximizarii corelatiei dintre seturi. Explicarea si previzionarea variatiei setului dependent, pe baza covariantei acestuia cu setul independent. Determinarea contributiei relative a fiecarei variabile in cadrul functiilor canonice.
Analiza factoriala
Realizata cu ajutorul mai multor tehnici: metoda componentelor principale, criteriul varimax, criteriul quartimax, rotatia axelor.
Obiectiv: cercetarea legaturilor de interdependenta dintre mai multe variabile, in scopul determinarii setului minim de explicarea a unui anumit fenomen. Presupune definirea unor factori care sa condenseze o cat mai mare parte din informatia (variabilele) initiala.
Analiza factoriala
Utilizari:
Identificarea setului de dimensiuni latente existente in variabila initiala (analiza factoriala de tip R). Combinarea sau condensarea componentelor unui populatii statistice si crearea unor grupuri distincte (analiza factoriala de tip Q). Concentrarea (minimizarea) variabilelor.
Analiza grupurilor
Realizata cu ajutorul mai multor tehnici: distanta euclidiana, gruparea pe baza coliniaritatii si gruparea de proximitate. Obiectiv: clasificarea componentelor unei multimi eterogene in grupuri omogene, pe baza unor criterii obiective. Varianta 1: abordare top-down. Varianta 2: abordare bottom-up.
Scalarea multidimensionala
Obiectele sau fenomenele analizate sunt reprezentate sub forma de puncte intr-un spatiu perceptual multidimensional. Obiectiv: estimarea importantei relative a variabilelor si a relatiilor perceptuale dintre ele. Permite construirea unui spatiu perceptual in care se reprezinta obiectele sau fenomenele, pe baza perceptiilor respondentilor.
Analiza univariata a datelor Analiza
Analiza reprezinta un proces complex si sistematic de aplicare a tehnicilor statisticomatematice, in scopul extragerii din colectia de date constituita a informatiilor necesare procesului decizional
Clasificare Tipul de scala utilizata Nominala Ordinala Interval Proportionala
Clasificare Numarul esantioanelor cercetate
Un singur esantion Doua esantioane
Mai mult de doua esantioana
Clasificare
Natura relatiei dintre esantioane Esantioane independente Esantioane dependente
Numarul variabilelor utilizate O singura variabila Doua variabile Mai mult de doua variabile
Obiectivele analizei
Determinarea tendintei centrale Caracterizarea variatiei si dispersiei Masurarea
gradului de asociere Realizarea de estimari si previziuni Evaluarea semnificatiei diferentelor dintre variabile si grupuri de variabile Evidentierea legaturilor cauzale
Masurarea tendintei centrale Grupul modal (modulul) Grupul care cuprinde cele mai multe componente comparativ cu celelalte grupuri Mediana Valoarea care imparte numarul de observatii in doua grupuri egale n xi
Media aritmetica
Media geometrica
x
i1 n n
xG n
xi i1
Masurarea tendintei centrale
Tipuri de scale
Indicatori ai tendintei centrale
Modulul Nominala Ordinala Interval Proportionala
X
Mediana -
Media aritmetica
Media geometrica
-
-
X
X
X
X
-
X
X
X X
X
Dispersia
Distributia de frecventa Cuartile, decile, centile
Amplitudinea variatiei Abaterea media Variatia Abaterea standard Amplitudinea variatiei
Dispersia
Tipuri de scale
Indicatori ai
dispersiei Frecvente Cuartile
Amplitudine
medie Variatia
standard
Nominale
Ordinale
Interval
X
X
X
-
X
X
-
-
-
-
X
X X
-
-
-
-
X
Proportionale X X X X X X
Evaluarea modelelor multifactoriale de regresie
Criterii de evaluare
Teoretice: compatibilitatea rezultatelor obtinute cu teoria economica (ex.: semnul si marimea parametrilor estimati)
Statistice:
Nivelul de semnificatie al parametrilor Proportia variatiei “explicate” de multimea variabilelor independente Eroarea standard a estimarii Autocorelatia valorilor reziduale De previziune
Metoda regresiei multiple Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe variabile indepentende Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de covarianta ei cu variabilele independente. ˆ Y a
1 X 1 2 X 2 ˆ
ˆ
...
ˆ
i Xi
...
ˆ
n Xn
Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.)
Semnificatia statistica a parametrilor Se dau asigurari ca variatia variabilei dependente nu este datorata intamplari, ci este rezultatul variatiei uneia sau mai multor variabile independente. Testul t este utilizat cel mai frecvent. Intre nivelul de semnificatie si nivelul de incredere in testul t exista relatia: Nivelul de semnificatie = (1-nivelul de confidenta)/2
Eroarea standard
Eroarea standard a unui parametru estimat arata cu cat poate sa varieze acesta in jurul valorii sale ca urmare a erorii aleatoare. Limitele variatiei sunt date de relatia: s
j
ˆj
t T,j
Semnificatia statistica a asocierii dintre variabile Testarea semnificatiei legaturii dintre variabila dependenta si variabila/ele independente se bazeaza pe utilizarea testelor statistice (ex.: testul Fisher). Se explica in ce masura variatia totala a variabilei dependente este rezultatul variatiei variabilelor independente considerate.
Valoarea calculata a lui F foloseste formula:
Fc
ˆ (Y Y )/(k
2 ˆ (Y Y )
1)
/(n
k)
Caracterizarea multilaterala a intensitatii legaturilor Matricea coeficientilor de corelatie simpla prezinta intensitatea legaturilor intre toate perechile de variabile Matricea coeficientilor de corelatie partiala descrie intensitatea legaturilor intre doua variabile, excluzand efectul celorlalte variabile implicate. Coeficientul de corelatie multipla si coeficientul de determinare caracterizeaza proportia variatiei variabilei dependente datorata variatiei setului variabilelor independente ale modelului si proportia variatiei aleatoare (neexplicate).
Coeficientul de determinare 2 Coeficientul de determinare R reprezinta raportul dintre variatia explicata si variatia totala, dupa formula: 2 R 1
e
2
2 y unde e reprezinta valoarea reziduala si y abaterea variabilei Y de la media sa Ŷ Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.)
Analiza multicoliniaritatii
Coliniaritatea reprezinta relatia liniara dintre doua variabile independente ale unui model. Prezenta sa poate duce la distorsiuni serioase ale parametrilor modelului. Sugerata de prezenta erorilor standard mari sau de sensitivitatea exagerata a parametrilor. Evidentiata utilizandu-se cele trei teste Farrar si Glauber.
Primul test Farrar si Glauber T Se bazeaza pe compararea matricei de corelatie Z Z a modelului cu matricea 2 unitate, cu ajutorul testului χ 2
1
T
n 1 (2(m 1) 5) ln det[Z Z ] c
6
2 2 Valoarea teoretica a lui χ se regaseste in tabelele statistice ale repartitiei χ , considerandu-se V=1/2(m-1)(m-2) grade de libertate. 2 2 Daca χ > χ , atunci se concluzioneaza ca exista multicoliniaritate la nivelul modelului (regresiei) analizate.
Al doilea test Farrar si Glauber Permite identificarea variabilelor cel mai afectate de coliniaritate Se bazeaza pe compararea matricei de corelatie ZTZ a modelului cu matricea unitate, cu ajutorul testului Fisher. ii 1) (n (m 1)) Fc (r m 2 Valoarea teoretica a lui F se regaseste in tabelele statistice ale repartitiei Fisher, considerandu-se n- m+1 so m-2 grade de libertate. Daca Fc > Ft, atunci se concluzioneaza ca ipoteza ortogonalitatii intre variabilele independente nu este acceptata.
Al treilea test Farrar si Glauber Permite stabilirea semnificatiei statistice a coeficientilor de corelatie Coeficientii de corelatie partiala intre Xi si Xj se determina pe baza formului: ij r rij ii jj r r Apoi se calculeaza valoarea testului Student dupa formula: rij n (m 1) tij 2 (1 r ij) Daca tij > tt, atunci se concluzioneaza ca ipoteza nula este respinsa.
Analiza erorii medii patratice a valorilor reziduale Masura sintetica a acuratetii modelului si o metoda de evidentiere a erorilor de previziune.
1 T
T
(Pt t1
At ) 2 (P
A) (SP
S A) 2
2(1 r)S P S A
2 (P-A) indica tendinta medie a modelului de a supraestima sau subestima valorile reale. (SP-SA)2 indica sensitivitatea modelului la modificarea valorilor independente. 2(1-r)SPSA indica marimea erorii datorate lipsei corelatiei perfecte dintre valorile previzionate si cele actuale.
Analiza autocorelatiei Testul Durbin-Watson necesita calculul parametrului d, dupa formula: T ˆ Uˆ t1 2) (U t d t2
T
2 Uˆ t t 1
Daca d
dT, atunci este acceptata ipoteza nula (dL si dT sunt luate din tabelele asociate testului Durbin-Watson). Testul Geary este de natura neparametrica si are ca punct de plecare calculul numarului schimbarilor de semn in seria valorilor reziduale δ. Daca δmin< δ < δmax (tabelate), atunci ipoteza nula este acceptata.
Analiza datelor de marketing utilizand S.P.S.S. - curs introductiv Mihai Orzan – [email protected] – joi, 19:30, sala 1406
Chestiuni organizatorice • Nota: – Examen final (1 iunie): 40% – Test seminar: 60%
• http://orzanm.ase.ro/spss • Suport curs: • Cătoiu I. (coord.), Bălan C., Dăneţiu T., Orzan Gh., Popescu I., Vegheş C., Vrânceanu D. - "Cercetări de marketing", Ed. Uranus, 2002 • Popa, D., “Analiza datelor in psihologie. Teorie si practica cu SPSS”, Ed. Polirom, 2008.
• Suport semiar (recomandat): • Howitt, D. si Cramer, D., “Introducere in SPSS pentru psihologie”, Ed. Polirom, 2006.
Ce reprezinta analiza datelor? Analiza datelor reprezinta un proces complex si sistematic de aplicare a tehnicilor statistico-matematice, in scopul extragerii din colectia de date constituita a informatiilor necesare procesului decizional
Surse de date • Surse de date: – Cercetari cantitative: • Sondaje; • Observari;
– Surse secundare de date: • interne; • externe;
– Cercetari calitative: • • • •
focus grupuri; clientul misterios; interviuri in profunzime; teste de utilitate;
Clasificare tipurilor de analiza • Numarul esantioanelor cercetate Un singur esantion; Doua esantioane; Mai mult de doua esantioane;
• Natura relatiei dintre esantioane Esantioane independente; Esantioane dependente;
Clasificare tipurilor de analiza • Numarul variabilelor utilizate: O singura variabila (analiza univariata); Doua variabile (analiza bivariata); Mai mult de doua variabile (analiza multivariata);
• Natura relatiei dintre variabile Variabile independente; Variabile dependente;
Obiectivele analizei Determinarea tendintei centrale; Caracterizarea variatiei si dispersiei; Masurarea gradului de asociere; Realizarea de estimari si previziuni; Evaluarea semnificatiei diferentelor dintre variabile si grupuri de variabile; Evidentierea legaturilor cauzale;
Obiectivele analizei • Analiza primara a datelor • Masurarea tendintei centrale • Analiza variatiei • Stabilirea normalitatii distributiei
• Analiza diferentiala • Identificarea existentei unor diferente statistice intre esantioane (grupuri) de respondenti
• Analiza asociativa • Identificarea existentei unor asemanari (asocieri) semnificative statistic variabile demografice si psiho-comportamentale
Obiectivele analizei Analiza inferentiala • Identificarea gradului in care valorile identificate la nivel de esantion sunt reprezentative la nivelul populatiilor investigate
• Analiza predictiva • Identificarea evolutiei ulterioare a fenomenelor investigate
• Analiza complexa a datelor • Analiza canonica, analiza discriminantului, analiza structurilor latente • Modelare
Masurarea tendintei centrale Tipuri de scale
Indicatori ai tendintei centrale Modulul
Mediana
Media aritmetica
Media geometrica
Nominala
X
-
-
-
Ordinala
X
X
-
-
Interval
X
X
X
X
Proportionala
X
X
X
X
Masurarea tendintei centrale Grupul modal (modulul) Grupul care cuprinde cele mai multe componente comparativ cu celelalte grupuri
Mediana Valoarea care imparte numarul de observatii in doua grupuri n egale
x
Media aritmetica
n
xG
x i1
i x pi 1n pi 1 i i
x i1 n
p x
Media geometrica
i
Analiza variatiei
1 i
i
2
σ
x 1 n
n
x
2
Distributia frecventelor (absolute si relative) Amplitudinea variatiei (Xmax-Xmin) x ˘ Varianta
Abaterea medie patratica (standard) Coeficientul de variatie (variatia relativa)
σ x
V C
Distributia frecventelor Perceptia gustului pentru berea Redd’s Eticheta
Codificare
Frecventa
Frecventa (%)
Procent valid
Frecvente cumulate
Cel mai neplacut
1
0
0,0
0,0
0,0
Foarte neplacut
2
2
6,7
6,9
6,9
Neplacut
3
6
20,0
20,7
27,6
Nici/Nici
4
6
20,0
20,7
48,3
Placut
5
3
10,0
10,3
58,6
Foarte placut
6
8
26,7
27,6
86,2
Cel mai placut
7
4
13,3
13,8
100,0
Valori lipsa
9
1
3,3
30
100
Total
100
Analiza variatiei Indicatori ai dispersiei
Tipuri de scale Nominale
Ordinale
Interval
Proportionale
Frecvente
X
X
X
X
Amplitudine
-
X
X
X
Coeficient de variatie
-
-
X
X
Varianta
-
-
X
X
Abaterea standard
-
-
X
X
Distributia normala Este constituita dintr-o familie de distributii care au reprezentari grafice asemanatoare unui clopot;
Distributia normala Este importanta pentru ca majoritatea instrumentelor statistice utilizate in analiza primara au ca premisa existenta unei distributii normale (ex.: testul Student, Mann-Whitney, ANOVA, Pearson, regresia, nivelarea exponentiala Brown, etc.). Ipoteza distributiei normale: Pentru δ ales, δ procente dintre valorile inregistrate ale variabilei se vor afla in intervalul:
δ
t σ x ;δ t σ x
x
Distributia normala
Aplatizarea: reprezinta o masura a inaltimii relative a “clopotului” definit de distributia frecventelor variabilei. n
x
x i x
n
4
˘ x x ˘˘
3
1 i
K
n
2
2
x
x
i
1 i
n
Asimetria: tendinta variatiilor valorilor observate fata de medie de a fi mai mari catre unul dintre capetele intervalului de valori. 3
x
i
3 2
2
i
˘˘
x
x
1 i
˘
1 i
n
˘ x x
1 n 2 n
n
G
x
x
n
x
Distributia normala
n
x
i
x
˘
2
σ 2
e
x 1 i
1
x
h
2
π 2
Inaltimea curbei este data de formula:
Testarea normalitatii distributiei: variabile parametrice: testul Kolmogorov-Smirnov variabile ordinale: testul Shapiro-Wilk variabile nominale: testul χ2
Testul Kolmogorov-Smirnov Utilizat pentru estimarea normalitatii distributiei acolo unde se poate (are sens) calcula media si abaterea medie patratica. De fapt, determina care dintre ipoteze va fi adoptata: H0: NU exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala. H1: Exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala.
Testul Kolmogorov-Smirnov Se calculeaza utilizand:
˘
x
i
x
i
˘
i
x F
1
i
x x
x
x F i n ; 1 i- n
n
x a m
S
K
x
1 n I i 1 n
x
Fn
x ˘
Testul Kolmogorov-Smirnov
H0 este acceptata daca:
0,11 ) c Ks ( n 0,12 n unde: α
0,85
0,9
0,95
0,975
0,99
cα
1,138
1,224
1,358
1,480
1,628
Testul Shapiro-Wilk Utilizabil atat pentru variabile non-parametrice, cat si pentru variabile parametrice (aici insa testul Kolmogorov-Smirnov este mai puternic). Determina daca va fi adoptata ipoteza nula sau ipoteza alternativa: H0: NU exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala. H1: Exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala.
n
2
x ˘ x ˘
xi a
i
Se calculeaza utilizand:
1 i
n
W
2
μ
x
i
1 i
Testul Shapiro-Wilk
ai reprezina parametrii dati, obtinuti din tabele statistice pe baza medianei, numarului de valori (categorii) distincte si dimensiunii esantionului investigat. p(W) > 0,05 => H0 este acceptata altfel => H1 este acceptata
Analiza datelor de marketing utilizand S.P.S.S. - analiza diferentiala -
Analiza diferentiala a datelor • Utilizata pentru stabilirea reprezentativitatii statistice a diferentelor constatate intre: • o valoare presupusa a unui indicator (ipoteza) si valoarea estimata la nivelul populatiei investigate; • doua sau mai multe variabile independente; • doua sau mai multe esantioane dependente (analiza transversala sau longitudinala).
• Utilizari frecvente: • testarea ipotezelor statistice; • testarea reprezentativitatii indicatorilor statistici; • testarea semnificatiei variatiei valorilor observate pentru doua sau mai multe variabile; • testarea semnificatiei variatiei valorilor observate pentru doua sau mai multe grupuri (esantioane);
Testarea ipotezelor statistice • Exemple de ipoteze utilizate in marketing: In cinematografele bucurestene merg cel putin o data pe an 20% dintre locuitorii orasului; Consumatorii frecventi si ocazionali ai unui produs (marca) au caracteristici psihografice diferite; Imaginea publica a hotelului Howard Johnson este mai buna decat cea a hotelului Ibis.
Testarea ipotezelor statistice • Etape pentru testarea ipotezelor: 1. Identificarea testelor statistice adecvate. 2.Formularea ipotezei nule H0 si a ipotezei alternative H1. 3. Alegerea unei probabilitati de garantare a rezultatelor. 4. Calcularea indicatorului asociat testului statistic. 5.Stabilirea ipotezei acceptate (nula sau alternative). 6.Formularea unei concluzii logice in limbajul specific marketingului.
Testarea ipotezelor statistice • Cunoscuta si sub denumirea de analiza diferentiala univariata. – Variabile categoriale: se utilizeaza testul χ2 univariat; – Variabile parametrice: se utilizeaza testul Student univariat (in varianta t sau z, depinzand de marimea esantionului).
Testul χ2 univariat • Utilizat pentru variabilele categoriale. – Exemplu: in Romania, 25% dintre consumatori prefera Dacia. In urma unei cercetari (sondaj) s-a constatat ca 33% dintre soferi se afla la volanul unui autoturism Dacia. Ipoteza este falsa sau corecta? • H0: NU exista diferente semnificative statistic intre
cei doi parametrii. • H1: exista diferente semnificative statistic intre cei doi parametrii.
Testul χ2 univariat • Valori asteptate (conform ipotezei): – Conduc Dacia: 25% – Nu conduc Dacia: 75%
• Valori observate (din sondaj): – Conduc Dacia: 33% – Nu conduc Dacia: 67%
Testul χ2 univariat • Indicatorul (calculat) al testului χ2: 2
i
A
i
2c
.
O
n
x ˘
A
i
1 i
˘
2
1 4 , 3 5 8 , 0 6 5 , 2
5 7 5 7 7 6
˘x 2
5 2 5 3 2 3
2c
.
x
Testul χ2 univariat
• Pentru o probabilitate de garantare a rezultatelor de 99%, valoarea tabelata a lui t univariat este de 6,635. • Se observa ca χc2 ≤ χ t 2 (3,41 < 6,635) => se accepta ipoteza nula (nu exista diferente semnificative statistic intre valorile prognozate si cele observate, deci ipoteza initiala a fost corecta!)
Testul Student univariat • Utilizat pentru variabile parametrice (se poate calcula media), normal distribuite. – Exemplu: venitul mediu in gospodariile celor care isi cumpara Dacia este de 2000 de lei lunar. In urma aceluiasi sondaj, am constatat ca venitul in cauza este de fapt de 1752 de lei. Este confirmata sau infirmata ipoteza initiala? • H0: NU exista diferente semnificative statistic intre valoarea din ipoteza si cea estimata la nivelul populatiei investigate, pe baza valorii observate in esantionul cercetat. • H1: Exista diferente semnificative statistic intre valoarea din ipoteza si cea estimata la nivelul populatiei investigate, pe baza valorii observate in esantionul cercetat.
Testul Student univariat • Valoarea calculata a testului:
s x
μ n x σ x s
tc
Testul Student univariat
• Pentru o dimensiune a esantionului de 1000 de persoane si o abaterea medie patratica de de 3315, avem tc =2,36. • Gradele de libertate asociate testului t univariat sunt n-1, in cazul de fata 999, iar probabilitate de garantare a rezultatelor α aleasa este de 95%. In acest caz gasim tt = 1,64 • Interpretarea teoretica a testului Student: tc ≤ tt : se accepta ipoteza nula tc > tt : se accepta ipoteza alternativa
Testul Student univariat • tc (2,36) > tt (1,64) => se respinge ipoteza nula (exista diferente semnificative statistic intre valoarea ipotezei si cea estimata la nivelul populatiei, deci ipoteza formulata este gresita).
Analiza diferentiala bivariata • Testele utilizate sunt alese in functie de modul de masurare al variabilelor, numarul de esantioane (grupuri) analizate si relatiile existente intre esantioane: • Variabile nominale: – grupuri (esantioane) independente: χ2 – grupuri (esantioane) dependente: χ2 (varianta McNemar)
• Variabile ordinale (sau variabile interval tratate ca variabile ordinale): – 2 grupuri (esantioane) independente: Mann-Whitney, WaldWolfowitz; – 2 grupuri (esantioane) dependente: Wilcoxon; – 3 sau mai multe grupuri (esantioane): Kruskal-Wallis;
• Variabile proportionale: – 2 grupuri (esantioane) independente: testul Student pentru
esantioane independente; – 2
grupuri
(esantioane)
dependente:
testul Student pentru
variabile dependente; – 3 sau mai multe grupuri (esantioane): ANOVA;
Testul neparametric χ2 • In varianta clasica, testul χ2 presupune testarea unor variabile categoriale (de regula nonparametrice) si independenta esantioanelor analizate. • Se bazeaza pe utilizarea tabelelor de contingenta.
Testul neparametric χ2 • Preferinta pentru imbracaminte sport, in functie de statutul marital. Prefera pantofii sport
Statut marital Casatoriti
Necasatoriti
Adesea
196
104
300
Rar
58
142
200
Total
254
246
500
Total
• Valorile din tabelul de contingenta, rezultate in urma cercetarii, sunt denumite valori observate.
Testul neparametric χ2 • Bazat pe ipotezele: H0: NU exista diferente semnificative intre cele doua variabile. H1: Exista diferente semnificative intre cele doua variabile. 2
ij
ij
A
1 j 1 i
A
.
2c
ij
O
k
r
• Valoarea calculata a testului este data de: x ˘
ij
1 j
O
ij
O
ij
A
1 j
ij
k
1 i
O
r
1 i
k
r
• Valorile asteptate sunt determinate conform distributiei (teoretice) χ2 de formula:
Testul neparametric χ2
• Valoarea calculata χc2 a testului este comparata cu valoarea tabelata χ t 2 a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului si gradele de libertate asociate: (r-1)(k-1). χc2 ≤ χt2 : se accepta ipoteza nula χc2 > χt2 : se accepta ipoteza alternativa
• Conditie: – Pentru mai mult de doua subesantioane independente trebuie ca frecventele Oij > 1 si Oij < 5 sa nu depaseasca 20% (celulele din tabelul de contingenta cu frecvente de aparitie diferita de zero si mai mica decat 5 sa nu depaseasca 20%).
Testul Fisher • Inlocuieste testul χ2 atunci cand dimensiunea esantionului n<20 si k=r=2 (variabile dihotomice); • Tabelul de contingenta pentru k=r=2: Prefera incaltamintea sport
Statut marital Casatoriti
Necasatoriti
Total
Adesea
A
B
A+B
Rar
C
D
C+D
Total
A+C
B+D
N
• Testul probabilitatii exacte (Fisher) are aceiasi ipoteza nula: H0: NU exista diferente semnificative intre cele doua variabile; H1: Exista diferente semnificative intre cele doua variabile.
˘
• Valoarea calculata p a testului se compara cu probabilitatea de garantare a rezultatului (ex.: 95%). p ≤ 0,05 : se accepta ipoteza alternativa p > 0,05 : se accepta ipoteza nula
!
˘x
D B !
˘x
C ! D A ! !C ! B ! D A C ! ! N
B
˘x
A
x
p
Testul Fisher
2
˘
˘
d
b
˘x
c
a
˘x
N 2
d
c
˘x
b
x
a
x
c b
d a N
2c
• Atunci cand dimensiunea esantionului n>20 si k=r=2 se utilizeaza corectia lui Yates a testului Fisher:
.
Testul Fisher (corectia Yates)
Testul McNemar
• •
Inlocuieste testul χ2 atunci cand cele doua esantioane investigate sunt dependente (analiza longitudinala sau transversala). Testul McNemar are aceiasi ipoteza nula: H0: NU exista diferente semnificative intre cele doua variabile; H1: Exista diferente semnificative intre cele doua variabile.
2
1 d d a a
2c
.
• •
a si d reprezinta frecventele subesantioanelor independente. Interpretarea este aceiasi ca si in cazul testului χ2 : 2 2 χ ≤ χ : se accepta ipoteza nula c t χ 2 > χ 2 : se accepta ipoteza alternativa c
t
Testul Mann-Whitney • Utilizat de preferinta pentru pentru identificarea diferentelor semnificative intre (doua) variabile ce provin din esantioane independente, masurate cu ajutorul scalei ordinale (se poate utiliza insa si in cazul variabilelor proportionale), distribuite normal. • Ipotezele testului Mann-Whitney: H0: NU exista diferente semnificative intre cele doua variabile. H1: Cele doua variabile difera in mod semnificativ.
• Valoarea calculata a testului U este data de: i
˘
2 , 1 i e d 1n u i , 2
n
i
R
ic
U
x
x
Testul Mann-Whitney
2
1
2
n 2 1 n n n1
2
U
σ
c
n n1
z
n 2 n 1 σU
U
• Ri reprezinta suma rangurilor asociate valorilor din esantionul i (primul sau al doilea). • Pentru esantioane totale (n1+n2) mai mici de 30, valorile lui Ut sunt tabelate. • Pentru esantioane de peste 30 de subiecti se utilizeaza testul Student pentru stabilirea semnificatiei statistice a testului U, dupa formula: unde:
Testul Mann-Whitney
• Interpretarea testului U pentru esantioane mai mici de 30 de subiecti: Uc ≤ Ut : se accepta ipoteza nula Uc > Ut : se accepta ipoteza alternativa
• Interpretarea teoretica a testului esantioane mai mari de 30 de subiecti: zc ≤ zt : se accepta ipoteza nula zc > zt : se accepta ipoteza alternativa
U
pentru
Testul Mann-Whitney • Presupunand ca Esop nu a fost foarte satisfacut de experimentul sau clasic, in care o broasca testoasa intrece un iepure si repeta experiementul cu 6 iepuri si 6 broaste testoase. “Clasamentul” se afla in tabelul de mai jos:
I T
II III IV V VI VII VIII IX X XI XII I I I I I T T T T T I
• Suma rangurilor R1 asociate testoaselor este: 1+7+8+9+10+11 = 46
5 2
˘
2
x
1
6 6 4
1c
U
Testul Mann-Whitney
• Din tabelul asociat testului Mann-Whitney gasim ca Ut (pentru n1=6, n2=6 si α=0,05) = 5, deci putem constata ca Uc > Ut => vom accepta ipoteza alternativa (exista diferente semnificative intre comportamentul in concurs al broastelor testoase si al iepurilor, dat de suma rangurilor, mai exact 46 pentru testoase si 25 pentru iepuri)
Testul Wilcoxon • Testul Wilcoxon este un test non-parametric bivariat utilizat pentru identificarea semnificatiei statistice a diferentelor identificate pentru variabile provenite din esantioane dependente (masuratori repetate sau variabile masurate ale acelorasi respondenti), masurate cu ajutorul scalelor ordinale, indiferent de tipul distributiei. – Exemplu: existenta unor diferente semnificative statistic intre perceptiile asupra a doua marci diferite (utilizand scala Likert) sau pentru perceptia asupra imaginii berii Redd’s inainte si dupa realizarea unei campanii promotionale.
Testul Wilcoxon • Ipotezele testului Wilcoxon: H0: NU exista diferente semnificative intre cele doua variabile. H1: Cele doua variabile difera in mod semnificativ.
• Pentru calculul statisticii W+, asociata testului Wilcoxon, se ordoneaza toate valorile observate, se calculeaza diferentele observate wi, aceste diferente sunt ordonate in functie de marime, fiecareia fiind ulterior asociat un rang Ri pe baza pozitiei in aceasta serie de diferente: i
w l u g n ra
i
i
R
x
i
y i w
Testul Wilcoxon
0
x
i
i
w I
˳
• De asemenea, pentru calculul W+ se utilizeaza o functie indicator, Φi: • Valoarea W+ este data de: n
i
Ri ˳
W
1 i
• Sustinerea (sau respingerea) ipotezei nule se bazeaza pe probabilitatea de aparitie a valorii W+, data de tabele statistice asociate testului (pentru n de maxim 30 de respondenti) sau estimata cu ajutorul testului Student.
Testul Wilcoxon • Utilizand scala Likert pentru identificarea disponibilitatii respondentilor de a cumpara berea Redd’s, masurata inainte si dupa expunerea la un spot de promovare a produsului, au fost inregistrate urmatoarele valori (5 = sigur da; 4 = probabil da, 3 = indiferent, 2 = probabil nu; 1 = sigur nu): Respondent
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Inainte
5
3
1
5
2
4
4
3
2
1
1
5
4
2
1
Dupa
5
4
2
3
5
5
4
3
1
4
4
5
3
2
5
Diferente (wi)
0
-1
-1
2
-3
-1
0
0
1
-3
-3
0
1
0
-4
Ranguri Ri
-
3
3
6
8
3
-
-
3
8
8
-
3
-
10
Testul Wilcoxon • Insumand rangurile pozitive Ri din tabelul anterior obtinem W+=12, careia ii este asociata o probabilitate p(12)=0,002136 (aleasa pentru n=15 si α=0,05), mai mica decat 0,05 – pragul de sustinere al ipotezei nule in textul Wilcoxon, deci se poate concluziona ca ipoteza nula este acceptata (este respinsa ipoteza alternativa) => cele doua seturi de date NU difera in mod semnificativ (spotul publicitar NU a schimbat atitudinea respondentilor fata de marca Redd’s). • Pentru esantioane dependente de peste 30 de respondenti se utilizeaza:
1
n 2 n 1 2 n
n
W
σ
c
W
σ
5 ,0 0
W
z
Testul Student bivariat
• Utilizat pentru stabilirea semnificatiei satistice a diferentelor constatate intre doua esantioane (dependente sau independente) sau variatia a doua variabile, masurate pe scala proportionala. – Exemplu: persoanele de sex masculin si feminin au un comportament diferit in utilizarea Internetului (numarul de ore de utilizare saptamanale)? Persoanele cu venit mare au un procent mai ridicat de “loialisti” fata de marca decat persoanele cu venit scazut?
• Observatii: • Analiza este realizata diferentiat pentru medii si procente. • Analiza este realizata diferentiat in cazul esantioanelor independente, in functie de existenta unor diferente (semnificative statistic) intre dispersiile celor doua grupuri.
Testul Student bivariat – Bazat pe ipotezele • H0: NU exista diferente semnificative statistic intre (media) celor doua esantioane investigate. • H1: Exista diferente semnificative statistic intre (mediile) celor doua esantioane investigate.
– In cazul esantioanelor independente, se utilizeaza testul F (varianta Levine) pentru stabilirea asocierii dintre dispersiile celor doua grupuri (in anumite cazuri poate fi folosit si testul Kolmogorov-Smirnov).
– H0: NU exista diferente semnificative statistic intre dispersiile celor doua esantioane investigate. – H1: cele doua esantioane inregistreaza diferente ale valorilor observate semnificative statistic.
2 1 22
• Valoarea testului F:
σ σ
• Ipotezele testului F:
Fc
Testul Student bivariat
Testul Student bivariat
x
2
2
x
x
c
1
z
x s
• Gradele de libertate asociate testului F sunt n1-1 si n2-1, iar probabilitate de garantare a rezultatelor α este aleasa, in functie de nevoile analizei. • Daca probabilitatea asociata testului Ft (data de gradele de libertate si probabilitatea de garantare a rezultatelor) este mai mare decat cea asociata Fc atunci se accepta H1 (cele doua esantioane au dispersii diferite), altfel se accepta H0 (dispersiile celor doua esantioane independente sunt asemanatoare). • Pentru esantioane independente (medii distincte) formula testului t (z in esantioane de peste 30 de respondenti) este:
1
Testul Student bivariat
22
2
1
2
σ n
2
x
x
1 1 σ n
s
• Abaterea standard asociata dispersiei, pentru esantioane independente, cu dispersii diferite semnificativ:
• Abaterea standard asociata dispersiei, pentru esantioane independente, cu dispersii asemanatoare:
x
2 1 n 1 n1
2
1
2
x
x
σ
s
Testul Student bivariat
• Gradele de libertate asociate testului t bivariat (esantioane independente) sunt n1+n2-2 si probabilitate de garantare a rezultatelor α. • Interpretarea teoretica a testului Student: tc ≤ tt : se accepta ipoteza nula tc > tt : se accepta ipoteza alternativa
• Analiza difera in functie de dispersiile asociate celor doua esantioane utilizate
Testul Student bivariat • Numarul de ore petrecute saptamanal utilizand resurse din Internet 1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
Ore Internet
14
2
3
3
13
6
2
6
6
15
3
4
9
8
5
Sex
1
2
2
2
1
2
2
2
2
1
2
2
1
1
1
16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Ore Internet
3
9
4
14
6
9
5
2
15
6
13
4
2
4
3
Sex
2
1
1
1
2
1
1
2
1
2
1
2
2
1
1
Testul Student bivariat Sex
Nr. de respondenti
Media (orelor de navigatie saptamanale)
Eroarea standard asociata mediei
Masculin
15
9.33
1.14
Feminin
15
3.87
0.44
Fc = 15,507 > F14,14,95% = 2,46 => se accepta ipoteza alternativa (dispersiile celor doua esantioane sunt semnificativ diferite) tc = 4,492 > t28, 95% = 1,701 => se accepta ipoteza alternativa (exista diferente semnificative intre gradul de utilizare a Internetului pentru barbati si femei)
Testul Student bivariat • Testul t bivariat (pentru esantioane independente) se poate folosi si pentru alti indicatori (ex.: procente).
p
2
p
1
c
p s
z
2
p
1
2
p 2 1 n
x
2
˘
p
1
2
p
1
p
1
s
x
p 1 1 n
p
Testul Student bivariat (esantioane dependente)
• Testul t bivariat pentru esantioane dependente (masuratori repetate sau variabile masurate ale acelorasi respondenti). – Exemplu: existenta unor diferente semnificative statistic intre perceptiile asupra a doua marci diferite (utilizand scala Stapel) sau pentru perceptia asupra unei marci la doua momente diferite (inainte si dupa efectuarea unor activitati promotionale?
• Testul t bivariat pentru esantioane dependente D n
c
μ D D s
z
D
1 i
˘
i
D
x D
n
i
D
1 i
D
1 n n
s
n
2
Testul Student bivariat (esantioane dependente)
Analiza Variatiei (ANOVA) • In ciuda denumirii, reprezinta tot un test statistic, utilizat pentru stabilirea semnificatiei satistice a diferentelor constatate intre trei sau mai multe esantioane (dependente sau independente), masurate pe o scala proportionala. • Echivalentul testului Stundent pentru mai mult de doua esantioane • Exemple: utilizarea Internetului (numarul de ore de utilizare saptamanale) difera in functie de nivelul de educatie al persoanelor investigate (gimnazial, liceal, universitar, postuniversitar)? Categoriile (intervalele) de varsta influenteaza semnificativ nivelul salarial al respondentilor?
Analiza Variatiei (ANOVA) – Utilizeaza:
o variabila de grupare X (ce determina subgrupurile), denumita si variabila independenta; o variabila analizata (dependenta), masurata pe scala proportionala; – Variabila dependenta este subdivizata in c subesantioane (grupuri), de dimensiuni n1, n2,…nc. – In analiza diferentelor constatate intre mediile subgrupurilor 1…c, ANOVA utilizeaza notiunea de descompunere a variatiei totale, in variatie interna (in interiorul acestor grupuri) si variatie externa (diferenta constatata intre grupuri).
Analiza Variatiei (ANOVA) • Variatia totala: E
I
T
V
V
x
V
V
nj
c
2
2
x
ij
1 i
1 j
˘
x
T
˘
c
x
x
j
E
V
1
j
x nj
c
j
˘
2
x
1 i
1 j
ji
I
x
V
x
Analiza Variatiei (ANOVA) • Gradele de libertate asociate: variatia totala: n-1; variatia interna: n-c; variatia externa: c-1;
E 1 V -c
a rn e t x 2e
η
Media patratica externa:
c I V n
η
a rn e t 2 in
• Magnitudinea (importanta) variatiilor se calculeaza cu ajutorul unui indicator, denumit media patratica η: Media patratica interna:
Analiza Variatiei (ANOVA)
• Ipotezele asociate ANOVA: NU exista o diferenta semnificativa statistic intre (mediile) grupurile analizate; grupurile investigate (mediile lor) difera in mod semnificativ;
• Ipotezele sunt acceptate sau respinse in functie de valoarea coeficientului F asociat ANOVA:
a a n rn r e e 2 t 2 t x in e
Fc
Analiza Variatiei (ANOVA)
• Valorile teoretice ale testului F se regasesc in tabele, indexate pe baza probabilitatii de garantare a rezultatelor (1-α) si gradele de libertate interne (n-1) si externe (c-1). • Interpretarea teoretica a testului F (ANOVA): Fc ≤ Ft : se accepta ipoteza nula Fc > Ft : se accepta ipoteza alternativa
– Exemplu: Zone Records doreste sa lanseze pe piata noul album Holograf si, pentru inceput, produce 10000 de cópii. Trimite cate 2000 de exemplare in cele 5 depozite regionale sau tine seama de vanzarile celorlalte grupuri de rock din fiecare regiune din ultimul an?
Analiza Variatiei (ANOVA) • Date istorice despre vanzarile de muzica rock: Grup
Bucuresti
Constanta
Iris
3000
800
Bere gratis
750
O.C.S.
Iasi
Cluj
Timisoara
Total
1000 1500
1000
7300
200
1200 2000
1500
5650
1250
400
300
1400
1000
4350
Sarmalele reci
2000
500
600
400
800
4300
Celelalte cuvinte
1000
400
100
200
700
2400
Total
9000
2300
3200 5500
5000
25000
Medii partiale
1800
460
640
1000
1000
1100
Analiza Variatiei (ANOVA) • n = 5x5=25 de observatii • c=r=5 (n1=n2=n3=n4=n5=5) c
2
j
E
˘ 1071200
x
x
V
1 j
x j
n
c
˘ 3525000 198800 852000 2360000 380000 39040800 2
x
j
ij
1 i 1 j
x
I
V
x
4
0 0 8 0 4 1 0 c 9 3I V
x
˘ ˘
7 8 2 , 1 5 1
x
2
˘ ˘
0 0 2 1 7 c 0 1 E V
Fc
x x
Analiza Variatiei (ANOVA)
• Fc =1,827 < Ft (5,5,α=0,05)=5,05 => se accepta ipoteza nula (mediile subesantioanelor nu difera in mod semnificativ). • Cum se distribuie CD-ul celor de la IRIS?
Testul Levene • Un test bivariat, pentru stabilirea gradului de asemanare intre variatiile a doua esantioane (dependente sau independente), masurate pe o scala categoriala sau continua, normal distribuite. • Ipotezele asociate testului Levene: NU exista o diferenta semnificativa statistic intre dispersiile grupurilor analizate (dispersiile sunt asemanatoare – avem o relatie de homoscedasticitate); Disersiile grupurilor investigate sunt semnificativ diferite (prezinta o relatie de heteroscedasticitate);
Testul Levene • Indicatorul testului este denumit Levene F sau W si se calculeaza conform formulei: 2
n
j
c
i
1 i 1 j
y j
ij
y
ij
2
˘
D ij D
˘x
1 c
D
D
• unde:
˘
j
D
j
˘ x 1 j
c
W
x
n c c n
x
Testul Levene
• Valorile teoretice ale testului Levene se regasesc in tabele, indexate pe baza probabilitatii de garantare a rezultatelor (1-α) si gradele de libertate (n-c). • Interpretarea teoretica a testului Levene: Fc ≤ Ft : se accepta ipoteza nula (relatia este homoscedastiva) Fc > Ft : se accepta ipoteza alternativa (relatia este heteroscedastiva)
Testul Kruskal-Wallis • utilizat pentru stabilirea semnificatiei satistice a diferentelor constatate intre trei sau mai multe esantioane (dependente sau independente), masurate pe o scala ordinala, normal distribuite si homoscedastice. • Kruskal-Wallis este echivalentul testelor Mann-Whitney si Wilcoxon pentru mai mult de doua esantioane. – Exemple: identificarea gradului in care nivelul de educatie influenteaza preferinta pentru un anumit produs, masurat pe o scala categoriala; Stabilirea gradului in care gradul de loialitate al respondentilor este influentat de perceptia imaginii unui produs?
Testul Kruskal-Wallis • Ipotezele asociate testului Kruskal-Wallis: NU exista o diferenta semnificativa statistic intre (medianele) grupurile analizate; Grupurile investigate (medianele) difera in mod semnificativ;
• Gradele de libertate asociate K sunt c-1 (c
reprezentand numarul de grupuri determinat de variabila de grupare asupra variabilei independente).
Testul Kruskal-Wallis • Ipotezele sunt acceptate sau respinse in functie de valoarea coeficientului K asociat testului: c 2
˘
r
j
rj n
x
j
1 n j c
˘
1 n
c
K
x
2
j
˘
r
ri
x 1 i 1 j
• unde:
- rij reprezinta rangul observatiei i din grupul j; – rj – media subesantionului j; – nj – dimensiunea subesantionului j; – c – numarul de grupuri (c>2)
Testul Kruskal-Wallis • Interpretarea teoretica a testului Kruskal-Wallis se bazeaza pe valorile tabelate ale testului χ2, pentru c-1 grade de libertate si o probabilitate de garantare a rezultatelor de α: Kc ≤ χ2t: se accepta ipoteza nula (grupurile nu sunt semnificativ diferite); Kc > χ2t: se accepta ipoteza alternativa (grupurile au comportamente diferite).
• Observatii: – In cazul variabilelor nominale se utilizeaza testul χ2 , indiferent de numarul subesantioanelor; – Testul K este mai exact decat χ2 in cazul variabilelor ordinale, utilizand rangurile, spre deosebire de χ2, care utilizeaza frecvente de aparitie.
Testul Kruskal-Wallis • Exemplu: In urma unor focus grupuri realizate pentru identificarea perceptiei consumatorilor potentiali pentru berea Redd’s, inainte de lansarea acesteia pe piata, au fost stranse date despre nivelul de educatie (liceu, universitar, post-universitar) al respondentilor, ca si asupra perceptiei asupra gustului, pretului si imaginii produsului, folosindu-se scala Stapel (note de la 1 la 10, 10 reprezentand valoarea maxima). Datele stranse se regasesc in tabelul urmator.
Testul Kruskal-Wallis • Pentru fiecare respondent, valorile celor 3 indicatori ai perceptiei (gust, pret si imagine) sunt agregati utilizandu-se media algebrica. Liceu
Facultate
Master/Doctor
1
6.4
2.5
1.3
2
6.8
3.7
4.1
3
7.2
4.9
4.9
4
8.3
5.4
5.2
5
8.4
5.9
5.5
6
9.1
8.1
8.2
7
9.4
8.2
8
9.7
Medie
8.2
5.5
4.9
Testul Kruskal-Wallis • Valorile sunt agregate intr-o singura variabila, de dimensiunea n=21, iar apoi sunt atribuite ranguri, dupa sistemul explicat pentru testul Mann-Whitney: Liceu
Facultate
Master/Doctor
1
11
2
1
2
12
3
4
3
13
5.5
5.5
4
17
8
7
5
18
10
9
6
19
14
15.5
7
20
15.5
8
21
Suma rangurilor
131
58
42
Medie
16.4
8.3
7
Testul Kruskal-Wallis • Suma tuturor rangurilor este 231, cu o medie de 11 (231/21). Tabelul patratelor diferentelor de rang este: Liceu
Facultate
Master/Doctor
1
0
81
100
2
1
64
49
3
4
30.25
30.25
4
36
9
16
5
49
1
4
6
64
9
20.25
7
81
20.25
8
100
Suma rangurilor
29.16
7.29
16
Testul Kruskal-Wallis • Suma patratelor diferentelor intre rangurile observate si media rangurilor este 769, in timp ce patratul diferentelor dintre rangurile mediie ale grupurilor si media generala a rangurilor este 52,45. In acest fel, putem calcula: c 2
˘
r
j
rj n
x
j
1 n j c
˘
1 n
c
K
x
r
j
˘
2
ri
x
20
769 52.45
293,23
1 i 1 j
– Observam ca Kc = 293,23 > χ2t =5,991, calculat pentru 3-1 grade de libertate si un α=0,05, deci acceptam impoteza alternativa, concluzionand ca nivelul de educatie influenteaza semnificativ modul in care este perceputa marca de bere Redd’s
Analiza CoVariatiei (ANCOVA) • Reprezinta un test statistic, utilizat pentru stabilirea semnificatiei satistice a diferentelor constatate intre trei sau mai multe esantioane (dependente sau independente), masurate pe o scala categoriala sau continua, normal distribuite si homoscedastice. – Exemple: utilizarea Internetului (tipuri de abonament) difera in functie de nivelul de educatie al persoanelor investigate (gimnazial, liceal, universitar, post-universitar)? Cum este influentata intentia de cumparare pentru un produs, la nivelul unor grupuri distincte, de catre expunerea la instrumente promotionale distincte, in conditiile in care respondentii cunosteau deja produsul?
Analiza CoVariatiei (ANCOVA) • ANCOVA testeaza in plus (fata de ANOVA) efecte ale covariantei (influenta unor variabile independente suplimentare) variabilei dependente. • CoVarianta este utilizata pentru izolarea efectelor altor variabile indepentente (covariante) asupra variabilei dependente investigate. • Variabilele independente suplimentare sunt denumite variabile de control.
Analiza CoVariatiei (ANCOVA) • Variabila dependenta este subdivizata in c subesantioane (grupuri), de dimensiuni n1, n2,…nc. • Covariatia totala a subesantioanelor este descompusa in covariatie interna (in interiorul acestor grupuri) si covariatie externa (diferenta constatata intre grupuri).
Analiza CoVariatiei (ANCOVA) E
V
VI
T
V
• Variatia totala:
j
j
1 i 1 j
n
T
2 ij
y
V
1 i 1 j
ij
n c
˘
2
x
y
n
c
n
c
V
E
1 i 1 j
( yij y j )(xij x j )
c
V
y)(x x) Analiza CoVariatiei (ANCOVA) n( y I
j
1 j
j
Analiza CoVariatiei (ANCOVA) • CoVariatia este data de: j
n
j1
1
nj
1 i
n j
1 i
1 j
j
yi ij x
I
V O C
y
j
x
ij ij
c
n
x
2 j
yi
1 i
j1
i 1
1j
2 ij y x
2 ij i
E
j
2 ji
x
c j n
V O C
n
c
n
c
Analiza CoVariatiei (ANCOVA) • Gradele de libertate asociate (fiecare variabila de control suplimentara duce la pierderea unui grad de libertate): variatia interna: n-c-1; variatia externa: c-1;
externa (intre grupuri):
2
VI V I O T C V
r
n r 2i nte
interna (in interiorul grupurilor):
2 E E V V O T C V
r
rn te 2 ex
• Coeficientul de determinare (indica in ce masura variatia din interiorul/exteriorul grupurilor identificate la nivelul variabilei dependente este explicata de variabila de grupare):
Analiza CoVariatiei (ANCOVA)
• Ipotezele asociate ANCOVA: NU exista o diferenta semnificativa statistic intre (mediile) grupurile analizate; grupurile investigate (mediile lor) difera in mod semnificativ;
• Ipotezele sunt acceptate sau respinse in functie de valoarea coeficientului F asociat ANCOVA: E I
x
˘
1 1 c n
V
V
Fc
x
Analiza CoVariatiei (ANCOVA)
• Interpretarea testului F se face la fel ca in cazul ANOVA, prin identificarea valorilor tabelate, indexate pe baza probabilitatii de garantare a rezultatelor (1-α) si gradele de libertate interne (n-1) si gradele de libertate externe (c-1). • Interpretarea teoretica a testului F (ANCOVA): Fc ≤ Ft : se accepta ipoteza nula Fc > Ft : se accepta ipoteza alternativa
Analiza CoVariatiei (ANCOVA) • Exemplu: Pentru cursul de Analiza Datelor de Marketing utilizand SPSS avem 4 manuale alternative. Pentru a testa care dintre ele este mai util studentilor, am oferit cate un manual fiecarei grupe. Am administrat un examen comun, cu 25 de intrebari, tuturor celor 4 grupe, iar apoi am prelevat esantioane formate din 10 studenti din fiecare grupa, pentru a determina daca exista diferente semnificative in pregatirea acestora.
Analiza CoVariatiei (ANCOVA) • Raspunsuri corecte la examen, pe baza unor manuale diferite Nota la SPSS
1
2
3
4
5
6
7
8
9
10
Total
Medii partiale
Grupa 1
12
15
14
14
18
18
16
14
19
19
159
15,9
Grupa 2
13
16
15
16
19
17
19
23
19
22
179
17,9
Grupa 3
14
16
18
20
18
19
22
21
23
20
191
19,1
Grupa 4
15
16
13
15
19
17
20
18
20
21
174
17,4
• Media generala a raspunsurilor corecte: 17,57
Analiza CoVariatiei (ANCOVA) c
• n = 4 x 10 = 40 de observatii • c = 4, iar r = 10 x
2
x x j
E
V
˘ 5,2675
1 j
n
cj
1, 1 7 2
4, 2 6
9 6, 6
9, 6 8
j
˘
9, 4 5
2
x
1 i 1 j
ji
I
x
V
x
˘ ˘
8 4 6 0, 0
I
x x
0 1 1 0 1 ,1 1 7 2
c 1 c
V
˘ ˘
4 5 7 6 2, 5
V
E
Fc
x x
Analiza CoVariatiei (ANCOVA) – Fc = 0,0648 < Ft (39,9,α=0,05) = 2,84 => se accepta ipoteza nula (mediile subesantioanelor NU difera in mod semnificativ) => dintre cele 4 grupe, nu exista cel putin doua ale caror masteranzi au o pregatire semnificativ diferita la Analiza Datelor de Marketing Utilizand SPSS (ex.: grupa 1 a raspuns corect, in medie, la 16 intrebari, iar membrii grupei 3 au raspuns corect, in medie, la 19 intrebari, insa aceasta diferenta nu este semnificativa statistic, data fiind dimensiunea esantioanelor utilizate). – Putem concluziona ca nu conteaza ce manual voi recomanda anul viitor?
Analiza CoVariatiei (ANCOVA) – Dupa cum stiti, la Marketing Strategic studentii sunt ordonati in diferite grupe in functie de facultatile absolvite, deci este teoretic posibil ca unii dintre ei sa aiba o pregatire anterioare in domeniul analizei datelor, ceea ce ar afecta acuratetea testului efectuat. – Pregatirea anterioare poate fi estimata prin intermediul notei la Metode si Modele in Marketing, de pe primul semestru, care presupunea cunostinte in aproximativ acelasi domeniu.
Analiza CoVariatiei (ANCOVA) • Raspunsuri corecte la examen, pentru grupe care s-au pregatit cu manuale diferite, incluzand nota la Metode si Modele in Marketing. Grupa 1 Grupa 2
Grupa 3
Grupa 4
1
2
3
4
5
6
7
8
9
10
Total
Medii partiale
SPSS
12
15
14
14
18
18
16
14
19
19
159
15,9
Modelare
5
5
6
7
7
8
8
9
9
10
74
7,4
SPSS
13
16
15
16
19
17
19
23
19
22
179
17,9
Modelare
4
4
5
6
6
8
8
9
10
10
70
7
SPSS
14
16
18
20
18
19
22
21
23
20
191
19,1
Modelare
4
4
6
6
7
8
8
9
10
10
72
7,2
SPSS
15
16
13
15
19
17
20
18
20
21
174
17,4
Modelare
4
5
5
6
6
7
7
9
9
10
68
6,8
Analiza CoVariatiei (ANCOVA) • Analiza covariatiei: n
c
ij
j
˘
1 6 1j x
x
˘ x
ij
E
y
y
V
1 i 1 j
x
c
,3 3
j
x
j
˘ ˘
x
˘
x
˘x
y
y
I
x
n
V
1 j
0 4 3 , 3 1 c n x
˘ ˘
1 , 3 11 1 9
1 6 1
E I
x
1
V
V
Fc
x
Analiza CoVariatiei (ANCOVA)
• Fc = 13,1 > Ft (39,9,α=0,05) = 2,84 => se accepta ipoteza alternativa (mediile subesantioanelor difera in mod semnificativ) => exista diferente semnificative intre contributiile la pregatirea studentilor a celor 4 manuale utilizate!
Analiza datelor de marketing utilizand S.P.S.S. - Analiza asociativa -
Analiza asociativa a datelor • Presupune masurarea gradului de asociere sistematica a valorilor a doua variabile sub aspectul: Directiei (directa / inversa) Intensitatii (fortei) puternica; moderata; slaba; foarte slaba; inexistenta.
Semnificatiei statistice.
Analiza asociativa a datelor • 4 tipuri de asocieri statistice: Non-monotone (prezenta sau absenta unei variabile este sistematic asociata cu prezenta sau absenta valorilor unei alte variabile) – nu permite identificarea clara a directiei (ex.: utilizatorii PlayStation sunt copii, nu adulti); Monotone (se poate identifica directia asociatiilor, dar nu si intensitatea) – ex.: inaltimea unei persoane influenteaza marimea pantofilor); Liniara si non-liniara (se pot identifica directia si intensitatea) daca se cunoaste valoarea unei variabile poate fi identificata automat voaloarea celeilalte variabile;
Analiza asociativa a datelor • Indicatori utilizati: – Coeficientul de corelatie rphi (Φ); – Coeficientul de contingenta C; – Coeficientii de corelatie a rangurilor ρ (Spearman) si γ (Kruskal si Goodman); – Coeficientul de corelatie r (Pearson);
Coeficientul de corelatie rphi Utilizat pentru identificarea asocierilor existente intre doua variabile dihotomice. Coeficientul de corelatie:
2 /
˘
]1 d
˘x
b
˘x
c
˘x
b a [
i h
x
c c a b d a d
rp
Directia asocierii este data de semnul lui rphi Coeficientul de determinare (rphi)2 determina gradul in care variabila dependenta este influentata de variabila independenta. Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane este determinat cu ajutorul testului χ2 in varianta Fisher (esantioane independente) sau McNemar (esantioane dependente).
Coeficientul de corelatie rphi Intensitatea corelatiei: 0 ≥ |rphi| ≥ 0,2 => corelatie nesemnificativa; 0,2 > |rphi| ≥ 0,4 => corelatie foarte slaba; 0,4 > |rphi| ≥ 0,6 => corelatie slaba; 0,6 > |rphi| ≥ 0,8 => corelatie moderata; 0,8 > |rphi| ≥ 1 => corelatie puternica;
2c
2c χ χ N
• Utilizat pentru variabile categoriale (tabele de contingenta de dimensiunea rxk); • Dependent de conditiile de calcul ale χ2. • Nu poate fi determinata directia asocierii! • Coeficientul de contingenta:
C
Coeficientul de contingenta C
N.B.: Coeficientii de contingenta nu pot fi comparati decat daca provin din tabele de contingenta de aceeasi dimensiune!
Coeficientul de contingenta C Intensitatea corelatiei:
k
1
k , [0
C
Intervalul astfel obtinut este impartit in 5 sub-intervale egale Nu exista un test de semnificatie al Coeficientului de contingenta!
Coeficientul de corelatie Spearman Denumit si “coeficientul de corelatie al rangurilor”, este utilizat doar pentru a compara variabile masurate pe scala ordinala sau interval. Coeficientul Spearman de corelatie a rangurilor n
2i
n n
1
1 2 i
1
ρ
x
D
6
Di reprezinta diferentele dintre rangurile unei inregistrari (respondent);
Coeficientul de corelatie Spearman Directia asocierii este data de semnul lui ρ. Intensitatea asocierii este data de valoarea lui ρ. Gradul de semnificatie al asocierii este determinat cu ajutorul testului de semnificati al coeficientului Spearman, calculat cu ajutorul formulei:
ρ
Z
1
c
1 n
Coeficientul de corelatie Spearman
• Bazat pe ipoteza nula:
H0: coeficientul de corelatie NU DIFERA in mod semnificativ de
zero.
H1: coeficientul de corelatie DIFERA in mod semnificativ de zero.
• Valoarea calculata zc a testului se compara cu valoarea tabelata zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt ≤ Zc ≤ Zt : se accepta ipoteza nula altfel : se accepta ipoteza alternativa
Coeficientul de corelatie γ (Goodman si Kruskall) • •
Se poate utiliza atunci cand coeficientul Spearman nu ofera valori concludente. Valoarea lui γ, la fel ca si ρ, poate lua valori in intervalul -1 si +1.
Q Q
P P
γ
– P se obtine inmultind valoarea frecventei din coltul din stanga sus a tabelului de frecvente asociat cu valorile de pe randul urmator, fara cea care se afla imediat sub ea, si cu celelalte valori ale tabelului, dupa care se insumeaza cu produsul dintre prima valoare a randului urmator si suma frecventelor incepand de pe randul urmator, insa din nou fara valoarea aflata imediat sub ea, iterativ. Q se calculeaza dupa aceleasi reguli, insa incepand din dreapta sus.
Coeficientul de corelatie γ (Goodman si Kruskall) Categorie de varsta
Intentiile de cumparare 1
2
3
4
5
1 – (sub 20 de ani)
5
10
15
20
25
2 – (20 – 40 de ani)
10
10
15
20
20
3 – (40 – 60 de ani)
20
15
15
10
5
4 – (peste 60 de ani)
35
25
20
5
1
P = 5 (10+15+20+20+20+15+15+10+5+25+20+5+1) + 10 (15+20+20+15+10+5+20+5+1) + 15 (20+20+10+5+5+1) + 20 (20+5+1) + 10 (15+15+10+5+25+20+5+1) + 10 (15+10+5+20+5+1) + 15 (10+5+5+1) + 20 (5+1) + 20 (25+20+5+1) + 15 (20+5+1) + 15 (5+1) + 10x1 = 6815
Utilizat atunci cand cel putin una dintre variabile este metrica, variabilele sunt continue, au distributii normale si dispersii asemanatoare. Calculat cu ajutorul formulei: n
y i
i
1 i
i
˘
2
y
2
˘ x
yi
1 i
1 i
n
n
x
n
i
1 i
˘˘x 2
x
i
˘ x 2
x
1 i
n
n
n
x
1 i
x
x
i
1 i
n
yi x n n
r
Coeficientul de corelatie Pearson
Directia asocierii este data de semnul lui r. Intensitatea asocierii este data de valoarea (absoluta) a lui r. Coeficientul de determinare r2 indica gradul in care variatiile de la nivelul variabilei independenta explica variatiile constatate la nivelul variabilei dependente.
Coeficientul de corelatie Pearson • Gradul de semnificatie al asocierii este stabilit prin testarea semnificatiei statistice a coeficientului r. • Bazat pe ipoteza nula: H0: nu exista o corelatie intre variabilele investigate (r nu este in mod semnificativ diferit de zero).
x
0 1
Z
1
c
rr 11
g lo 3 1 ,5 1
3 n
• Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt2 ≤ Zc2 ≤ Zt 2 : se accepta ipoteza nula altfel : se respinge ipoteza nula
Analiza asociativa a datelor • Indicatori utilizati: – Variabile categoriale: • variabile dihotomice =>rphi; • variabile ordinale sau interval => ρ sau γ; • variabile nominale, non-dihotomice: C.
– Variabile proportionale => r;
Corelatii partiale • Nu intotdeauna o corelatie observata reprezinta asocieri directe intre variabile (corelatia nu implica cauzalitatea)! • Exemplu: a fost demonstrata o relatie directa si puternica intre consumul de inghetata si infractionalitatea (numarul de infractiuni saptamanale) din New York!! (sa le propunem sa interzica inghetata!?!) – Motivul: ambele sunt influentate de temperatura!
Corelatii partiale • Coeficientul de corelatie partiala masoara gradul de asociere dintre doua variabile, excluzand in prealabil efectele asupra variabilei dependente a una sau mai multe variabile de control (independente)! – Exemple: • efectul asupra cresterii vanzarilor al unui spot promotional, atunci cand este exclus efectul reducerilor de pret asociate; • perceptia consumatorilor asupra calitatii produsului este influentata de perceptia asupra pretului, in conditiile in care se exclude perceptia asupra imaginii marcii, etc.
Coeficientul de corelatie partiala dintre variabila independenta X si variabila dependenta Y, in conditiile in care este exclus (“controlat”) efectul variabilei independente (de contro) Z, notat rxy-z. Calculat cu ajutorul formulei:
rx
˘
r
2 yz
x
1
r
2 xz
˘
˘x
z y
z x
x
x
1
z y
y
rx
Corelatii partiale
˘
unde: rxy este coeficientul de corelatie dintre variabilele X si Y, etc.
Corelatii partiale Coeficientii de corelatie partiala au o ordine asociata, care indica numarul de variabile de control utilizate (coeficientii de corelatie directi sunt “de ordin zero”). Formula de calcul este recursiva. Coeficientul de corelatie partiala de ordin n (cu n variabile de control Z={Z1, Z2,…Zn}) se calculeaza pe baza a trei coeficienti de corelatie partiala de ordin n-1: x
0
z \ Z 0
z y
ˇ
ρ 1
0
z \ Z
0
z 2y
0
0
0
z z \ x Z 0 z 0 2x
ρ 1
z y x
x
\z Z
Z \ Z y x
ˇ
ρ
ρ
ρ ρ
x
ˇ
Corelatii partiale
Directia asocierii este data de semnul lui rxy-z. Intensitatea asocierii este data de valoarea (absoluta) a lui rxy-z. Coeficientii de corelatie partiala sunt utilizati pentru o predictie mai exacta a directiiei asocierilor (cauzalitatii), dar nici ei nu trebuie considerati exclusivi!
Corelatii partiale Atitudinea fata de berea Redd’s. Respondent
Atitudinea (scala Stapel)
Ore petrecute lunar in cluburi
Importanta relativa a pretului
1
6
10
3
2
9
12
10
3
8
12
4
4
3
4
1
5
10
12
10
6
4
6
1
7
5
8
7
8
2
2
4
9
10
18
8
10
9
9
10
11
10
17
8
12
2
2
5
Corelatii partiale Coeficientii simpli (de ordin zero) intre variabile sunt: z y
r
2y z
1
r
2x z
1
2
x y1
rx
ryx2 = 0,7334
z x
y
rx
rx1y = 0,9361
rx1x2 = 0,5459
˘ ˘
6 8 9 ,3 0
2
x
4 3 3 ,7 0
˘
1
x
2
5 9 5 ,4 0 1
2
x y1
rx
4 3 ,7 3
5 9 4 5 ,1 0 6 3 9 , 0
˘x
x
Corelatii partiale
• In conditiile in care rxy-z = 0,9386 se poate conclude ca preferinta pentru berea Redd’s este foarte puternic asociata cu numarul de ore petrecut de respondenti in cluburi, chiar si atunci cand este exclus efectul perceptiei respondentilor asupra pretului berii.
Analiza datelor de marketing utilizand S.P.S.S. - analiza predictiva -
Analiza predictiva • Presupune realizarea de estimari asupra evolutiei viitoare a fenomenelor de marketing, utilizand ca metode de lucru: Analiza seriilor dinamice (univariata) Regresia (bivariata sau multivariata) liniara; logistica; hiperbolica;
Modelarea.
Criterii de clasificare ale analizei predictive • Gradul de cuprindere la care se face previziunea: • • • • •
nivel de produs (marca); nivel de grup de produse (linie sau gama); nivel de unitate economica; nivel de ramura de activitate; nivelul economiei nationale (previzune macro-economica);
• Aria geografica inclusa in procesul de previziune: • • • •
nivel local; nivel regional; nivel national; nivel international.
Criterii de clasificare ale analizei predictive • Orizondul de previziune poate fi: • scurt (o perioada/1 an); • mediu (pana la 5 perioade/ani); • lung (peste 5 perioade/ani);
• Alte criterii: • Precizia rezultatelor (previziuni cantitative si calitative); • Tipul de date utilizate; • Considerarea influentelor unor factori perturbatori (metode endogene si exogene);
Lanturile Markov • Metoda lanturilor Markov reprezinta o modalitate de previziune cu utilitate limitata, ce nu presupune nici existenta unei serii cronologice, nici existenta unei asocieri. • Proprietatea Markov: starea viitoare depinde doar de starea prezenta si de o matrice a probabilitatilor de schimbare a starii (starea viitoare nu depinde de stari trecute) – viitorul este conditional independent de trecut. • Probabilitatea unei anumite stari de a depinde de starile anterioare:
P(sik | si1, si 2 ,K, sik 1 ) P(sik | sik 1 )
Lanturile Markov • Probabilitatea unei stări poate fi calculată cu ajutorul următoarei formule: s , K
1 k i
2 i 1
1 k i
x
1 k i
x
1 i
˘
s P
1 i
s2 |i s P
si , P
s ,
˘ K ˘ K K x ˘ K 2 i
1
˘ x ˘ x ˘ x
2 1 si s ik , ,2 s s | ki i | 1 k s , 1i s i P s P P
1
x x
K
k i
s k ik i ,2 s s i | k | ik s i1 s i s , P P P x
˘
• Pentru a defini lanţul Markov trebuie specificate : j
ij
x
si |
P
i P(si ) a
• probabilitatea de tranziţie: • probabilitatea iniţială:
Lanturile Markov • Matricea probabilitatilor de tranzitie este alcatuita pe baza probabilitatile de transformare (schimbare a starii) a fiecarei variabile: – Exemplu: utilizarea clasica in marketing – evolutia cotei de piata (matricea probabilitatii de tranzitie este alcatuita pe baza unui indicator de loialitate / tranzitie a respondentilor pentru o anumita marca). – Pe piaţa şampoanelor dermato-cosmetice există trei produse (2007): Selegel, T-gel şi Nizoral, cu cotele de piata:
Selegel Ducray Nizoral 25% 35% 40%
Lanturile Markov • Indicele de loialitate.
Selegel Ducray Nizoral 0,85 0,75 0,8
• Probabilitatile de tranzitie (cumparatori care isi vor schimba samponul in luna urmatoare): Produsul părăsit
Reorietări Selegel
Ducray
Nizoral
Selegel
x
0.10
0.05
Ducray
0.15
x
0.10
Nizoral
0.10
0.10
x
Lanturile Markov • Matricea probabilitatilor de tranzitie. 0,85
0.10
0.05
0.15
0,75
0.10
0.10
0.10
0,8
• Cotele de piata la t1:
5 , 0 3 5 0 , 0 * 0 4 0 1 , 0 5 3 5 8 , 0 5 2 l e l g e S
Selegel 30,5%
Ducray Nizoral 32,75% 36,75%
Analiza seriilor dinamice
• Cunoscuta in literatura de specialitate si sub denumirea de analiza seriilor de timp. • Presupun utilizarea unor date istorice (inregistrari ale evolutiei unui fenomen in timp). • Reprezinta cea mai facila metoda (logistic si matematic) de realizare a previziunilor. • Previziunea naiva: in perioada urmatoare variabila investigata isi va pastra nivelul actual:
t
1 t
Y
P
Metoda modificarii procentuale
• Metoda modificării procentuale (MMP) urmăreşte să evalueze schimbarea procentuală a variabilei între perioade succesive de timp.
1
Y0 Pt M M t
Pt
– unde: MMPt reprezinta media modificării procentuale pentru primele t perioade, iar Y0 este valoarea observată din prima perioada a variabilei previzionate.
Metoda modificarii procentuale • Exemplu: Presupunand un volum al desfacerilor (vanzari) pentru berea Tuborg in primele 6 luni ale anului conform tabelului de mai jos, se vor estima vanzarile din luna iulie.
Luna
Vanzari (hl)
Ianuarie
12000
Februarie
10000
Martie
11000
Aprilie
13000
Mai
14000
Iunie
15000
Metoda modificarii procentuale • Exemplu: Presupunand un volum al desfacerilor (vanzari) pentru berea Tuborg in primele 6 luni ale anului conform tabelului de mai jos, se vor estima vanzarile din luna iulie. 0 Y 1 t n Y Pt M M
0 0 0 6 6 5 0 0 1 0 0 1 16 0 0 2 6 1 0 0
6
5P 1M M
x
˘
0
0 0 0 2 lie 1 iu Y
Metoda modificarii procentuale mobile
• Metoda modificării procentuale mobile (MMPM) are un grad mai mare de precizie decat MMP si este utilizata in cazul in care se observa tendinte (trend-uri) in date. • MMPM presupune calculul prealabil al indicilor care exprimă modificarea procentuală a variabilei de la o perioadă la alta. • De asemenea, presupune calculul prealabil al mediilor mobile ale schimbarilor procentuale (MPM), dupa formula: 2 t
2
Y1
Y . . .
Y
Y
2
1 t
Y
n
Y1
t
t1
1 t
t
Y
Y
Y Mt P M
Metoda modificarii procentuale mobile • Metoda modificării procentuale mobile (MMPM) presupune utilizarea formulei de previziune:
˘
1
n ·Y Pn M M 1
Pn
x
• Pentru perioada m care urmeaza celor n perioade observate (date istorice), formula se transforma dupa:
n
Y ·mn Y · Pn M M
m
Pn
Metoda mediilor mobile
1 2 L
• Metoda mediilor mobile (MM) este utilizata atunci cand se doreste acordarea unei importante (greutati) superioare observatiilor recente dintr-un set de date istorice, fata de cele de la inceputul setului. • Previziunile se fac asupra unui set de valori ajustate (teoretice), care inlocuiesc termenii initiali ai seriei cronologice, determinate cu ajutorul formului:
Yt
L t- 2 i
1 L
Yt
ˆ
• presupunea alegerea unui interval de referinta L (L < n), la nivelul caruia se vor raporta calculele pentru determinarea mediilor mobile. Se recomanda ca L < 8.
Metoda mediilor mobile • Pentru o serie de aplicatii, se pot utiliza si date “viitoare”, metoda fiind centrata pe o anumita valoare. In acest fel, metoda nu prevede evolutia ulterioara a fenomenului, ci valorile “asteptate”, conform trend-urilor presupuse de valoarile observate. • Metoda se bazeaza pe propritatea mediei aritmetice de compensare a erorilor, diminuand astfel influenta oscilatiilor periodice. Sirul obtinut reprezinta trendul si reflecta tendinta comuna, generala a seriei cronologice.
Metoda mediilor mobile • Exemplu: analiza vanzarilor (milioane EURO) lunare ale URBB Bucuresti. Perioada
1
2
3
4
Valori observate
5
6
8
7
Valori previzionate (L=5)
-
-
6
7
8
6,5 7,2 6,8 6,3
9
10
11
6
6,6 7,4 7,8
6,5 6,9 7,1 6,8 6,6 6,6 6,6 6,8
Yt
x
5 P
˘
˘
1 , 7 8 , 6 2 , 7 5 , 6 7 8
x
5
9 , 6 2 , 5 7 , 6 7 8 6 1 51
P4
t Yt Y 2 7 3 6 i 1 515 i
˘
x
1 i
-
5 , 6 5 , 6 7 8 6 5 1 5
5
1 5
P3
• Metoda de calcul:
5
12 -
Metoda mediilor mobile
• Previziunea se face asupra setului de date ajustat, utilizand metode de analiza a seriilor dinamice la alegere (MMP, MMPM, etc.). • Media mobila a schimbarilor procentuale (MPM) pentru setul de valori ajustate dupa metoda mediilor mobile este:
2 t
n
5 2 0 .1 6 0
Y1
1 t
Mt P M
1
Y
2
Y . . .t2 Y Y
Y
t1
1 t
t
Y
Y
Y
ˆ
ˆ
2 9 6 . 10 Y 6 ·3 0 ·Y1 P10 M M
3
P1
Metoda nivelarii exponentiale
• Metoda nivelarii exponentiale este mai precisa decat metodele anterioare. La randul ei, creaza posibilitatea ca cele mai recente observatii sa fie luate în calcul cu ponderi mai mari.
Pt
x ˘
a 1
t
Y a 1 Pt
• presupunea alegerea unui coeficient de nivelare α (0 < α < 1), valoarea acestuia fiind stabilita fie prin utilizarea mediilor mobile, fie prin incercari, urmata de evaluarea acuratetei seriilor de valori previzionate (suma patratelor valorilor reziduale).
Metoda nivelarii exponentiale • Exemplu: analiza vanzarilor (milioane EURO) lunare ale URBB Bucuresti. Vom analiza trei coeficienti:
˘
x
6 5 , 0 P2
5 5 , 0 1
• α = 0,5; • α = 0,33; • α = 0,25;
Perioada
1
2
3
4
5
6
7
8
9
10
11
12
Valori observate
5
6
8
7
6,5
7,2
6,8
6,3
6
6,6
7,4
7,8
Previziune (α=0,5)
5
5,5
6,75
6,9
6,7
6,9
6,9
6,6
6,3
6,4
6,9
7,4
Previziune (α=0,33)
5
5,33
6,22
6,48
6,49
6,73
6,75
6,6
6,4
6,47
6,78
7,12
Previziune (α=0,25)
5
5,25
5,94
6,2
6,28
6,51
6,58
6,51
6,38
6,44
6,68
6,96
Metoda nivelarii exponentiale
• Valorile asteptate pentru perioada urmatoare: • 7,6 milioane (α = 0,5);
˘
6 , 7 4 , 7 5 , 0 1
8 , 7 5 , 0 3 P1
x
• 7,34 milioane (α = 0,33);
x
˘
˘
4 3 , 7 2 1 , 3 7 3 , 0 1
8 , 7 3 3 , 0 13 P
• 7,18 milioane (α = 0,25);
• Pe care o vom alege?
x
8 1 , 7 6 9 , 6 5 2 , 1 0
8 , 7 5 2 , 0 13 P
Metoda nivelarii exponentiale • Metoda nivelarii exponentiale duble (Metoda Brown) este recomandabila atunci cand seria dinamica poseda în configuratia sa o tendinta liniara. • Necesita doar un minim de 3 valori istorice pentru a fi implementate (insa acuratetea ei este influentata direct de dimensiunea seriei istorice utilizate). • presupunea utilizarea a doi vectori de nivelare dinamica αi si þi (0 < αi, þi < 1).
Metoda nivelarii exponentiale • Pentru previzionarea unei valori ulterioare k momentului actual (t), se utilizeaza formula:
t
t
P 1 t 1 Pt Xt
P
P
a
1
t
t
a
þ
P
• iar
t
P 2 t a
-1
• unde:
t
k t
Ptk þ
a
P
Metoda nivelarii P exponentiale Pt t 1 Pt1
Metoda nivelarii exponentiale • Metoda nivelarii exponentiale cu doi parametrii (Metoda Holt) este mai flexibilitata decat metoda Brown, intrucat permite nivelarea tendintei folosind un parametru diferit de cel al seriei dinamice iniţiale. • Necesita doar un minim de 3 valori istorice pentru a fi implementate (insa acuratetea ei este influentata direct de dimensiunea seriei istorice utilizate). • presupunea utilizarea a 3 coeficient de nivelare dinamici α, þ si ç (0 < α, þ, ç < 1). • Metoda este utilizata pentru a determina trend-ul evolutiei fenomenului, iar pe baza acestuia nivelul ulterior al variabilei previzionate.
Metoda nivelarii exponentiale • Seriile asociate metodei Holt au forma:
st
t
t
˘
T
þ a
Pt
x
• unde α reprezinta o constanta subunitara asociata nivelului initial al seriei, þ este un indice asociat trend-ului seriei, iar st este asociat erorilor (influentelor) aleatorii. • Tt reprezinta trend-ul (evolutia) asociat seriei de valori istorice observate, calculat dupa formula:
˘
P ç 1
1 t
2
t
Pt-1 Pt
ç
T
x
Metoda nivelarii exponentiale
• Previziunea valorilor, conform metodei Holt, presupune utilizarea formulei:
T
t
1 t
˘x
P
x
a 1
t
Y a t P
• In cazul in care in setul de date este inclus si un factor de sezonalitate, se utilizeaza metode nivelarii exponentiale sezoniere a lui Winters. • Previziunea cu ajutorul acestei metode se bazeaza pe formula:
Ptm Pt bt m St Lm
• Sezonalitatea in modelul Winters este estimata cu ajutorul formulei:
S þ
t1
1
t
t
t
Yþ P
S
P a 1
T
1 t
1 t
t
t
Y T a
• unde
P
1 t
T ç
1 t
1 t
1
P
t
t
P ç
T
Metoda nivelarii exponentiale
Metoda nivelarii exponentiale
Alegerea metodei de previziune adecvata
• Selectia modelului de previziune adecvat este realizata prin compararea valorilor reziduale (denumite si variatia neexplicata), dupa formula: n 2
i
i
E
ˆ ˘
y
y
S S
1 i
x
• daca metoda utilizata este perfecta, atunci SSE = 0. • Alternativ, se poata utiliza abaterea medie absoluta (AMA) asociata fiecarei metode de previziune: n i
ˆ
1 i
n
A M A
| i y
y |
Alegerea metodei de previziune adecvata • Exemplu: previziunea vanzarilor pentru a 11-a perioada: MMP
Brown
Holt
Winters
Anul
Xi
Yi
εi
Yi
εi
Yi
εi
Yi
εi
Ian
2
1,8
0,2
2
0
2,3
-0,3
-
-
Feb
2,5
2,3
0,2
2,7
-0,2
2,8
-0,3
2,5
0
Mar
3,2
2,8
0,4
3,3
-0,1
3,4
-0,2
3,1
0,1
Apr
3,0
2,9
0,1
3,1
-0,1
3,2
-0,2
3,1
-0,1
Mai
4,0
3,8
0,2
3,8
0,2
3,8
0,2
3,7
0,3
Iun
4,5
4,6
-0,1
4,6
-0,1
4,4
0,1
4,4
0,1
Iul
5,0
5,2
-0,2
4,8
0,2
4,8
0,2
5,0
0
Aug
4,8
5,0
-0,2
5,3
-0,5
5,0
-0,2
5,1
-0,3
Sep
5,3
5,5
-0,2
5,5
-0,2
5,1
0,2
5,2
0,1
Oct
6,0
5,7
-0,3
5,6
0,4
5,8
0,2
5,5
0,5
Alegerea metodei de previziune adecvata
2
ˆ ˘ i
y yi
SE S
1 i
x
| yi n| 1 y i iA M A
n
• Suma patratelor valorilor reziduale, respectiv abaterea medie absoluta: ˆ
MMP
Brown Holt Winters
SSE
0,51
0,6
0,47
0,47
AMA
2,1
0,2
0,21
0,17
Modele autoregresive (AR) • Modelele autoregresive reprezinta o varianta univariata a regresiei liniare, in care valoarea curenta este estimata utilizand una sau mai multe valori anterioare ale seriei (serii cronologice). p t
t
s
Yp a . . .
2 t
Y2 a
1 t
t
Y1 a ð
Y
• Modelul AR: ˆ
• unde p reprezinta ordinul de autoregresie (nivelarea exponentiala reprezinta un model AR de ordin 1), ð este un indice asociat trend-ului seriei, iar st este asociat erorilor (influentelor) aleatorii.
Y i a 1 1i
ð
x ˘
Modele autoregresive (AR)
Modele autoregresive (AR)
• Box & Jenkins au demonstrat ca una dintre cele mai eficiente modalitate de rezolvare a modelelor autoregresive este prin utilizarea mediilor mobile (Moving Averages – MA). • Variantele metodei Box-Jenkins: – ARMA – utilizat pentru serii stationare (serii cu proprietatea ca media si variatia nu se modifica semnificativ in timp – practic, o serie de tip Brown, in care nu exista trend si sezonalitate). – ARIMA – utilizat pentru serii dinamice (“I” vine de la Integrate).
Modele autoregresive (AR) •
Metoda Box-Jenkins presupune trecerea prin 3 faze pentru determinarea modelului utilizat in previziune: 1. Identificarea modelului 2. Estimarea parametrilor modelului 3. Validarea modelului
•
In general, pentru realizarea unei autoregresii eficiente, sunt recomandate serii cronologice lungi – unii autori recomanda minim 50 de observatii, alti chiar 100.
Modele autoregresive (AR) •
Identificarea modelului: – Dinamicitatea unei serii (modelul ARMA sau ARIMA) este determinata utilizand un grafic de autocorelatie, care va prezenta sezonalitate in cazul in care graficul este continuu
Modele autoregresive (AR) •
Identificarea modelului: – Graficul de autocorelatie reprezinta pe abcisa trecerea timpului, iar pe ordonata coeficientul de auto-corelatie corespunzator, calculat dupa formula: h
h
Y
Yt
Y
2
σ
˘x
Yt
x 1 i
h
R
N 1 n
t1
– Liniile (valorile) de demarcatie pentru autocorelatie sunt calculate dupa formula (α corespunde probabilitatii de arantare a rezultatelor): g a2
n
Modele autoregresive (AR)
•
q
p
Identificarea modelului: – Modelul ARMA (fara sezonalitate si trend):
˘ x
˘
st iL i þ
1
1
Yt i L i a
x
1 i
1 i
– Modelul ARIMA (serii dinamice):
˘
1 i
t
s iL i þ
t
x
1
˘
Y d L 1
˘ x
iL i a
1 i
q
p
1
x
Modele autoregresive (AR)
•
Identificarea modelului: – –
•
estimarea parametrilor αi si þi - in intervalul [-1;1] se realizeaza prin aproximare (recomandabil cu un program statistic, gen SPSS); Li reprezinta vectorul primilor i parametrii estimati pentru o serie cronologica simpla sau care include sezonalitate (operatorul de lag).
Estimarea parametrilor modelului: – parametrii p si q sunt estimati cu ajutorul graficului de autocorelatie (valoarea maxima a lui α (probabilitatea de garantare a rezultatelor) pentru care coeficientii de autocorelatie nu depasesc valoarea-prag). – parametrii αi sunt estimati prin aproximare, folosind metoda celor mai mici patrate (recomandabil cu un program statistic, gen SPSS);
Modele autoregresive (AR) •
Validarea parametrilor modelului:
c
i
a i a s
z
– Se realizeaza prin testarea ipotezei nule ca valorile reziduale sunt independente, vectorul acestora avand o medie si o varianta nediferite semnificativ statistic in timp. In cazul in care parametrii nu sunt validati, trebuie revenit la pasul 1. – Valoarea testul Student asociat parametrilor modelului este:
•
•
-Zt ≤ Zc ≤ Zt : se accepta ipoteza nula (parametrul NU este
valid); altfel, se accepta ipoteza alternativa (parametrul este valid);
Modele autoregresive (AR) • Exemplu: previziunea vanzarilor pentru a 11-a perioada: Anul
Yi (Vanzari mil. $)
Ian
10
Feb
12
Mar
11
Apr
14
Mai
14,5
Iun
15
Iul
16
Aug
18,5
Sep
19
Oct
20
Modele autoregresive (AR)
p
st
Ytap . .2 Y. 2t a
1
Yta1 ð
Yt
ˆ
• Valoarea coeficientilor de grad 3, estimata de catre SPSS: – ð = -0,934 – α1 = 0,534
α2 = - 0,398
α3 = 1,062
• Ecuatia de autoregresie devine astfel: ,062
Y 1
3 t
2 t
1 t
t
,398
Y 0
Y 0
-
Y
ˆ 0,934 ,534
Modele autoregresive (AR) • Pentru perioada 11 vom avea: 8 , 1 2 5 , 8 1 2 0 6 , 1 9 1 8 3 9 , 0 0 2 4 5 3 , 0 4 9 ,3 -0
1
Y1
ˆ
• Testarea semnificatiei parametrilor: c
a 3 s a3
z
1,062 3,218 0,333
– pentru α=0,05 zt=1,96 => zc > zt => ipoteza alternativa va fi acceptata (parametrul este valid)
Modele autoregresive (AR) 1
c
a s
z
c
a
2
1
2 a sa
z
• Testarea semnificatiei parametrilor: 0,398 0,534 1,005 1,684 0,317 0,396 • pentru α=0,05 zt=1,96 => -zt (-0,96) ≤ zc (-1,005) ≤ zt (1,96) => ipoteza nula va fi acceptata (parametrul NU este valid) 3 Yt
1
7 , 8 1 ,5 8 1 2 0 6 , 1 4 9 ,3 -0
1
Y1
ˆ
-
t Y
ˆ 0,934 ,062
Analiza autocorelatiei Testul Durbin-Watson necesita calculul parametrului d, dupa formula: ˆ ) ˆ T (U t U t1 2
d
t2
T
2 ˆ U t t1
Daca ddT, atunci este acceptata ipoteza nula (dL si dT sunt luate din tabelele asociate testului Durbin-Watson).
Testul Geary este de natura neparametrica si are ca punct de plecare calculul numarului schimbarilor de semn in seria valorilor reziduale ð. Daca ðmin< ð < ðmax (tabelate), atunci ipoteza nula este acceptata.
Regresia – Regresia reprezinta o clasa semnificativa de metode de previziune, in care valoarea unei variabile (denumita dependenta) este previzionata folosind valorile altor variabile (independente), de ale carei valori depinde.
– Dependenta variabilei previzionate trebuie demonstrata, utilizand un coeficient de corelatie (corelatia trebuie sa fie cel putin medie, dar se recomanda utilizarea corelatiilor puterice sau foarte puternice).
Regresia • Formele regresiei: – in functie de numarul de variabile utilizate: • bivariata (o singura variabila independenta); • multivariata (doua sau mai multe variabile independente);
– in functie de forma relatiei dintre variabile (identificata cu ajutorul analizei grafice): • • • •
liniara; logistica; polinomiala; trigonometrica;
x b a
• Regresia liniara bivariata:
y
Regresia liniara
Regresia liniara
i
n
2
x ˘
x
x
2
i
i
1 i
1 i
1 i
1 i
n
n
y
i
i
1 i
n
x ˘x
x
b
– panta (b):
n
y n i n x
• Parametrii regresiei (metoda celor mai mici patrate):
x b y a
– termenul liber (a):
Metoda regresiei multiple
• Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe variabile indepentende • Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de covarianta ei cu variabilele independente.
ˆ
n
ˆ
Xn
þ .
ˆ
. i .Xi þ . . .2 X 2 þ
1
X1 þ a
Y
ˆ ˆ
• Parametrii þ sunt estimati utilizand metoda celor mai mici patrate (un model cu n variabile va avea nevoie de n perechi de date “istorice” pentru scrierea unui sistem de n ecuatii). • Exemplu: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.)
Metoda regresiei multiple • Metoda celor mai mici patrate pentru o regresie liniara de gradul 2: n
2i n
˘
2i
x 1i x
x yi
1 i
2
x 2i
1i
1
ii
1
˘
˘
2i
x 1i x
2
x x
1i
x
x
-
x
2
þx x2
1
a1
þ y
˘x
i
nn
1 n
2 2i
x
2 1i
1 i
1 i
n
1i
1
2
x
˘
1 i
-
2 i
1 i
yi
2i
i
1
n
n
x
yi 2i x 1 i
þ
˘
x
n
1
i
1 i
x
-
x
2 2i
2 1i
x
˘x
x
-
i 2 2
n
n
1
x
1
1 i
˘
x
1i
yi
x
nn
n i
þ
x
Metoda regresiei multiple • Estimarea semnificatiei statistice a parametrilor este utilizata pentru a se verifica faptul ca variatia variabilei dependente nu este datorata intamplari (evenimentelor aleatoare), ci este rezultatul variatiei uneia sau mai multor variabile independente. • Realizata cu ajutorul testului Student, in care numarul de grade de libertate al valorii teoretice (tabelate) se determina cu conform: Nivelul de semnificatie = (1-nivelul de confidenta)/2
Metoda regresiei multiple
tc
þ i þ s
• Testarea semnificatiei (reprezentativitatii) parametrilor de regresie:
s j
t ˆ j T , j
i
• Eroarea standard a unui parametru estimat arata cu cat poate sa varieze acesta in jurul valorii sale ca urmare a erorii aleatoare.
Metoda regresiei multiple • Testul F este utilizat pentru a determina semnificatia (reprezentativitatea) variatiei variabilei dependente explicata de variatia variabilelor independente considerate. • Utilizeaza formula: n
1 k n Y
Y
ˆ x x ˘ i
1 n i
Fc
˘
1 k
2
1 i
Y
ˆ ˘x x
Yi
Metoda regresiei multiple
n
2
i
y
y
ˆ 1 i n
k
2
i
1 i
y
y
x ,2 . x 1 ., x . ,, y
R
• Coeficientul (raportul) de corelaţie multiplă R reprezinta gradul in care variabilele independente, per ansamblu, explica variatia variabilei dependente . • Utilizeaza formula:
Metoda regresiei multiple
• Pentru a putea caracteriza proporţia variaţiei variabilei dependente datorată variaţiei setului de variabile variabile independente ale modelului se calculează coeficientul de determinare multiplă R2 (pătratul raportului de corelaţie multiplă), care arată proporţia din variaţia totală a variabilei Y care este explicată de variabilele independente X1, X2, ...Xk. • În afara coeficienţilor de corelaţie multiplă, în analiza corelaţiei dintre variabile se mai pot calcula şi coeficienţii de corelaţie parţială, ce caracterizează intensitatea legăturii dintre două variabile, în ipoteza că celelalte variabile rămân constante
Metoda regresiei multiple •
Exemplu: Estimarea nivelului vanzarilor de telefoane mobile plecand de la suprafata comerciala a magazinului si numarul de asistenti de vanzare. Vânzări (bucăţi) Număr vânzători (persoane) Suprafaţa comercială 22
7
98
20
5
90
23
8
110
26
9
130
30
12
140
32
15
145
45
22
156
50
25
160
52
32
164
60
40
175
Metoda regresiei multiple •
Sistemul de 3 ecuaţii simultane cu 3 necunoscute, pentru determinarea estimatorilor α, þ1 şi þ2 este.
y
i
y ii x1
y ii 2 x
i 2
x
2
2
4 5 7 2 5
2
6 1 8 0 7 6 3
8þ 6 3
1 þ 51 7 1
i
i
i
x2
2
2
i
2
þ xi
x1
1
a 0 1
x1
2
2
1
þ
i 2
þ1
x
x
þ x
2 þ þ 21 6 7 7 6 8 2 94 1 þ 1 21 þ 1 7 2 6 3 4 2 a 1 1 a 8 5 6 7 1 3 1
þ 2 xi
i 1
i
x1
þ
i 1
þ a n
a
•
Dupa rezolvarea ecuatiei vom obtine: – þ1 = 0,974543752; – þ2 = 0,104112437; – α = 4,702902918;
Ŷ = 4,703 +0,97X1i+ 0,104X2i •
Coeficientul de corelatie multipla este: n
2
y
y
ˆ i
2
i
1 i
y
y
5 8 0 9 , 9 0 8
1 i n
2
1
k
x , . x ,. x . ,, y
R
Metoda regresiei multiple
Metoda regresiei multiple
•
Valorile reziduale: Yi
ŷ
yi
ε = yi - ŷ
(yi- ŷ)
2
22 22,92209467 22 -0,922094675 0,850258589 20 18,15286921 20
1,847130787 3,411892145
23 23,49930977 23 -0,499309769 0,249310245 26 26,96671515 26 -0,966715154 0,934538188 30 31,04921181 30
-1,04921181 1,100845422
32 34,49973652 32 -2,499736517 6,248682653 50 45,79082822 50
4,209171778 17,71712706
52 52,87302888 52 -0,873028881 0,762179427 60 61,77950786 60 -1,779507855 3,166648206 40,85910144
Metoda regresiei multiple •
Validitatea valorilor previzionate: n
Y Yi
ˆ ˘x
˘
1 i
x
i
1 n i
Fc
˘
6 1 5 5 2 1 7 , 7 5 1 1 1 k k n 2 Y
ˆ x ˘
Y
x
•
Valoarea tabelata a lui F pentru o probabilitate de garantare a rezultatelor de 95% si 52 de grade de libertate: 3,23 => Fc =157,71 > Ft =3,23 => se accepta ipoteza alternative (valoarea coeficientului de corelatie multipla este semnificativ diferita de zero), deci regresia este valida.
Analiza multicoliniaritatii • Coliniaritatea reprezinta relatia liniara dintre doua variabile independente ale unui model. • Prezenta sa poate duce la distorsiuni serioase ale parametrilor modelului. • Sugerata de prezenta erorilor standard mari sau de sensitivitatea exagerata a parametrilor. • Evidentiata utilizandu-se cele trei teste Farrar si Glauber.
Primul test Farrar si Glauber – Se bazeaza pe compararea matricei de corelatie a modelului cu matricea unitate, cu ajutorul testului χ2
˘ ˘
] Z T Z [ t ln e 5 d 1
x
m
2 1 6
1 n
2c
χ
x
• Valoarea teoretica a lui χ2 se regaseste in tabelele statistice ale repartitiei χ2, considerandu-se 1/2(m-1)(m-2) grade de libertate. • Daca χ2 > χ2, atunci se concluzioneaza ca exista multicoliniaritate la nivelul modelului (regresiei) analizate.
Al doilea test Farrar si Glauber • Permite identificarea variabilelor cel mai afectate de coliniaritate • Se bazeaza pe compararea matricei de corelatie a modelului cu matricea unitate, cu ajutorul testului Fisher.
˘
1
x
m
1
i i
2
m
r Fc
x
x ˘
• Valoarea teoretica a lui F se regaseste in tabelele statistice ale repartitiei Fisher, considerandu-se n-m+1 si m-2 grade de libertate. • Daca Fc > Ft, atunci se concluzioneaza ca ipoteza ortogonalitatii intre variabilele independente nu este acceptata.
j
i r
r
jj
r
ii
• Apoi se calculeaza valoarea testului Student dupa formula:
˘
1
m
j
x
ij
n
ri t
2j
ri 1
• Permite stabilirea semnificatiei statistice a coeficientilor de corelatie • Coeficientii de corelatie partiala intre Xi si Xj se determina pe baza formului:
ri j
Al treilea test Farrar si Glauber
• Daca tij > tt, atunci se concluzioneaza ca ipoteza nula este respinsa.
Analiza erorii medii patratice a valorilor reziduale Masura sintetica a acuratetii modelului si o metoda de evidentiere a erorilor de previziune. 1 T 2 2 (P A) (S S ) A ) (P t P A 2(1 r)S P S A T t1 t (P-A)2 indica tendinta medie a modelului de a supraestima sau subestima valorile reale. (SP-SA)2 indica sensitivitatea modelului la modificarea valorilor independente. 2(1-r)SPSA indica marimea erorii datorate lipsei corelatiei perfecte dintre valorile previzionate si cele actuale.