Analiza Bivariata A Datelor Files Merged).docx

  • Uploaded by: Neagu Denis
  • 0
  • 0
  • August 2019
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Analiza Bivariata A Datelor Files Merged).docx as PDF for free.

More details

  • Words: 16,206
  • Pages: 251
Analiza bivariata a datelor

Analiza bivariata a datelor Presupune masurarea gradului de asociere a doua variabile sub aspectul: Directiei (naturii) Intensitatii Semnificatiei statistice Variabilele nominale

Tabele de frecvente (contingenta) considerata simultan pentru doua sau

mai multe variabile caracteristice aceluiasi esantion.

Coeficientul de corelatie (valori intre -1 si +1) ad



r phi

[(a

 b)(c 

d )(a

 bc  c)(b 

1/2 d)]

Directia asocierii este data de valoarea lui (rphi)2 Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane independente este determinat cu ajutorul testului χ2, McNemar

sau Fisher. 2 Testul neparametric χ Bazat pe ipoteza nula: H0: nu exista diferente semnificative intre cele doua 2 r k variabile. O A )



2



c 

ij

( i1 j 1

Valoarea calculata χc2 a testului se compara cu valoarea tabelata χ 2

ij

A ij

c t

a

acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului si gradele de libertate asociate: (r-1)(k-1).

χ 2 ≤ χ 2 : se accepta ipoteza nula c t χ 2 > χ 2 : se respinge ipoteza nula c t

2 Testul neparametric χ 

Pentru mai mult de doua subesantioane independente trebuie ca frecventele Oij > 1 si Oij < 5 sa nu depaseasca 20%.



Masurarea gradului de asociere se poate realiza cu ajutorul coeficientului de contingenta:

2

 C 

c

N

2

c

Testul Fisher  

Inlocuieste testul χ2 atunci cand dimensiunea esantionului N<40 si k=r=2 Testul probabilitatii exacte (Fisher) are aceiasi ipoteza nula: H0: nu exista diferente semnificative intre cele doua variabile. p

(A  B)!(C  D)!(A  C)!(B  D)! N! A!B!C!D!



Valoarea calculata p a testului se compara cu probabilitatea de garantare a rezultatului (ex.: 95%). p ≤ 0,05 : se respinge ipoteza nula p > 0,05 : se accepta ipoteza nula

Testul McNemar 

Inlocuieste testul χ2 atunci cand cele doua esantioane investigate nu sunt independente



Testul McNemar are aceiasi ipoteza nula: H0: nu exista diferente semnificative intre cele doua variabile. 2 ( a d  1) 2   c ad



a si d reprezinta frecventele subesantioanelor independente.



Interpretarea χ2 :

este aceiasi ca si in cazul testului

χc2 ≤ χ 2 : se accepta ipoteza nula c t χc2 > χ 2 : se respinge ipoteza nula c t

Variabilele ordinale

Tabele de frecvente (contingenta) considerata simultan pentru doua sau mai multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere

se poate utiliza coeficientul Spearman de corelatie a rangurilor n

6 Di2   1 

i 1 1) 2 n(n

Directia asocierii este data de valoarea lui ρ sau γ. Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane independente este determinat cu testului semnificatiei coeficientului Spearman.

Coeficientul de corelatie Spearman Bazat pe ipoteza nula: H0: nu exista o corelatie intre variabilele investigate.

 Zc 

1

n 1

Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt ≤ Zc ≤ Zt : se accepta ipoteza nula altfel : se respinge ipoteza nula

Coeficientul de corelatie γ al lui Goodman si Kruskall 

Se poate utiliza atunci cand coeficientul Spearman nu ofera valori concludente.



Valoarea lui γ, la fel ca si ρ, poate lua valori in intervalul -1 si +1. P Q   P Q



P se obtine inmultind valoarea frecventei din coltul din stanga sus a tabelului de frecvente asociat cu valorile de pe randul urmator, fara cea care se afla imediat sub ea, si cu celelalte valori ale tabelului, dupa care se insumeaza cu produsul dintre prima valoare a randului urmator si suma frecventelor incepand de pe randul urmator, insa din nou fara valoarea aflata imediat sub ea, iterativ. Q se calculeaza dupa aceleasi reguli, insa incepand din dreapta sus.

Variabilele metrice

Tabele de frecvente (contingenta) considerata simultan pentru doua sau mai multe variabile caracteristice aceluiasi esantion. Masurarea gradului de asociere

se poate utiliza coeficientul Pearson de corelatie a rangurilor n n n nxi yi  xi  yi r 1

i n 2 n  (x )  ( x ) 2

i1 i1 n

n

n

i 1

i

i i 1

n( y )2  ( y )2 i1

i

i 1

i

Directia asocierii este data de valoarea lui r. Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane este determinat prin testarea semnificatiei statistice a coeficientului r.

Coeficientul de corelatie Pearson

Utilizat pentru variabile 

normale, cu dispersii asemanatoare

Bazat pe ipoteza nula:

H0: nu exista o corelatie intre variabilele investigate (r nu este in mod semnificativ diferit de zero). Zc 

1,1513 

1  r log10 (

1 1 r

)

n 3

Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt2 ≤ Z 2 ≤ Z 2 : se accepta ipoteza nula c t t altfel : se respinge ipoteza nula

Analiza multivariata a datelor

Analiza multivariata 

Presupune utilizarea unui grup de metode statistico-matematice cu ajutorul carora se pot cerceta simultan legaturile de asociere existente intre mai mult de doua variabile.



Analiza multivariata Cele mai utilizate tehnici: Analiza regresiei multiple Analiza discriminantului Analiza multivariata a variatiei Analiza canonica Analiza factoriala Analiza grupurilorScalarea multidimensionala

Clasificare 

Criterii de clasificare

Existenta unor relatii de dependenta (cauzalitate) si/sau asociere Numarul de variabile dependente Tipul de scala utilizat

Clasificare 

O singura variabila dependenta: Scale parametrice: analiza discriminantului liniar multiplu Scale nonparametrice: regresia multipla



Mai multe variabile dependente: Scale parametrice: analiza multivariata a variatiei Scale nonparametrice: analiza canonica

Clasificare 

Variabile independente: Scale parametrice: Analiza factoriala Analiza grupurilor

Scalare multidimensionala parametrica Scale nonparametrice: Scalare multidimensionala nonparametrica Analiza structurilor latente

Metoda regresiei multiple Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe variabile indepentende Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de covarianta ei cu variabilele independente. ˆ Y a 

1 X 1  2 X 2 ˆ

ˆ

 ...

ˆ

i Xi

 ...

ˆ

n Xn

Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.) Discriminantul liniar multiplu Estimarea relatiei dintre o variabila dependenta masurata cu ajutorul unei scale nonparametrice si combinatii liniare ale mai multor variabile independenta (masurate pe o scala parametrica) Presupune definirea a doua sau mai multe grupuri, omogene interne si eterogene intre ele. Obiectiv: maximizarea raportului dintre dispersie dintre grupuri si dispersia interna

Discriminantul liniar multiplu

Utilizari: Determinarea contributiei fiecarei variabile explicative la discriminare Determinarea celei mai bune combinatii liniare a variabilelor explicative care maximizeaza raportul intre dispersia dintre grupuri si dispersiile din interiorul grupurilor Stabilirea procedurilor de predictie legata de apartenenta componentelor la diversele grupuri (segmentare) Analiza existentei diferentelor semnificative statistic intre profilurile grupurilor definite

Analiza multivariata a varitiei

Cuprinde un grup de metode: proiectari factoriale, patratele latine, patratele grecolatine. Obiectiv: separarea si testarea semnificatiei efectelor cauzate de actiunea simultana a mai multor factori

Analiza multivariata a variatiei

Cerinte asupra datelor:

Datele provin de la grupuri experimentale, la nivelul unei populatii normale, pe baza unei esantionari aleatoare. Eroarea experimentala are o abatere standard constanta. Variatia aleatoare este independeta de timp. Efectele diferitelor surse de variatie este aditiv, nu multiplicativ.

Analiza canonica

Nu depinde de tipul scalei utilizate. Obiectiv: studierea relatiei liniare intre un

grup de variabile dependente si un grup de variabile independente. Numarul maxim de functii utilizat este egal cu numarul variabilelor din grupul cel mai mic.

Analiza canonica

Utilizari: Determinarea directiei, intensitatii si semnificatiei corelatiei dintre cele doua seturi de variabile. Estimarea coeficientilor celor doua seturi de variabile, in conditiile maximizarii corelatiei dintre seturi. Explicarea si previzionarea variatiei setului dependent, pe baza covariantei acestuia cu setul independent. Determinarea contributiei relative a fiecarei variabile in cadrul functiilor canonice.

Analiza factoriala

Realizata cu ajutorul mai multor tehnici: metoda componentelor principale, criteriul varimax, criteriul quartimax, rotatia axelor.

Obiectiv: cercetarea legaturilor de interdependenta dintre mai multe variabile, in scopul determinarii setului minim de explicarea a unui anumit fenomen. Presupune definirea unor factori care sa condenseze o cat mai mare parte din informatia (variabilele) initiala.

Analiza factoriala

Utilizari:

Identificarea setului de dimensiuni latente existente in variabila initiala (analiza factoriala de tip R). Combinarea sau condensarea componentelor unui populatii statistice si crearea unor grupuri distincte (analiza factoriala de tip Q). Concentrarea (minimizarea) variabilelor.

Analiza grupurilor

Realizata cu ajutorul mai multor tehnici: distanta euclidiana, gruparea pe baza coliniaritatii si gruparea de proximitate. Obiectiv: clasificarea componentelor unei multimi eterogene in grupuri omogene, pe baza unor criterii obiective. Varianta 1: abordare top-down. Varianta 2: abordare bottom-up.

Scalarea multidimensionala

Obiectele sau fenomenele analizate sunt reprezentate sub forma de puncte intr-un spatiu perceptual multidimensional. Obiectiv: estimarea importantei relative a variabilelor si a relatiilor perceptuale dintre ele. Permite construirea unui spatiu perceptual in care se reprezinta obiectele sau fenomenele, pe baza perceptiilor respondentilor.

Analiza univariata a datelor Analiza 

Analiza reprezinta un proces complex si sistematic de aplicare a tehnicilor statisticomatematice, in scopul extragerii din colectia de date constituita a informatiilor necesare procesului decizional

Clasificare Tipul de scala utilizata Nominala Ordinala Interval Proportionala

Clasificare Numarul esantioanelor cercetate

Un singur esantion Doua esantioane

Mai mult de doua esantioana

Clasificare 

Natura relatiei dintre esantioane Esantioane independente Esantioane dependente



Numarul variabilelor utilizate O singura variabila Doua variabile Mai mult de doua variabile

Obiectivele analizei

Determinarea tendintei centrale Caracterizarea variatiei si dispersiei Masurarea

gradului de asociere Realizarea de estimari si previziuni Evaluarea semnificatiei diferentelor dintre variabile si grupuri de variabile Evidentierea legaturilor cauzale

Masurarea tendintei centrale Grupul modal (modulul) Grupul care cuprinde cele mai multe componente comparativ cu celelalte grupuri Mediana Valoarea care imparte numarul de observatii in doua grupuri egale n xi

Media aritmetica

Media geometrica

x

i1 n n

xG  n

 xi i1

Masurarea tendintei centrale

Tipuri de scale

Indicatori ai tendintei centrale

Modulul Nominala Ordinala Interval Proportionala

X

Mediana -

Media aritmetica

Media geometrica

-

-

X

X

X

X

-

X

X

X X

X

Dispersia

Distributia de frecventa Cuartile, decile, centile

Amplitudinea variatiei Abaterea media Variatia Abaterea standard Amplitudinea variatiei

Dispersia

Tipuri de scale

Indicatori ai

dispersiei Frecvente Cuartile

Amplitudine

medie Variatia

standard

Nominale

Ordinale

Interval

X

X

X

-

X

X

-

-

-

-

X

X X

-

-

-

-

X

Proportionale X X X X X X

Evaluarea modelelor multifactoriale de regresie

Criterii de evaluare 

Teoretice: compatibilitatea rezultatelor obtinute cu teoria economica (ex.: semnul si marimea parametrilor estimati)



Statistice:

Nivelul de semnificatie al parametrilor Proportia variatiei “explicate” de multimea variabilelor independente Eroarea standard a estimarii Autocorelatia valorilor reziduale De previziune

Metoda regresiei multiple Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe variabile indepentende Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de covarianta ei cu variabilele independente. ˆ Y a 

1 X 1  2 X 2 ˆ

ˆ

 ...

ˆ

i Xi

 ...

ˆ

n Xn

Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.)

Semnificatia statistica a parametrilor Se dau asigurari ca variatia variabilei dependente nu este datorata intamplari, ci este rezultatul variatiei uneia sau mai multor variabile independente. Testul t este utilizat cel mai frecvent. Intre nivelul de semnificatie si nivelul de incredere in testul t exista relatia: Nivelul de semnificatie = (1-nivelul de confidenta)/2

Eroarea standard

Eroarea standard a unui parametru estimat arata cu cat poate sa varieze acesta in jurul valorii sale ca urmare a erorii aleatoare. Limitele variatiei sunt date de relatia: s



j



ˆj

t T,j

Semnificatia statistica a asocierii dintre variabile Testarea semnificatiei legaturii dintre variabila dependenta si variabila/ele independente se bazeaza pe utilizarea testelor statistice (ex.: testul Fisher). Se explica in ce masura variatia totala a variabilei dependente este rezultatul variatiei variabilelor independente considerate.

Valoarea calculata a lui F foloseste formula:

Fc

ˆ (Y Y )/(k

2  ˆ (Y Y )

1)

/(n

 k)

Caracterizarea multilaterala a intensitatii legaturilor Matricea coeficientilor de corelatie simpla prezinta intensitatea legaturilor intre toate perechile de variabile Matricea coeficientilor de corelatie partiala descrie intensitatea legaturilor intre doua variabile, excluzand efectul celorlalte variabile implicate. Coeficientul de corelatie multipla si coeficientul de determinare caracterizeaza proportia variatiei variabilei dependente datorata variatiei setului variabilelor independente ale modelului si proportia variatiei aleatoare (neexplicate).

Coeficientul de determinare 2 Coeficientul de determinare R reprezinta raportul dintre variatia explicata si variatia totala, dupa formula: 2 R  1

e

2

2 y  unde e reprezinta valoarea reziduala si y abaterea variabilei Y de la media sa Ŷ Utilizeaza metoda celor mai mici patrate Ex.: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.)

Analiza multicoliniaritatii

Coliniaritatea reprezinta relatia liniara dintre doua variabile independente ale unui model. Prezenta sa poate duce la distorsiuni serioase ale parametrilor modelului. Sugerata de prezenta erorilor standard mari sau de sensitivitatea exagerata a parametrilor. Evidentiata utilizandu-se cele trei teste Farrar si Glauber.

Primul test Farrar si Glauber T Se bazeaza pe compararea matricei de corelatie Z Z a modelului cu matricea 2 unitate, cu ajutorul testului χ 2





1

T

   n 1  (2(m 1)  5) ln det[Z Z ] c

 

6

 

2 2 Valoarea teoretica a lui χ se regaseste in tabelele statistice ale repartitiei χ , considerandu-se V=1/2(m-1)(m-2) grade de libertate. 2 2 Daca χ > χ , atunci se concluzioneaza ca exista multicoliniaritate la nivelul modelului (regresiei) analizate.

Al doilea test Farrar si Glauber Permite identificarea variabilelor cel mai afectate de coliniaritate Se bazeaza pe compararea matricei de corelatie ZTZ a modelului cu matricea unitate, cu ajutorul  testului Fisher. ii 1) (n  (m 1)) Fc  (r m 2 Valoarea teoretica a lui F se regaseste in tabelele statistice ale repartitiei Fisher, considerandu-se n- m+1 so m-2 grade de libertate. Daca Fc > Ft, atunci se concluzioneaza ca ipoteza ortogonalitatii intre variabilele independente nu este acceptata.

Al treilea test Farrar si Glauber Permite stabilirea semnificatiei statistice a coeficientilor de corelatie Coeficientii de corelatie partiala intre Xi si Xj se determina pe baza formului: ij  r rij  ii  jj r  r Apoi se calculeaza valoarea testului Student dupa formula: rij  n  (m 1) tij  2 (1 r ij) Daca tij > tt, atunci se concluzioneaza ca ipoteza nula este respinsa.

Analiza erorii medii patratice a valorilor reziduale Masura sintetica a acuratetii modelului si o metoda de evidentiere a erorilor de previziune.

1 T

T

 (Pt t1

 At ) 2  (P

 A) (SP

S A) 2

 2(1 r)S P S A

2 (P-A) indica tendinta medie a modelului de a supraestima sau subestima valorile reale. (SP-SA)2 indica sensitivitatea modelului la modificarea valorilor independente. 2(1-r)SPSA indica marimea erorii datorate lipsei corelatiei perfecte dintre valorile previzionate si cele actuale.

Analiza autocorelatiei Testul Durbin-Watson necesita calculul parametrului d, dupa formula: T ˆ Uˆ t1 2) (U  t d  t2

T

2 Uˆ t  t 1

Daca d
dT, atunci este acceptata ipoteza nula (dL si dT sunt luate din tabelele asociate testului Durbin-Watson). Testul Geary este de natura neparametrica si are ca punct de plecare calculul numarului schimbarilor de semn in seria valorilor reziduale δ. Daca δmin< δ < δmax (tabelate), atunci ipoteza nula este acceptata.

Analiza datelor de marketing utilizand S.P.S.S. - curs introductiv Mihai Orzan – [email protected] – joi, 19:30, sala 1406

Chestiuni organizatorice • Nota: – Examen final (1 iunie): 40% – Test seminar: 60%

• http://orzanm.ase.ro/spss • Suport curs: • Cătoiu I. (coord.), Bălan C., Dăneţiu T., Orzan Gh., Popescu I., Vegheş C., Vrânceanu D. - "Cercetări de marketing", Ed. Uranus, 2002 • Popa, D., “Analiza datelor in psihologie. Teorie si practica cu SPSS”, Ed. Polirom, 2008.

• Suport semiar (recomandat): • Howitt, D. si Cramer, D., “Introducere in SPSS pentru psihologie”, Ed. Polirom, 2006.

Ce reprezinta analiza datelor? Analiza datelor reprezinta un proces complex si sistematic de aplicare a tehnicilor statistico-matematice, in scopul extragerii din colectia de date constituita a informatiilor necesare procesului decizional

Surse de date • Surse de date: – Cercetari cantitative: • Sondaje; • Observari;

– Surse secundare de date: • interne; • externe;

– Cercetari calitative: • • • •

focus grupuri; clientul misterios; interviuri in profunzime; teste de utilitate;

Clasificare tipurilor de analiza • Numarul esantioanelor cercetate Un singur esantion; Doua esantioane; Mai mult de doua esantioane;

• Natura relatiei dintre esantioane Esantioane independente; Esantioane dependente;

Clasificare tipurilor de analiza • Numarul variabilelor utilizate: O singura variabila (analiza univariata); Doua variabile (analiza bivariata); Mai mult de doua variabile (analiza multivariata);

• Natura relatiei dintre variabile Variabile independente; Variabile dependente;

Obiectivele analizei Determinarea tendintei centrale; Caracterizarea variatiei si dispersiei; Masurarea gradului de asociere; Realizarea de estimari si previziuni; Evaluarea semnificatiei diferentelor dintre variabile si grupuri de variabile; Evidentierea legaturilor cauzale;

Obiectivele analizei • Analiza primara a datelor • Masurarea tendintei centrale • Analiza variatiei • Stabilirea normalitatii distributiei

• Analiza diferentiala • Identificarea existentei unor diferente statistice intre esantioane (grupuri) de respondenti

• Analiza asociativa • Identificarea existentei unor asemanari (asocieri) semnificative statistic variabile demografice si psiho-comportamentale

Obiectivele analizei Analiza inferentiala • Identificarea gradului in care valorile identificate la nivel de esantion sunt reprezentative la nivelul populatiilor investigate

• Analiza predictiva • Identificarea evolutiei ulterioare a fenomenelor investigate

• Analiza complexa a datelor • Analiza canonica, analiza discriminantului, analiza structurilor latente • Modelare

Masurarea tendintei centrale Tipuri de scale

Indicatori ai tendintei centrale Modulul

Mediana

Media aritmetica

Media geometrica

Nominala

X

-

-

-

Ordinala

X

X

-

-

Interval

X

X

X

X

Proportionala

X

X

X

X

Masurarea tendintei centrale Grupul modal (modulul) Grupul care cuprinde cele mai multe componente comparativ cu celelalte grupuri

Mediana Valoarea care imparte numarul de observatii in doua grupuri n egale

x

Media aritmetica

n

xG 

x i1

 

i x pi 1n pi 1 i i



x  i1 n

p x

Media geometrica

i

 

Analiza variatiei    

1 i



i

2

σ

 

x 1 n

n

x

2

Distributia frecventelor (absolute si relative) Amplitudinea variatiei (Xmax-Xmin) x  ˘ Varianta



Abaterea medie patratica (standard) Coeficientul de variatie (variatia relativa)

σ x

V C



Distributia frecventelor Perceptia gustului pentru berea Redd’s Eticheta

Codificare

Frecventa

Frecventa (%)

Procent valid

Frecvente cumulate

Cel mai neplacut

1

0

0,0

0,0

0,0

Foarte neplacut

2

2

6,7

6,9

6,9

Neplacut

3

6

20,0

20,7

27,6

Nici/Nici

4

6

20,0

20,7

48,3

Placut

5

3

10,0

10,3

58,6

Foarte placut

6

8

26,7

27,6

86,2

Cel mai placut

7

4

13,3

13,8

100,0

Valori lipsa

9

1

3,3

30

100

Total

100

Analiza variatiei Indicatori ai dispersiei

Tipuri de scale Nominale

Ordinale

Interval

Proportionale

Frecvente

X

X

X

X

Amplitudine

-

X

X

X

Coeficient de variatie

-

-

X

X

Varianta

-

-

X

X

Abaterea standard

-

-

X

X

Distributia normala Este constituita dintr-o familie de distributii care au reprezentari grafice asemanatoare unui clopot;

Distributia normala Este importanta pentru ca majoritatea instrumentelor statistice utilizate in analiza primara au ca premisa existenta unei distributii normale (ex.: testul Student, Mann-Whitney, ANOVA, Pearson, regresia, nivelarea exponentiala Brown, etc.). Ipoteza distributiei normale: Pentru δ ales, δ procente dintre valorile inregistrate ale variabilei se vor afla in intervalul:





δ

t σ x ;δ t σ x

x

Distributia normala 

Aplatizarea: reprezinta o masura a inaltimii relative a “clopotului” definit de distributia frecventelor variabilei. n

x

x i x

n

4

 ˘   x x  ˘˘

3

1 i

K

n

2

2

x

x

i

1 i





n

Asimetria: tendinta variatiilor valorilor observate fata de medie de a fi mai mari catre unul dintre capetele intervalului de valori. 3

x

i

3 2

2

i

  ˘˘

x

x

1 i



 ˘

1 i

n

 ˘    x x

1 n 2 n

n

G



x

x

n

x

Distributia normala 

n

x

i

x

 ˘

2

σ 2

e



x   1 i

1

x

h



2

π 2

   

Inaltimea curbei este data de formula:

Testarea normalitatii distributiei: variabile parametrice: testul Kolmogorov-Smirnov variabile ordinale: testul Shapiro-Wilk variabile nominale: testul χ2

Testul Kolmogorov-Smirnov Utilizat pentru estimarea normalitatii distributiei acolo unde se poate (are sens) calcula media si abaterea medie patratica. De fapt, determina care dintre ipoteze va fi adoptata: H0: NU exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala. H1: Exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala.

Testul Kolmogorov-Smirnov Se calculeaza utilizand:

 ˘

x

i

 x

i

˘

i

x F

1

i



x x

x

x F i n ; 1 i- n

n

x a m

S

K



x

1 n I i 1 n

 

  



x

Fn

x ˘

Testul Kolmogorov-Smirnov 

H0 este acceptata daca:

0,11 )  c Ks ( n  0,12  n unde: α

0,85

0,9

0,95

0,975

0,99



1,138

1,224

1,358

1,480

1,628

Testul Shapiro-Wilk Utilizabil atat pentru variabile non-parametrice, cat si pentru variabile parametrice (aici insa testul Kolmogorov-Smirnov este mai puternic). Determina daca va fi adoptata ipoteza nula sau ipoteza alternativa: H0: NU exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala. H1: Exista diferente semnificative statistic intre distributia variabilei investigate si distributia normala.

n

2

x  ˘    x  ˘ 

xi a

i

Se calculeaza utilizand:

1 i

n

W

2

μ

x

i

1 i



Testul Shapiro-Wilk



ai reprezina parametrii dati, obtinuti din tabele statistice pe baza medianei, numarului de valori (categorii) distincte si dimensiunii esantionului investigat. p(W) > 0,05 => H0 este acceptata altfel => H1 este acceptata

Analiza datelor de marketing utilizand S.P.S.S. - analiza diferentiala -

Analiza diferentiala a datelor • Utilizata pentru stabilirea reprezentativitatii statistice a diferentelor constatate intre: • o valoare presupusa a unui indicator (ipoteza) si valoarea estimata la nivelul populatiei investigate; • doua sau mai multe variabile independente; • doua sau mai multe esantioane dependente (analiza transversala sau longitudinala).

• Utilizari frecvente: • testarea ipotezelor statistice; • testarea reprezentativitatii indicatorilor statistici; • testarea semnificatiei variatiei valorilor observate pentru doua sau mai multe variabile; • testarea semnificatiei variatiei valorilor observate pentru doua sau mai multe grupuri (esantioane);

Testarea ipotezelor statistice • Exemple de ipoteze utilizate in marketing: In cinematografele bucurestene merg cel putin o data pe an 20% dintre locuitorii orasului; Consumatorii frecventi si ocazionali ai unui produs (marca) au caracteristici psihografice diferite; Imaginea publica a hotelului Howard Johnson este mai buna decat cea a hotelului Ibis.

Testarea ipotezelor statistice • Etape pentru testarea ipotezelor: 1. Identificarea testelor statistice adecvate. 2.Formularea ipotezei nule H0 si a ipotezei alternative H1. 3. Alegerea unei probabilitati de garantare a rezultatelor. 4. Calcularea indicatorului asociat testului statistic. 5.Stabilirea ipotezei acceptate (nula sau alternative). 6.Formularea unei concluzii logice in limbajul specific marketingului.

Testarea ipotezelor statistice • Cunoscuta si sub denumirea de analiza diferentiala univariata. – Variabile categoriale: se utilizeaza testul χ2 univariat; – Variabile parametrice: se utilizeaza testul Student univariat (in varianta t sau z, depinzand de marimea esantionului).

Testul χ2 univariat • Utilizat pentru variabilele categoriale. – Exemplu: in Romania, 25% dintre consumatori prefera Dacia. In urma unei cercetari (sondaj) s-a constatat ca 33% dintre soferi se afla la volanul unui autoturism Dacia. Ipoteza este falsa sau corecta? • H0: NU exista diferente semnificative statistic intre

cei doi parametrii. • H1: exista diferente semnificative statistic intre cei doi parametrii.

Testul χ2 univariat • Valori asteptate (conform ipotezei): – Conduc Dacia: 25% – Nu conduc Dacia: 75%

• Valori observate (din sondaj): – Conduc Dacia: 33% – Nu conduc Dacia: 67%

Testul χ2 univariat • Indicatorul (calculat) al testului χ2: 2

i

A

i

2c

.

O

n

x ˘   

A

i

1 i

 



˘

2

1 4 , 3 5 8 , 0 6 5 , 2



5 7 5 7 7 6

˘x  2



5 2 5 3 2 3

2c



.

   

x 







Testul χ2 univariat 

• Pentru o probabilitate de garantare a rezultatelor de 99%, valoarea tabelata a lui t univariat este de 6,635. • Se observa ca χc2 ≤ χ t 2 (3,41 < 6,635) => se accepta ipoteza nula (nu exista diferente semnificative statistic intre valorile prognozate si cele observate, deci ipoteza initiala a fost corecta!)

Testul Student univariat • Utilizat pentru variabile parametrice (se poate calcula media), normal distribuite. – Exemplu: venitul mediu in gospodariile celor care isi cumpara Dacia este de 2000 de lei lunar. In urma aceluiasi sondaj, am constatat ca venitul in cauza este de fapt de 1752 de lei. Este confirmata sau infirmata ipoteza initiala? • H0: NU exista diferente semnificative statistic intre valoarea din ipoteza si cea estimata la nivelul populatiei investigate, pe baza valorii observate in esantionul cercetat. • H1: Exista diferente semnificative statistic intre valoarea din ipoteza si cea estimata la nivelul populatiei investigate, pe baza valorii observate in esantionul cercetat.

Testul Student univariat • Valoarea calculata a testului:

   



s x



μ n x σ x s

tc







Testul Student univariat 

• Pentru o dimensiune a esantionului de 1000 de persoane si o abaterea medie patratica de de 3315, avem tc =2,36. • Gradele de libertate asociate testului t univariat sunt n-1, in cazul de fata 999, iar probabilitate de garantare a rezultatelor α aleasa este de 95%. In acest caz gasim tt = 1,64 • Interpretarea teoretica a testului Student: tc ≤ tt : se accepta ipoteza nula tc > tt : se accepta ipoteza alternativa

Testul Student univariat • tc (2,36) > tt (1,64) => se respinge ipoteza nula (exista diferente semnificative statistic intre valoarea ipotezei si cea estimata la nivelul populatiei, deci ipoteza formulata este gresita).

Analiza diferentiala bivariata • Testele utilizate sunt alese in functie de modul de masurare al variabilelor, numarul de esantioane (grupuri) analizate si relatiile existente intre esantioane: • Variabile nominale: – grupuri (esantioane) independente: χ2 – grupuri (esantioane) dependente: χ2 (varianta McNemar)

• Variabile ordinale (sau variabile interval tratate ca variabile ordinale): – 2 grupuri (esantioane) independente: Mann-Whitney, WaldWolfowitz; – 2 grupuri (esantioane) dependente: Wilcoxon; – 3 sau mai multe grupuri (esantioane): Kruskal-Wallis;

• Variabile proportionale: – 2 grupuri (esantioane) independente: testul Student pentru

esantioane independente; – 2

grupuri

(esantioane)

dependente:

testul Student pentru

variabile dependente; – 3 sau mai multe grupuri (esantioane): ANOVA;

Testul neparametric χ2 • In varianta clasica, testul χ2 presupune testarea unor variabile categoriale (de regula nonparametrice) si independenta esantioanelor analizate. • Se bazeaza pe utilizarea tabelelor de contingenta.

Testul neparametric χ2 • Preferinta pentru imbracaminte sport, in functie de statutul marital. Prefera pantofii sport

Statut marital Casatoriti

Necasatoriti

Adesea

196

104

300

Rar

58

142

200

Total

254

246

500

Total

• Valorile din tabelul de contingenta, rezultate in urma cercetarii, sunt denumite valori observate.

Testul neparametric χ2 • Bazat pe ipotezele: H0: NU exista diferente semnificative intre cele doua variabile. H1: Exista diferente semnificative intre cele doua variabile. 2

ij

ij



A

1 j 1 i



A

.

2c

ij

O

k

r

• Valoarea calculata a testului este data de: x ˘     

ij

1 j



O

ij

O

ij

A







1 j





ij

k

1 i

 



O

r



1 i



k

r

• Valorile asteptate sunt determinate conform distributiei (teoretice) χ2 de formula: 

Testul neparametric χ2 

• Valoarea calculata χc2 a testului este comparata cu valoarea tabelata χ t 2 a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului si gradele de libertate asociate: (r-1)(k-1). χc2 ≤ χt2 : se accepta ipoteza nula χc2 > χt2 : se accepta ipoteza alternativa

• Conditie: – Pentru mai mult de doua subesantioane independente trebuie ca frecventele Oij > 1 si Oij < 5 sa nu depaseasca 20% (celulele din tabelul de contingenta cu frecvente de aparitie diferita de zero si mai mica decat 5 sa nu depaseasca 20%).

Testul Fisher • Inlocuieste testul χ2 atunci cand dimensiunea esantionului n<20 si k=r=2 (variabile dihotomice); • Tabelul de contingenta pentru k=r=2: Prefera incaltamintea sport

Statut marital Casatoriti

Necasatoriti

Total

Adesea

A

B

A+B

Rar

C

D

C+D

Total

A+C

B+D

N

• Testul probabilitatii exacte (Fisher) are aceiasi ipoteza nula: H0: NU exista diferente semnificative intre cele doua variabile; H1: Exista diferente semnificative intre cele doua variabile.

 ˘



• Valoarea calculata p a testului se compara cu probabilitatea de garantare a rezultatului (ex.: 95%). p ≤ 0,05 : se accepta ipoteza alternativa p > 0,05 : se accepta ipoteza nula

!

 ˘x

D B !

 ˘x

C ! D A ! !C ! B ! D A C ! ! N

B

 ˘x

A

x 

p

 

Testul Fisher

2

˘

 ˘

d

b

 ˘x

c

a

 ˘x



N 2



d

c

 ˘x

b

x

a



x

c b

d a N

2c



• Atunci cand dimensiunea esantionului n>20 si k=r=2 se utilizeaza corectia lui Yates a testului Fisher:

.     

Testul Fisher (corectia Yates)

Testul McNemar 

• •

Inlocuieste testul χ2 atunci cand cele doua esantioane investigate sunt dependente (analiza longitudinala sau transversala). Testul McNemar are aceiasi ipoteza nula: H0: NU exista diferente semnificative intre cele doua variabile; H1: Exista diferente semnificative intre cele doua variabile.

2



1 d d a a

2c

.

• •







a si d reprezinta frecventele subesantioanelor independente. Interpretarea este aceiasi ca si in cazul testului χ2 : 2 2 χ ≤ χ : se accepta ipoteza nula c t χ 2 > χ 2 : se accepta ipoteza alternativa c

t

Testul Mann-Whitney • Utilizat de preferinta pentru pentru identificarea diferentelor semnificative intre (doua) variabile ce provin din esantioane independente, masurate cu ajutorul scalei ordinale (se poate utiliza insa si in cazul variabilelor proportionale), distribuite normal. • Ipotezele testului Mann-Whitney: H0: NU exista diferente semnificative intre cele doua variabile. H1: Cele doua variabile difera in mod semnificativ.

• Valoarea calculata a testului U este data de: i

 ˘

2 , 1 i e d 1n u i , 2

n 

i

R

ic

U



x

x

Testul Mann-Whitney 

2



1



2

n 2 1 n n n1



2

U

σ

c



n n1

z



n 2 n 1 σU

U

• Ri reprezinta suma rangurilor asociate valorilor din esantionul i (primul sau al doilea). • Pentru esantioane totale (n1+n2) mai mici de 30, valorile lui Ut sunt tabelate. • Pentru esantioane de peste 30 de subiecti se utilizeaza testul Student pentru stabilirea semnificatiei statistice a testului U, dupa formula:  unde:  

Testul Mann-Whitney 

• Interpretarea testului U pentru esantioane mai mici de 30 de subiecti: Uc ≤ Ut : se accepta ipoteza nula Uc > Ut : se accepta ipoteza alternativa

• Interpretarea teoretica a testului esantioane mai mari de 30 de subiecti: zc ≤ zt : se accepta ipoteza nula zc > zt : se accepta ipoteza alternativa

U

pentru

Testul Mann-Whitney • Presupunand ca Esop nu a fost foarte satisfacut de experimentul sau clasic, in care o broasca testoasa intrece un iepure si repeta experiementul cu 6 iepuri si 6 broaste testoase. “Clasamentul” se afla in tabelul de mai jos:

I T

II III IV V VI VII VIII IX X XI XII I I I I I T T T T T I

• Suma rangurilor R1 asociate testoaselor este: 1+7+8+9+10+11 = 46

5 2



 ˘

2



x

1

6 6 4

1c

U



Testul Mann-Whitney 

• Din tabelul asociat testului Mann-Whitney gasim ca Ut (pentru n1=6, n2=6 si α=0,05) = 5, deci putem constata ca Uc > Ut => vom accepta ipoteza alternativa (exista diferente semnificative intre comportamentul in concurs al broastelor testoase si al iepurilor, dat de suma rangurilor, mai exact 46 pentru testoase si 25 pentru iepuri)

Testul Wilcoxon • Testul Wilcoxon este un test non-parametric bivariat utilizat pentru identificarea semnificatiei statistice a diferentelor identificate pentru variabile provenite din esantioane dependente (masuratori repetate sau variabile masurate ale acelorasi respondenti), masurate cu ajutorul scalelor ordinale, indiferent de tipul distributiei. – Exemplu: existenta unor diferente semnificative statistic intre perceptiile asupra a doua marci diferite (utilizand scala Likert) sau pentru perceptia asupra imaginii berii Redd’s inainte si dupa realizarea unei campanii promotionale.

Testul Wilcoxon • Ipotezele testului Wilcoxon: H0: NU exista diferente semnificative intre cele doua variabile. H1: Cele doua variabile difera in mod semnificativ.

• Pentru calculul statisticii W+, asociata testului Wilcoxon, se ordoneaza toate valorile observate, se calculeaza diferentele observate wi, aceste diferente sunt ordonate in functie de marime, fiecareia fiind ulterior asociat un rang Ri pe baza pozitiei in aceasta serie de diferente: i

w l u g n ra



i

i

R



x

i

y i w



Testul Wilcoxon 



0

 x

i

i



w I

˳

• De asemenea, pentru calculul W+ se utilizeaza o functie indicator, Φi:  • Valoarea W+ este data de: n

 

i

Ri ˳

W



1 i



• Sustinerea (sau respingerea) ipotezei nule se bazeaza pe probabilitatea de aparitie a valorii W+, data de tabele statistice asociate testului (pentru n de maxim 30 de respondenti) sau estimata cu ajutorul testului Student.

Testul Wilcoxon • Utilizand scala Likert pentru identificarea disponibilitatii respondentilor de a cumpara berea Redd’s, masurata inainte si dupa expunerea la un spot de promovare a produsului, au fost inregistrate urmatoarele valori (5 = sigur da; 4 = probabil da, 3 = indiferent, 2 = probabil nu; 1 = sigur nu): Respondent

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Inainte

5

3

1

5

2

4

4

3

2

1

1

5

4

2

1

Dupa

5

4

2

3

5

5

4

3

1

4

4

5

3

2

5

Diferente (wi)

0

-1

-1

2

-3

-1

0

0

1

-3

-3

0

1

0

-4

Ranguri Ri

-

3

3

6

8

3

-

-

3

8

8

-

3

-

10

Testul Wilcoxon • Insumand rangurile pozitive Ri din tabelul anterior obtinem W+=12, careia ii este asociata o probabilitate p(12)=0,002136 (aleasa pentru n=15 si α=0,05), mai mica decat 0,05 – pragul de sustinere al ipotezei nule in textul Wilcoxon, deci se poate concluziona ca ipoteza nula este acceptata (este respinsa ipoteza alternativa) => cele doua seturi de date NU difera in mod semnificativ (spotul publicitar NU a schimbat atitudinea respondentilor fata de marca Redd’s). • Pentru esantioane dependente de peste 30 de respondenti se utilizeaza:



1



n 2 n 1 2 n

 

n

W

σ

c

W

σ



5 ,0 0

W

z





Testul Student bivariat 

• Utilizat pentru stabilirea semnificatiei satistice a diferentelor constatate intre doua esantioane (dependente sau independente) sau variatia a doua variabile, masurate pe scala proportionala. – Exemplu: persoanele de sex masculin si feminin au un comportament diferit in utilizarea Internetului (numarul de ore de utilizare saptamanale)? Persoanele cu venit mare au un procent mai ridicat de “loialisti” fata de marca decat persoanele cu venit scazut?

• Observatii: • Analiza este realizata diferentiat pentru medii si procente. • Analiza este realizata diferentiat in cazul esantioanelor independente, in functie de existenta unor diferente (semnificative statistic) intre dispersiile celor doua grupuri.

Testul Student bivariat – Bazat pe ipotezele • H0: NU exista diferente semnificative statistic intre (media) celor doua esantioane investigate. • H1: Exista diferente semnificative statistic intre (mediile) celor doua esantioane investigate.

– In cazul esantioanelor independente, se utilizeaza testul F (varianta Levine) pentru stabilirea asocierii dintre dispersiile celor doua grupuri (in anumite cazuri poate fi folosit si testul Kolmogorov-Smirnov).

– H0: NU exista diferente semnificative statistic intre dispersiile celor doua esantioane investigate. – H1: cele doua esantioane inregistreaza diferente ale valorilor observate semnificative statistic.



2 1 22

• Valoarea testului F:

σ σ



• Ipotezele testului F:

Fc



Testul Student bivariat

Testul Student bivariat 

x

2



2

x



x

c



1

z

x s

• Gradele de libertate asociate testului F sunt n1-1 si n2-1, iar probabilitate de garantare a rezultatelor α este aleasa, in functie de nevoile analizei. • Daca probabilitatea asociata testului Ft (data de gradele de libertate si probabilitatea de garantare a rezultatelor) este mai mare decat cea asociata Fc atunci se accepta H1 (cele doua esantioane au dispersii diferite), altfel se accepta H0 (dispersiile celor doua esantioane independente sunt asemanatoare). • Pentru esantioane independente (medii distincte) formula testului t (z in esantioane de peste 30 de respondenti) este:

1

Testul Student bivariat 

22

2

1



2



σ n

2



x

x



1 1 σ n

s



• Abaterea standard asociata dispersiei, pentru esantioane independente, cu dispersii diferite semnificativ:

• Abaterea standard asociata dispersiei, pentru esantioane independente, cu dispersii asemanatoare:

x

2 1 n 1 n1

2

1

2

x

x



σ

s 



Testul Student bivariat 

• Gradele de libertate asociate testului t bivariat (esantioane independente) sunt n1+n2-2 si probabilitate de garantare a rezultatelor α. • Interpretarea teoretica a testului Student: tc ≤ tt : se accepta ipoteza nula tc > tt : se accepta ipoteza alternativa

• Analiza difera in functie de dispersiile asociate celor doua esantioane utilizate

Testul Student bivariat • Numarul de ore petrecute saptamanal utilizand resurse din Internet 1

2

3

4

5

6

7

8

9

10 11 12 13 14 15

Ore Internet

14

2

3

3

13

6

2

6

6

15

3

4

9

8

5

Sex

1

2

2

2

1

2

2

2

2

1

2

2

1

1

1

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Ore Internet

3

9

4

14

6

9

5

2

15

6

13

4

2

4

3

Sex

2

1

1

1

2

1

1

2

1

2

1

2

2

1

1

Testul Student bivariat Sex

Nr. de respondenti

Media (orelor de navigatie saptamanale)

Eroarea standard asociata mediei

Masculin

15

9.33

1.14

Feminin

15

3.87

0.44

Fc = 15,507 > F14,14,95% = 2,46 => se accepta ipoteza alternativa (dispersiile celor doua esantioane sunt semnificativ diferite) tc = 4,492 > t28, 95% = 1,701 => se accepta ipoteza alternativa (exista diferente semnificative intre gradul de utilizare a Internetului pentru barbati si femei)

Testul Student bivariat • Testul t bivariat (pentru esantioane independente) se poate folosi si pentru alti indicatori (ex.: procente).

p

2



p

1

c



p s

z



2

p

1





2

p 2 1 n



x

2

˘

p



1

2

p

1

p



1

s 

x

p 1 1 n

p



Testul Student bivariat (esantioane dependente) 

• Testul t bivariat pentru esantioane dependente (masuratori repetate sau variabile masurate ale acelorasi respondenti). – Exemplu: existenta unor diferente semnificative statistic intre perceptiile asupra a doua marci diferite (utilizand scala Stapel) sau pentru perceptia asupra unei marci la doua momente diferite (inainte si dupa efectuarea unor activitati promotionale?

• Testul t bivariat pentru esantioane dependente D n

c





μ D D s

z

D

1 i



 ˘

i



D

x D

n



i

D

1 i

D



1 n n

s

n





2



Testul Student bivariat (esantioane dependente)

Analiza Variatiei (ANOVA) • In ciuda denumirii, reprezinta tot un test statistic, utilizat pentru stabilirea semnificatiei satistice a diferentelor constatate intre trei sau mai multe esantioane (dependente sau independente), masurate pe o scala proportionala. • Echivalentul testului Stundent pentru mai mult de doua esantioane • Exemple: utilizarea Internetului (numarul de ore de utilizare saptamanale) difera in functie de nivelul de educatie al persoanelor investigate (gimnazial, liceal, universitar, postuniversitar)? Categoriile (intervalele) de varsta influenteaza semnificativ nivelul salarial al respondentilor?

Analiza Variatiei (ANOVA) – Utilizeaza:

o variabila de grupare X (ce determina subgrupurile), denumita si variabila independenta; o variabila analizata (dependenta), masurata pe scala proportionala; – Variabila dependenta este subdivizata in c subesantioane (grupuri), de dimensiuni n1, n2,…nc. – In analiza diferentelor constatate intre mediile subgrupurilor 1…c, ANOVA utilizeaza notiunea de descompunere a variatiei totale, in variatie interna (in interiorul acestor grupuri) si variatie externa (diferenta constatata intre grupuri).

Analiza Variatiei (ANOVA) • Variatia totala: E

I

T



V

V

 x

V

V



nj

c

2

2

x

ij



1 i

1 j

 ˘

x

T



 ˘

c

x

x

j

E

V



1

j

 x nj

c

j

˘

2



x

1 i

1 j



ji

I



x

V

 x

Analiza Variatiei (ANOVA) • Gradele de libertate asociate: variatia totala: n-1; variatia interna: n-c; variatia externa: c-1;



E 1 V -c

a rn e t x 2e

η

Media patratica externa:

c I V n

η

a rn e t 2 in

• Magnitudinea (importanta) variatiilor se calculeaza cu ajutorul unui indicator, denumit media patratica η: Media patratica interna:   

Analiza Variatiei (ANOVA) 

• Ipotezele asociate ANOVA: NU exista o diferenta semnificativa statistic intre (mediile) grupurile analizate; grupurile investigate (mediile lor) difera in mod semnificativ;

• Ipotezele sunt acceptate sau respinse in functie de valoarea coeficientului F asociat ANOVA:

a a n rn r e e 2 t 2 t x in e

Fc

  

Analiza Variatiei (ANOVA) 

• Valorile teoretice ale testului F se regasesc in tabele, indexate pe baza probabilitatii de garantare a rezultatelor (1-α) si gradele de libertate interne (n-1) si externe (c-1). • Interpretarea teoretica a testului F (ANOVA): Fc ≤ Ft : se accepta ipoteza nula Fc > Ft : se accepta ipoteza alternativa

– Exemplu: Zone Records doreste sa lanseze pe piata noul album Holograf si, pentru inceput, produce 10000 de cópii. Trimite cate 2000 de exemplare in cele 5 depozite regionale sau tine seama de vanzarile celorlalte grupuri de rock din fiecare regiune din ultimul an?

Analiza Variatiei (ANOVA) • Date istorice despre vanzarile de muzica rock: Grup

Bucuresti

Constanta

Iris

3000

800

Bere gratis

750

O.C.S.

Iasi

Cluj

Timisoara

Total

1000 1500

1000

7300

200

1200 2000

1500

5650

1250

400

300

1400

1000

4350

Sarmalele reci

2000

500

600

400

800

4300

Celelalte cuvinte

1000

400

100

200

700

2400

Total

9000

2300

3200 5500

5000

25000

Medii partiale

1800

460

640

1000

1000

1100

Analiza Variatiei (ANOVA) • n = 5x5=25 de observatii • c=r=5 (n1=n2=n3=n4=n5=5) c

2

j

E

 ˘  1071200

x

x

V

1 j

 x  j

n

c



˘  3525000 198800  852000  2360000  380000  39040800 2

x

j

ij





1 i 1 j



x

I

V

x  

4

0 0 8 0 4 1 0 c 9 3I V

x

 ˘   ˘

7 8 2 , 1 5 1

x

2

 ˘   ˘

0 0 2 1 7 c 0 1 E V

Fc

 x x

Analiza Variatiei (ANOVA) 

• Fc =1,827 < Ft (5,5,α=0,05)=5,05 => se accepta ipoteza nula (mediile subesantioanelor nu difera in mod semnificativ). • Cum se distribuie CD-ul celor de la IRIS?

Testul Levene • Un test bivariat, pentru stabilirea gradului de asemanare intre variatiile a doua esantioane (dependente sau independente), masurate pe o scala categoriala sau continua, normal distribuite. • Ipotezele asociate testului Levene: NU exista o diferenta semnificativa statistic intre dispersiile grupurilor analizate (dispersiile sunt asemanatoare – avem o relatie de homoscedasticitate); Disersiile grupurilor investigate sunt semnificativ diferite (prezinta o relatie de heteroscedasticitate);

Testul Levene • Indicatorul testului este denumit Levene F sau W si se calculeaza conform formulei: 2

n

j

c

i

1 i 1 j

y j



ij



y

ij





2

 ˘

D ij D

 ˘x

1 c



D



D

• unde:

 ˘

j

D

j

 ˘ x 1 j

c

W

 x

n c c n

x

Testul Levene 

• Valorile teoretice ale testului Levene se regasesc in tabele, indexate pe baza probabilitatii de garantare a rezultatelor (1-α) si gradele de libertate (n-c). • Interpretarea teoretica a testului Levene: Fc ≤ Ft : se accepta ipoteza nula (relatia este homoscedastiva) Fc > Ft : se accepta ipoteza alternativa (relatia este heteroscedastiva)

Testul Kruskal-Wallis • utilizat pentru stabilirea semnificatiei satistice a diferentelor constatate intre trei sau mai multe esantioane (dependente sau independente), masurate pe o scala ordinala, normal distribuite si homoscedastice. • Kruskal-Wallis este echivalentul testelor Mann-Whitney si Wilcoxon pentru mai mult de doua esantioane. – Exemple: identificarea gradului in care nivelul de educatie influenteaza preferinta pentru un anumit produs, masurat pe o scala categoriala; Stabilirea gradului in care gradul de loialitate al respondentilor este influentat de perceptia imaginii unui produs?

Testul Kruskal-Wallis • Ipotezele asociate testului Kruskal-Wallis: NU exista o diferenta semnificativa statistic intre (medianele) grupurile analizate; Grupurile investigate (medianele) difera in mod semnificativ;

• Gradele de libertate asociate K sunt c-1 (c

reprezentand numarul de grupuri determinat de variabila de grupare asupra variabilei independente).

Testul Kruskal-Wallis • Ipotezele sunt acceptate sau respinse in functie de valoarea coeficientului K asociat testului: c 2

 ˘

r

j

rj n

 

x

j

1 n j c

 ˘

1 n

c

K

x



2

j

 ˘

r

ri

x 1 i 1 j



• unde:



- rij reprezinta rangul observatiei i din grupul j; – rj – media subesantionului j; – nj – dimensiunea subesantionului j; – c – numarul de grupuri (c>2)

Testul Kruskal-Wallis • Interpretarea teoretica a testului Kruskal-Wallis se bazeaza pe valorile tabelate ale testului χ2, pentru c-1 grade de libertate si o probabilitate de garantare a rezultatelor de α: Kc ≤ χ2t: se accepta ipoteza nula (grupurile nu sunt semnificativ diferite); Kc > χ2t: se accepta ipoteza alternativa (grupurile au comportamente diferite).

• Observatii: – In cazul variabilelor nominale se utilizeaza testul χ2 , indiferent de numarul subesantioanelor; – Testul K este mai exact decat χ2 in cazul variabilelor ordinale, utilizand rangurile, spre deosebire de χ2, care utilizeaza frecvente de aparitie.

Testul Kruskal-Wallis • Exemplu: In urma unor focus grupuri realizate pentru identificarea perceptiei consumatorilor potentiali pentru berea Redd’s, inainte de lansarea acesteia pe piata, au fost stranse date despre nivelul de educatie (liceu, universitar, post-universitar) al respondentilor, ca si asupra perceptiei asupra gustului, pretului si imaginii produsului, folosindu-se scala Stapel (note de la 1 la 10, 10 reprezentand valoarea maxima). Datele stranse se regasesc in tabelul urmator.

Testul Kruskal-Wallis • Pentru fiecare respondent, valorile celor 3 indicatori ai perceptiei (gust, pret si imagine) sunt agregati utilizandu-se media algebrica. Liceu

Facultate

Master/Doctor

1

6.4

2.5

1.3

2

6.8

3.7

4.1

3

7.2

4.9

4.9

4

8.3

5.4

5.2

5

8.4

5.9

5.5

6

9.1

8.1

8.2

7

9.4

8.2

8

9.7

Medie

8.2

5.5

4.9

Testul Kruskal-Wallis • Valorile sunt agregate intr-o singura variabila, de dimensiunea n=21, iar apoi sunt atribuite ranguri, dupa sistemul explicat pentru testul Mann-Whitney: Liceu

Facultate

Master/Doctor

1

11

2

1

2

12

3

4

3

13

5.5

5.5

4

17

8

7

5

18

10

9

6

19

14

15.5

7

20

15.5

8

21

Suma rangurilor

131

58

42

Medie

16.4

8.3

7

Testul Kruskal-Wallis • Suma tuturor rangurilor este 231, cu o medie de 11 (231/21). Tabelul patratelor diferentelor de rang este: Liceu

Facultate

Master/Doctor

1

0

81

100

2

1

64

49

3

4

30.25

30.25

4

36

9

16

5

49

1

4

6

64

9

20.25

7

81

20.25

8

100

Suma rangurilor

29.16

7.29

16

Testul Kruskal-Wallis • Suma patratelor diferentelor intre rangurile observate si media rangurilor este 769, in timp ce patratul diferentelor dintre rangurile mediie ale grupurilor si media generala a rangurilor este 52,45. In acest fel, putem calcula: c 2

 ˘

r

j

rj n

 

x

j

1 n j c

 ˘

1 n

c

K

x



r

j

 ˘

2

ri

x

 20

769 52.45

 293,23

1 i 1 j 



– Observam ca Kc = 293,23 > χ2t =5,991, calculat pentru 3-1 grade de libertate si un α=0,05, deci acceptam impoteza alternativa, concluzionand ca nivelul de educatie influenteaza semnificativ modul in care este perceputa marca de bere Redd’s

Analiza CoVariatiei (ANCOVA) • Reprezinta un test statistic, utilizat pentru stabilirea semnificatiei satistice a diferentelor constatate intre trei sau mai multe esantioane (dependente sau independente), masurate pe o scala categoriala sau continua, normal distribuite si homoscedastice. – Exemple: utilizarea Internetului (tipuri de abonament) difera in functie de nivelul de educatie al persoanelor investigate (gimnazial, liceal, universitar, post-universitar)? Cum este influentata intentia de cumparare pentru un produs, la nivelul unor grupuri distincte, de catre expunerea la instrumente promotionale distincte, in conditiile in care respondentii cunosteau deja produsul?

Analiza CoVariatiei (ANCOVA) • ANCOVA testeaza in plus (fata de ANOVA) efecte ale covariantei (influenta unor variabile independente suplimentare) variabilei dependente. • CoVarianta este utilizata pentru izolarea efectelor altor variabile indepentente (covariante) asupra variabilei dependente investigate. • Variabilele independente suplimentare sunt denumite variabile de control.

Analiza CoVariatiei (ANCOVA) • Variabila dependenta este subdivizata in c subesantioane (grupuri), de dimensiuni n1, n2,…nc. • Covariatia totala a subesantioanelor este descompusa in covariatie interna (in interiorul acestor grupuri) si covariatie externa (diferenta constatata intre grupuri).

Analiza CoVariatiei (ANCOVA) E



V



VI

T

V

• Variatia totala:    

j

j

1 i 1 j 

n

T

2 ij

y

V

1 i 1 j 



ij

n c

 

˘

2

x 

y



n

c





n

c



V



E

1 i 1 j

  ( yij  y j )(xij  x j ) 



c

V

 y)(x  x) Analiza CoVariatiei (ANCOVA)  n( y I

j

1 j



j

Analiza CoVariatiei (ANCOVA) • CoVariatia este data de: j



n

j1

1



nj

1 i





n j

1 i

1 j



j

yi ij x

I

V O C



y

j

 x 

ij ij

c

n

x



2 j



yi



1 i

j1

i 1

1j

2 ij y x

2 ij i

E





 j

2 ji

x

c j n

V O C

 

n

c

n

c



Analiza CoVariatiei (ANCOVA) • Gradele de libertate asociate (fiecare variabila de control suplimentara duce la pierderea unui grad de libertate): variatia interna: n-c-1; variatia externa: c-1;

externa (intre grupuri): 



2



VI V I O T C V

r

n r 2i nte

interna (in interiorul grupurilor):

2 E E V V O T C V

r

rn te 2 ex

• Coeficientul de determinare (indica in ce masura variatia din interiorul/exteriorul grupurilor identificate la nivelul variabilei dependente este explicata de variabila de grupare):

Analiza CoVariatiei (ANCOVA) 

• Ipotezele asociate ANCOVA: NU exista o diferenta semnificativa statistic intre (mediile) grupurile analizate; grupurile investigate (mediile lor) difera in mod semnificativ;

• Ipotezele sunt acceptate sau respinse in functie de valoarea coeficientului F asociat ANCOVA: E I

x

 ˘  

1 1 c n

V

V

Fc



x

Analiza CoVariatiei (ANCOVA) 

• Interpretarea testului F se face la fel ca in cazul ANOVA, prin identificarea valorilor tabelate, indexate pe baza probabilitatii de garantare a rezultatelor (1-α) si gradele de libertate interne (n-1) si gradele de libertate externe (c-1). • Interpretarea teoretica a testului F (ANCOVA): Fc ≤ Ft : se accepta ipoteza nula Fc > Ft : se accepta ipoteza alternativa

Analiza CoVariatiei (ANCOVA) • Exemplu: Pentru cursul de Analiza Datelor de Marketing utilizand SPSS avem 4 manuale alternative. Pentru a testa care dintre ele este mai util studentilor, am oferit cate un manual fiecarei grupe. Am administrat un examen comun, cu 25 de intrebari, tuturor celor 4 grupe, iar apoi am prelevat esantioane formate din 10 studenti din fiecare grupa, pentru a determina daca exista diferente semnificative in pregatirea acestora.

Analiza CoVariatiei (ANCOVA) • Raspunsuri corecte la examen, pe baza unor manuale diferite Nota la SPSS

1

2

3

4

5

6

7

8

9

10

Total

Medii partiale

Grupa 1

12

15

14

14

18

18

16

14

19

19

159

15,9

Grupa 2

13

16

15

16

19

17

19

23

19

22

179

17,9

Grupa 3

14

16

18

20

18

19

22

21

23

20

191

19,1

Grupa 4

15

16

13

15

19

17

20

18

20

21

174

17,4

• Media generala a raspunsurilor corecte: 17,57

Analiza CoVariatiei (ANCOVA) c

• n = 4 x 10 = 40 de observatii • c = 4, iar r = 10  x

2

x x j

E

V

 ˘  5,2675

1 j



n

cj



1, 1 7 2



4, 2 6



9 6, 6



9, 6 8

j

˘ 

9, 4 5

2

x

1 i 1 j



ji

I



x

V

 x 

 ˘   ˘

8 4 6 0, 0

I

x x

0 1 1 0 1 ,1 1 7 2

c 1 c

V

 ˘   ˘

4 5 7 6 2, 5

V

E

Fc

x  x

Analiza CoVariatiei (ANCOVA) – Fc = 0,0648 < Ft (39,9,α=0,05) = 2,84 => se accepta ipoteza nula (mediile subesantioanelor NU difera in mod semnificativ) => dintre cele 4 grupe, nu exista cel putin doua ale caror masteranzi au o pregatire semnificativ diferita la Analiza Datelor de Marketing Utilizand SPSS (ex.: grupa 1 a raspuns corect, in medie, la 16 intrebari, iar membrii grupei 3 au raspuns corect, in medie, la 19 intrebari, insa aceasta diferenta nu este semnificativa statistic, data fiind dimensiunea esantioanelor utilizate). – Putem concluziona ca nu conteaza ce manual voi recomanda anul viitor?

Analiza CoVariatiei (ANCOVA) – Dupa cum stiti, la Marketing Strategic studentii sunt ordonati in diferite grupe in functie de facultatile absolvite, deci este teoretic posibil ca unii dintre ei sa aiba o pregatire anterioare in domeniul analizei datelor, ceea ce ar afecta acuratetea testului efectuat. – Pregatirea anterioare poate fi estimata prin intermediul notei la Metode si Modele in Marketing, de pe primul semestru, care presupunea cunostinte in aproximativ acelasi domeniu.

Analiza CoVariatiei (ANCOVA) • Raspunsuri corecte la examen, pentru grupe care s-au pregatit cu manuale diferite, incluzand nota la Metode si Modele in Marketing. Grupa 1 Grupa 2

Grupa 3

Grupa 4

1

2

3

4

5

6

7

8

9

10

Total

Medii partiale

SPSS

12

15

14

14

18

18

16

14

19

19

159

15,9

Modelare

5

5

6

7

7

8

8

9

9

10

74

7,4

SPSS

13

16

15

16

19

17

19

23

19

22

179

17,9

Modelare

4

4

5

6

6

8

8

9

10

10

70

7

SPSS

14

16

18

20

18

19

22

21

23

20

191

19,1

Modelare

4

4

6

6

7

8

8

9

10

10

72

7,2

SPSS

15

16

13

15

19

17

20

18

20

21

174

17,4

Modelare

4

5

5

6

6

7

7

9

9

10

68

6,8

Analiza CoVariatiei (ANCOVA) • Analiza covariatiei: n

c

ij

j



˘

1 6 1j x

x

˘ x

ij

E



y

y

V

1 i 1 j

 x 



c



,3 3

j

x

j

 ˘    ˘

x

 ˘

x

 ˘x

y

y

I

x 

n

V



1 j





0 4 3 , 3 1 c n x

 ˘     ˘

1 , 3 11 1 9

1 6 1

E I

x

1

V

V

Fc



x

Analiza CoVariatiei (ANCOVA) 

• Fc = 13,1 > Ft (39,9,α=0,05) = 2,84 => se accepta ipoteza alternativa (mediile subesantioanelor difera in mod semnificativ) => exista diferente semnificative intre contributiile la pregatirea studentilor a celor 4 manuale utilizate!

Analiza datelor de marketing utilizand S.P.S.S. - Analiza asociativa -

Analiza asociativa a datelor • Presupune masurarea gradului de asociere sistematica a valorilor a doua variabile sub aspectul: Directiei (directa / inversa) Intensitatii (fortei) puternica; moderata; slaba; foarte slaba; inexistenta.

Semnificatiei statistice.

Analiza asociativa a datelor • 4 tipuri de asocieri statistice: Non-monotone (prezenta sau absenta unei variabile este sistematic asociata cu prezenta sau absenta valorilor unei alte variabile) – nu permite identificarea clara a directiei (ex.: utilizatorii PlayStation sunt copii, nu adulti); Monotone (se poate identifica directia asociatiilor, dar nu si intensitatea) – ex.: inaltimea unei persoane influenteaza marimea pantofilor); Liniara si non-liniara (se pot identifica directia si intensitatea) daca se cunoaste valoarea unei variabile poate fi identificata automat voaloarea celeilalte variabile;

Analiza asociativa a datelor • Indicatori utilizati: – Coeficientul de corelatie rphi (Φ); – Coeficientul de contingenta C; – Coeficientii de corelatie a rangurilor ρ (Spearman) si γ (Kruskal si Goodman); – Coeficientul de corelatie r (Pearson);

Coeficientul de corelatie rphi Utilizat pentru identificarea asocierilor existente intre doua variabile dihotomice. Coeficientul de corelatie:

2 /

 ˘

]1 d

 ˘x

b

 ˘x

c

 ˘x

b a [

i h

x

c c a b d a d

rp







Directia asocierii este data de semnul lui rphi Coeficientul de determinare (rphi)2 determina gradul in care variabila dependenta este influentata de variabila independenta. Gradul de semnificatie al asocierii dintre opiniile subiectilor constituiti in cele doua esantioane este determinat cu ajutorul testului χ2 in varianta Fisher (esantioane independente) sau McNemar (esantioane dependente).

Coeficientul de corelatie rphi Intensitatea corelatiei: 0 ≥ |rphi| ≥ 0,2 => corelatie nesemnificativa; 0,2 > |rphi| ≥ 0,4 => corelatie foarte slaba; 0,4 > |rphi| ≥ 0,6 => corelatie slaba; 0,6 > |rphi| ≥ 0,8 => corelatie moderata; 0,8 > |rphi| ≥ 1 => corelatie puternica;



2c



2c χ χ N

• Utilizat pentru variabile categoriale (tabele de contingenta de dimensiunea rxk); • Dependent de conditiile de calcul ale χ2. • Nu poate fi determinata directia asocierii! • Coeficientul de contingenta:

C



Coeficientul de contingenta C

N.B.: Coeficientii de contingenta nu pot fi comparati decat daca provin din tabele de contingenta de aceeasi dimensiune!

Coeficientul de contingenta C Intensitatea corelatiei:

k

 

1

k , [0

C







Intervalul astfel obtinut este impartit in 5 sub-intervale egale Nu exista un test de semnificatie al Coeficientului de contingenta!

Coeficientul de corelatie Spearman Denumit si “coeficientul de corelatie al rangurilor”, este utilizat doar pentru a compara variabile masurate pe scala ordinala sau interval. Coeficientul Spearman de corelatie a rangurilor n

2i

n n



1

1 2 i

1

ρ

  x

D

6





Di reprezinta diferentele dintre rangurile unei inregistrari (respondent);

Coeficientul de corelatie Spearman Directia asocierii este data de semnul lui ρ. Intensitatea asocierii este data de valoarea lui ρ. Gradul de semnificatie al asocierii este determinat cu ajutorul testului de semnificati al coeficientului Spearman, calculat cu ajutorul formulei:

ρ

Z

1

c



1 n



Coeficientul de corelatie Spearman 

• Bazat pe ipoteza nula:

H0: coeficientul de corelatie NU DIFERA in mod semnificativ de

zero.

H1: coeficientul de corelatie DIFERA in mod semnificativ de zero.

• Valoarea calculata zc a testului se compara cu valoarea tabelata zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt ≤ Zc ≤ Zt : se accepta ipoteza nula altfel : se accepta ipoteza alternativa

Coeficientul de corelatie γ (Goodman si Kruskall) • •

Se poate utiliza atunci cand coeficientul Spearman nu ofera valori concludente. Valoarea lui γ, la fel ca si ρ, poate lua valori in intervalul -1 si +1.

Q Q

P P

γ



 

– P se obtine inmultind valoarea frecventei din coltul din stanga sus a tabelului de frecvente asociat cu valorile de pe randul urmator, fara cea care se afla imediat sub ea, si cu celelalte valori ale tabelului, dupa care se insumeaza cu produsul dintre prima valoare a randului urmator si suma frecventelor incepand de pe randul urmator, insa din nou fara valoarea aflata imediat sub ea, iterativ. Q se calculeaza dupa aceleasi reguli, insa incepand din dreapta sus.

Coeficientul de corelatie γ (Goodman si Kruskall) Categorie de varsta

Intentiile de cumparare 1

2

3

4

5

1 – (sub 20 de ani)

5

10

15

20

25

2 – (20 – 40 de ani)

10

10

15

20

20

3 – (40 – 60 de ani)

20

15

15

10

5

4 – (peste 60 de ani)

35

25

20

5

1

P = 5 (10+15+20+20+20+15+15+10+5+25+20+5+1) + 10 (15+20+20+15+10+5+20+5+1) + 15 (20+20+10+5+5+1) + 20 (20+5+1) + 10 (15+15+10+5+25+20+5+1) + 10 (15+10+5+20+5+1) + 15 (10+5+5+1) + 20 (5+1) + 20 (25+20+5+1) + 15 (20+5+1) + 15 (5+1) + 10x1 = 6815

Utilizat atunci cand cel putin una dintre variabile este metrica, variabilele sunt continue, au distributii normale si dispersii asemanatoare. Calculat cu ajutorul formulei: n

y i

i

1 i



i

˘

2



y

2

˘ x

yi

1 i

1 i 

n

n

x

n

i

1 i 

˘˘x 2



x

i

˘ x 2

x

1 i 





n

n

n

x



1 i



x

x

i



1 i



n

yi x n n



r

  

Coeficientul de corelatie Pearson



Directia asocierii este data de semnul lui r. Intensitatea asocierii este data de valoarea (absoluta) a lui r. Coeficientul de determinare r2 indica gradul in care variatiile de la nivelul variabilei independenta explica variatiile constatate la nivelul variabilei dependente.

Coeficientul de corelatie Pearson • Gradul de semnificatie al asocierii este stabilit prin testarea semnificatiei statistice a coeficientului r. • Bazat pe ipoteza nula: H0: nu exista o corelatie intre variabilele investigate (r nu este in mod semnificativ diferit de zero).

x 

0 1

Z

1

c



rr 11

g lo 3 1 ,5 1



3 n

 • Valoarea calculata Zc a testului se compara cu valoarea tabelata Zt a acestuia, obtinuta in functie de probabilitatea de garantare a rezultatului. -Zt2 ≤ Zc2 ≤ Zt 2 : se accepta ipoteza nula altfel : se respinge ipoteza nula

Analiza asociativa a datelor • Indicatori utilizati: – Variabile categoriale: • variabile dihotomice =>rphi; • variabile ordinale sau interval => ρ sau γ; • variabile nominale, non-dihotomice: C.

– Variabile proportionale => r;

Corelatii partiale • Nu intotdeauna o corelatie observata reprezinta asocieri directe intre variabile (corelatia nu implica cauzalitatea)! • Exemplu: a fost demonstrata o relatie directa si puternica intre consumul de inghetata si infractionalitatea (numarul de infractiuni saptamanale) din New York!! (sa le propunem sa interzica inghetata!?!) – Motivul: ambele sunt influentate de temperatura!

Corelatii partiale • Coeficientul de corelatie partiala masoara gradul de asociere dintre doua variabile, excluzand in prealabil efectele asupra variabilei dependente a una sau mai multe variabile de control (independente)! – Exemple: • efectul asupra cresterii vanzarilor al unui spot promotional, atunci cand este exclus efectul reducerilor de pret asociate; • perceptia consumatorilor asupra calitatii produsului este influentata de perceptia asupra pretului, in conditiile in care se exclude perceptia asupra imaginii marcii, etc.

Coeficientul de corelatie partiala dintre variabila independenta X si variabila dependenta Y, in conditiile in care este exclus (“controlat”) efectul variabilei independente (de contro) Z, notat rxy-z. Calculat cu ajutorul formulei:

rx

˘

r

2 yz

x

1

r

2 xz

˘

˘x

z y

z x

x

x

1

z y



y

rx

  

Corelatii partiale

˘



unde: rxy este coeficientul de corelatie dintre variabilele X si Y, etc.

Corelatii partiale Coeficientii de corelatie partiala au o ordine asociata, care indica numarul de variabile de control utilizate (coeficientii de corelatie directi sunt “de ordin zero”). Formula de calcul este recursiva. Coeficientul de corelatie partiala de ordin n (cu n variabile de control Z={Z1, Z2,…Zn}) se calculeaza pe baza a trei coeficienti de corelatie partiala de ordin n-1:  x

0

z \ Z 0

z y

ˇ

ρ 1



0

z \ Z

0



z 2y

0



0

0

z z \ x Z 0 z 0 2x

ρ 1

z y x



 x

\z Z

Z \ Z y x

ˇ

ρ



ρ

ρ ρ



x

ˇ

Corelatii partiale  

Directia asocierii este data de semnul lui rxy-z. Intensitatea asocierii este data de valoarea (absoluta) a lui rxy-z. Coeficientii de corelatie partiala sunt utilizati pentru o predictie mai exacta a directiiei asocierilor (cauzalitatii), dar nici ei nu trebuie considerati exclusivi!

Corelatii partiale Atitudinea fata de berea Redd’s. Respondent

Atitudinea (scala Stapel)

Ore petrecute lunar in cluburi

Importanta relativa a pretului

1

6

10

3

2

9

12

10

3

8

12

4

4

3

4

1

5

10

12

10

6

4

6

1

7

5

8

7

8

2

2

4

9

10

18

8

10

9

9

10

11

10

17

8

12

2

2

5

Corelatii partiale Coeficientii simpli (de ordin zero) intre variabile sunt: z y

r



2y z

1

r



2x z

1



2

x y1

rx

ryx2 = 0,7334

 z x

y



rx

rx1y = 0,9361

rx1x2 = 0,5459

˘ ˘

6 8 9 ,3 0

2

x

4 3 3 ,7 0

˘

1

x

2

5 9 5 ,4 0 1

2

x y1

rx



4 3 ,7 3

5 9 4 5 ,1 0 6 3 9 , 0

˘x

x



Corelatii partiale   



• In conditiile in care rxy-z = 0,9386 se poate conclude ca preferinta pentru berea Redd’s este foarte puternic asociata cu numarul de ore petrecut de respondenti in cluburi, chiar si atunci cand este exclus efectul perceptiei respondentilor asupra pretului berii.

Analiza datelor de marketing utilizand S.P.S.S. - analiza predictiva -

Analiza predictiva • Presupune realizarea de estimari asupra evolutiei viitoare a fenomenelor de marketing, utilizand ca metode de lucru: Analiza seriilor dinamice (univariata) Regresia (bivariata sau multivariata) liniara; logistica; hiperbolica;

Modelarea.

Criterii de clasificare ale analizei predictive • Gradul de cuprindere la care se face previziunea: • • • • •

nivel de produs (marca); nivel de grup de produse (linie sau gama); nivel de unitate economica; nivel de ramura de activitate; nivelul economiei nationale (previzune macro-economica);

• Aria geografica inclusa in procesul de previziune: • • • •

nivel local; nivel regional; nivel national; nivel international.

Criterii de clasificare ale analizei predictive • Orizondul de previziune poate fi: • scurt (o perioada/1 an); • mediu (pana la 5 perioade/ani); • lung (peste 5 perioade/ani);

• Alte criterii: • Precizia rezultatelor (previziuni cantitative si calitative); • Tipul de date utilizate; • Considerarea influentelor unor factori perturbatori (metode endogene si exogene);

Lanturile Markov • Metoda lanturilor Markov reprezinta o modalitate de previziune cu utilitate limitata, ce nu presupune nici existenta unei serii cronologice, nici existenta unei asocieri. • Proprietatea Markov: starea viitoare depinde doar de starea prezenta si de o matrice a probabilitatilor de schimbare a starii (starea viitoare nu depinde de stari trecute) – viitorul este conditional independent de trecut. • Probabilitatea unei anumite stari de a depinde de starile anterioare:

P(sik | si1, si 2 ,K, sik 1 ) P(sik | sik 1 )

Lanturile Markov • Probabilitatea unei stări poate fi calculată cu ajutorul următoarei formule: s , K



1 k i

2 i 1

1 k i

x

1 k i

x

1 i

˘

s P

1 i

s2 |i s P



si , P

s ,

˘ K  ˘ K  K x ˘  K 2 i

1



˘ x ˘ x ˘ x

2 1 si s ik , ,2 s s | ki i | 1 k s , 1i s i P s P P



1

 x  x

K

k i

s k ik i ,2 s s i | k | ik s i1 s i s , P P P x

˘

• Pentru a defini lanţul Markov trebuie specificate : j

ij

 x

si |

P

  i  P(si ) a

• probabilitatea de tranziţie: • probabilitatea iniţială:

Lanturile Markov • Matricea probabilitatilor de tranzitie este alcatuita pe baza probabilitatile de transformare (schimbare a starii) a fiecarei variabile: – Exemplu: utilizarea clasica in marketing – evolutia cotei de piata (matricea probabilitatii de tranzitie este alcatuita pe baza unui indicator de loialitate / tranzitie a respondentilor pentru o anumita marca). – Pe piaţa şampoanelor dermato-cosmetice există trei produse (2007): Selegel, T-gel şi Nizoral, cu cotele de piata:

Selegel Ducray Nizoral 25% 35% 40%

Lanturile Markov • Indicele de loialitate.

Selegel Ducray Nizoral 0,85 0,75 0,8

• Probabilitatile de tranzitie (cumparatori care isi vor schimba samponul in luna urmatoare): Produsul părăsit

Reorietări Selegel

Ducray

Nizoral

Selegel

x

0.10

0.05

Ducray

0.15

x

0.10

Nizoral

0.10

0.10

x

Lanturile Markov • Matricea probabilitatilor de tranzitie. 0,85

0.10

0.05

0.15

0,75

0.10

0.10

0.10

0,8

• Cotele de piata la t1:











5 , 0 3 5 0 , 0 * 0 4 0 1 , 0 5 3 5 8 , 0 5 2 l e l g e S





Selegel 30,5%

Ducray Nizoral 32,75% 36,75%

Analiza seriilor dinamice 

• Cunoscuta in literatura de specialitate si sub denumirea de analiza seriilor de timp. • Presupun utilizarea unor date istorice (inregistrari ale evolutiei unui fenomen in timp). • Reprezinta cea mai facila metoda (logistic si matematic) de realizare a previziunilor. • Previziunea naiva: in perioada urmatoare variabila investigata isi va pastra nivelul actual:

t

1 t



Y

P



Metoda modificarii procentuale 

• Metoda modificării procentuale (MMP) urmăreşte să evalueze schimbarea procentuală a variabilei între perioade succesive de timp.

1

 



Y0 Pt M M t

Pt



– unde: MMPt reprezinta media modificării procentuale pentru primele t perioade, iar Y0 este valoarea observată din prima perioada a variabilei previzionate.

Metoda modificarii procentuale • Exemplu: Presupunand un volum al desfacerilor (vanzari) pentru berea Tuborg in primele 6 luni ale anului conform tabelului de mai jos, se vor estima vanzarile din luna iulie.

Luna

Vanzari (hl)

Ianuarie

12000

Februarie

10000

Martie

11000

Aprilie

13000

Mai

14000

Iunie

15000

Metoda modificarii procentuale • Exemplu: Presupunand un volum al desfacerilor (vanzari) pentru berea Tuborg in primele 6 luni ale anului conform tabelului de mai jos, se vor estima vanzarile din luna iulie. 0 Y 1 t n Y Pt M M

 



0 0 0 6 6 5 0 0 1 0 0 1 16 0 0 2 6 1 0 0

6

5P 1M M





x

 ˘





0

0 0 0 2 lie 1 iu Y





Metoda modificarii procentuale mobile 

• Metoda modificării procentuale mobile (MMPM) are un grad mai mare de precizie decat MMP si este utilizata in cazul in care se observa tendinte (trend-uri) in date. • MMPM presupune calculul prealabil al indicilor care exprimă modificarea procentuală a variabilei de la o perioadă la alta. • De asemenea, presupune calculul prealabil al mediilor mobile ale schimbarilor procentuale (MPM), dupa formula: 2 t

    2

Y1



Y . . .



Y



Y

2

1 t

Y

n

Y1



t



 

t1

1 t

t



Y

Y

Y Mt P M





Metoda modificarii procentuale mobile • Metoda modificării procentuale mobile (MMPM) presupune utilizarea formulei de previziune:

˘

1

n ·Y Pn M M 1

Pn



x 

• Pentru perioada m care urmeaza celor n perioade observate (date istorice), formula se transforma dupa:



n



Y ·mn Y · Pn M M

m

Pn



Metoda mediilor mobile 

1 2 L

• Metoda mediilor mobile (MM) este utilizata atunci cand se doreste acordarea unei importante (greutati) superioare observatiilor recente dintr-un set de date istorice, fata de cele de la inceputul setului. • Previziunile se fac asupra unui set de valori ajustate (teoretice), care inlocuiesc termenii initiali ai seriei cronologice, determinate cu ajutorul formului:

Yt

 

L t- 2 i

1 L

Yt

ˆ 





• presupunea alegerea unui interval de referinta L (L < n), la nivelul caruia se vor raporta calculele pentru determinarea mediilor mobile. Se recomanda ca L < 8.

Metoda mediilor mobile • Pentru o serie de aplicatii, se pot utiliza si date “viitoare”, metoda fiind centrata pe o anumita valoare. In acest fel, metoda nu prevede evolutia ulterioara a fenomenului, ci valorile “asteptate”, conform trend-urilor presupuse de valoarile observate. • Metoda se bazeaza pe propritatea mediei aritmetice de compensare a erorilor, diminuand astfel influenta oscilatiilor periodice. Sirul obtinut reprezinta trendul si reflecta tendinta comuna, generala a seriei cronologice.

Metoda mediilor mobile • Exemplu: analiza vanzarilor (milioane EURO) lunare ale URBB Bucuresti. Perioada

1

2

3

4

Valori observate

5

6

8

7

Valori previzionate (L=5)

-

-

6

7

8

6,5 7,2 6,8 6,3

9

10

11

6

6,6 7,4 7,8

6,5 6,9 7,1 6,8 6,6 6,6 6,6 6,8

Yt







 x

5 P



  

˘ 





 





˘ 

1 , 7 8 , 6 2 , 7 5 , 6 7 8

 x

5

 



9 , 6 2 , 5 7 , 6 7 8 6 1 51

P4



t Yt Y 2 7 3 6 i 1 515 i



˘

 x    

1 i



-

5 , 6 5 , 6 7 8 6 5 1 5

5



1 5

P3

• Metoda de calcul:

5

12 -

Metoda mediilor mobile 

• Previziunea se face asupra setului de date ajustat, utilizand metode de analiza a seriilor dinamice la alegere (MMP, MMPM, etc.). • Media mobila a schimbarilor procentuale (MPM) pentru setul de valori ajustate dupa metoda mediilor mobile este:    

2 t



n



5 2 0 .1 6 0

Y1

1 t

Mt P M



1



Y



2



Y . . .t2 Y Y

Y

 

t1

1 t

t



Y

Y

Y





ˆ

ˆ

2 9 6 . 10 Y 6 ·3 0 ·Y1 P10 M M

3

P1





Metoda nivelarii exponentiale 

• Metoda nivelarii exponentiale este mai precisa decat metodele anterioare. La randul ei, creaza posibilitatea ca cele mai recente observatii sa fie luate în calcul cu ponderi mai mari.

Pt

x  ˘

a 1



t

Y a 1 Pt 



• presupunea alegerea unui coeficient de nivelare α (0 < α < 1), valoarea acestuia fiind stabilita fie prin utilizarea mediilor mobile, fie prin incercari, urmata de evaluarea acuratetei seriilor de valori previzionate (suma patratelor valorilor reziduale).

Metoda nivelarii exponentiale • Exemplu: analiza vanzarilor (milioane EURO) lunare ale URBB Bucuresti. Vom analiza trei coeficienti:

˘

 x 

6 5 , 0 P2



5 5 , 0 1

• α = 0,5; • α = 0,33; • α = 0,25;



 

Perioada

1

2

3

4

5

6

7

8

9

10

11

12

Valori observate

5

6

8

7

6,5

7,2

6,8

6,3

6

6,6

7,4

7,8

Previziune (α=0,5)

5

5,5

6,75

6,9

6,7

6,9

6,9

6,6

6,3

6,4

6,9

7,4

Previziune (α=0,33)

5

5,33

6,22

6,48

6,49

6,73

6,75

6,6

6,4

6,47

6,78

7,12

Previziune (α=0,25)

5

5,25

5,94

6,2

6,28

6,51

6,58

6,51

6,38

6,44

6,68

6,96

Metoda nivelarii exponentiale 

• Valorile asteptate pentru perioada urmatoare: • 7,6 milioane (α = 0,5);



˘

6 , 7 4 , 7 5 , 0 1

8 , 7 5 , 0 3 P1 

x 



• 7,34 milioane (α = 0,33);



x



˘





˘



4 3 , 7 2 1 , 3 7 3 , 0 1

8 , 7 3 3 , 0 13 P 



• 7,18 milioane (α = 0,25);

• Pe care o vom alege?

x

8 1 , 7 6 9 , 6 5 2 , 1 0



8 , 7 5 2 , 0 13 P



Metoda nivelarii exponentiale • Metoda nivelarii exponentiale duble (Metoda Brown) este recomandabila atunci cand seria dinamica poseda în configuratia sa o tendinta liniara. • Necesita doar un minim de 3 valori istorice pentru a fi implementate (insa acuratetea ei este influentata direct de dimensiunea seriei istorice utilizate). • presupunea utilizarea a doi vectori de nivelare dinamica αi si þi (0 < αi, þi < 1).

Metoda nivelarii exponentiale • Pentru previzionarea unei valori ulterioare k momentului actual (t), se utilizeaza formula:



t

t

  P   1   t 1 Pt  Xt

  

P

P



a



1

t

t



a

þ

P

• iar

t

P 2 t a 

  



-1

• unde:

t

k t



Ptk þ

a

P 

Metoda nivelarii P exponentiale Pt   t 1 Pt1

Metoda nivelarii exponentiale • Metoda nivelarii exponentiale cu doi parametrii (Metoda Holt) este mai flexibilitata decat metoda Brown, intrucat permite nivelarea tendintei folosind un parametru diferit de cel al seriei dinamice iniţiale. • Necesita doar un minim de 3 valori istorice pentru a fi implementate (insa acuratetea ei este influentata direct de dimensiunea seriei istorice utilizate). • presupunea utilizarea a 3 coeficient de nivelare dinamici α, þ si ç (0 < α, þ, ç < 1). • Metoda este utilizata pentru a determina trend-ul evolutiei fenomenului, iar pe baza acestuia nivelul ulterior al variabilei previzionate.

Metoda nivelarii exponentiale • Seriile asociate metodei Holt au forma:



st

t

t

˘

T



þ a

Pt

x



• unde α reprezinta o constanta subunitara asociata nivelului initial al seriei, þ este un indice asociat trend-ului seriei, iar st este asociat erorilor (influentelor) aleatorii. • Tt reprezinta trend-ul (evolutia) asociat seriei de valori istorice observate, calculat dupa formula:

˘  



P ç 1



1 t

2

t

Pt-1 Pt

ç

T

 x

Metoda nivelarii exponentiale 

• Previziunea valorilor, conform metodei Holt, presupune utilizarea formulei:

T



t



1 t

 ˘x

P

x

a 1

t

Y a t P 



• In cazul in care in setul de date este inclus si un factor de sezonalitate, se utilizeaza metode nivelarii exponentiale sezoniere a lui Winters. • Previziunea cu ajutorul acestei metode se bazeaza pe formula:

Ptm  Pt  bt m St Lm

• Sezonalitatea in modelul Winters este estimata cu ajutorul formulei:



S þ



t1

  

1

t

t

t





Yþ P

S

P a 1



T

1 t 



1 t



  

t

t



Y T a

• unde

P



1 t

T ç

   

1 t

1 t



1



P



t

t





P ç

T



Metoda nivelarii exponentiale



Metoda nivelarii exponentiale 

Alegerea metodei de previziune adecvata 

• Selectia modelului de previziune adecvat este realizata prin compararea valorilor reziduale (denumite si variatia neexplicata), dupa formula: n 2

i

i

E

ˆ ˘

y

y

S S

1 i

 x 



• daca metoda utilizata este perfecta, atunci SSE = 0. • Alternativ, se poata utiliza abaterea medie absoluta (AMA) asociata fiecarei metode de previziune: n i

ˆ

1 i 

n

A M A



| i y

y |



Alegerea metodei de previziune adecvata • Exemplu: previziunea vanzarilor pentru a 11-a perioada: MMP

Brown

Holt

Winters

Anul

Xi

Yi

εi

Yi

εi

Yi

εi

Yi

εi

Ian

2

1,8

0,2

2

0

2,3

-0,3

-

-

Feb

2,5

2,3

0,2

2,7

-0,2

2,8

-0,3

2,5

0

Mar

3,2

2,8

0,4

3,3

-0,1

3,4

-0,2

3,1

0,1

Apr

3,0

2,9

0,1

3,1

-0,1

3,2

-0,2

3,1

-0,1

Mai

4,0

3,8

0,2

3,8

0,2

3,8

0,2

3,7

0,3

Iun

4,5

4,6

-0,1

4,6

-0,1

4,4

0,1

4,4

0,1

Iul

5,0

5,2

-0,2

4,8

0,2

4,8

0,2

5,0

0

Aug

4,8

5,0

-0,2

5,3

-0,5

5,0

-0,2

5,1

-0,3

Sep

5,3

5,5

-0,2

5,5

-0,2

5,1

0,2

5,2

0,1

Oct

6,0

5,7

-0,3

5,6

0,4

5,8

0,2

5,5

0,5

Alegerea metodei de previziune adecvata

2

ˆ ˘ i

y yi

SE S



1 i

 x

| yi n| 1 y i iA M A

n

• Suma patratelor valorilor reziduale, respectiv abaterea medie absoluta:  ˆ 

MMP

Brown Holt Winters

SSE

0,51

0,6

0,47

0,47

AMA

2,1

0,2

0,21

0,17



Modele autoregresive (AR) • Modelele autoregresive reprezinta o varianta univariata a regresiei liniare, in care valoarea curenta este estimata utilizand una sau mai multe valori anterioare ale seriei (serii cronologice). p t



t



s



Yp a . . .



2 t

Y2 a



1 t

t

Y1 a ð

Y

• Modelul AR: ˆ  



• unde p reprezinta ordinul de autoregresie (nivelarea exponentiala reprezinta un model AR de ordin 1), ð este un indice asociat trend-ului seriei, iar st este asociat erorilor (influentelor) aleatorii.

Y i a 1 1i

ð

x   ˘



Modele autoregresive (AR)

Modele autoregresive (AR)  



• Box & Jenkins au demonstrat ca una dintre cele mai eficiente modalitate de rezolvare a modelelor autoregresive este prin utilizarea mediilor mobile (Moving Averages – MA). • Variantele metodei Box-Jenkins: – ARMA – utilizat pentru serii stationare (serii cu proprietatea ca media si variatia nu se modifica semnificativ in timp – practic, o serie de tip Brown, in care nu exista trend si sezonalitate). – ARIMA – utilizat pentru serii dinamice (“I” vine de la Integrate).

Modele autoregresive (AR) •

Metoda Box-Jenkins presupune trecerea prin 3 faze pentru determinarea modelului utilizat in previziune: 1. Identificarea modelului 2. Estimarea parametrilor modelului 3. Validarea modelului



In general, pentru realizarea unei autoregresii eficiente, sunt recomandate serii cronologice lungi – unii autori recomanda minim 50 de observatii, alti chiar 100.

Modele autoregresive (AR) •

Identificarea modelului: – Dinamicitatea unei serii (modelul ARMA sau ARIMA) este determinata utilizand un grafic de autocorelatie, care va prezenta sezonalitate in cazul in care graficul este continuu

Modele autoregresive (AR) •

Identificarea modelului: – Graficul de autocorelatie reprezinta pe abcisa trecerea timpului, iar pe ordonata coeficientul de auto-corelatie corespunzator, calculat dupa formula: h

h



Y

Yt

Y



2

σ



 ˘x

Yt

x 1 i

h

R

N 1 n



t1

– Liniile (valorile) de demarcatie pentru autocorelatie sunt calculate dupa formula (α corespunde probabilitatii de arantare a rezultatelor): g a2

n





Modele autoregresive (AR)  



q

p

Identificarea modelului: – Modelul ARMA (fara sezonalitate si trend):

˘ x   

˘

st iL i þ

1

1

Yt i L i a

x 

1 i

1 i





 



– Modelul ARIMA (serii dinamice):

 

˘

1 i



t

s iL i þ

t

x

1

˘

Y d L 1

˘ x

iL i a

1 i



q

p



1

x

Modele autoregresive (AR) 



Identificarea modelului: – –



estimarea parametrilor αi si þi - in intervalul [-1;1] se realizeaza prin aproximare (recomandabil cu un program statistic, gen SPSS); Li reprezinta vectorul primilor i parametrii estimati pentru o serie cronologica simpla sau care include sezonalitate (operatorul de lag).

Estimarea parametrilor modelului: – parametrii p si q sunt estimati cu ajutorul graficului de autocorelatie (valoarea maxima a lui α (probabilitatea de garantare a rezultatelor) pentru care coeficientii de autocorelatie nu depasesc valoarea-prag). – parametrii αi sunt estimati prin aproximare, folosind metoda celor mai mici patrate (recomandabil cu un program statistic, gen SPSS);

Modele autoregresive (AR) •

Validarea parametrilor modelului:

c



i

   

a i a s

z

– Se realizeaza prin testarea ipotezei nule ca valorile reziduale sunt independente, vectorul acestora avand o medie si o varianta nediferite semnificativ statistic in timp. In cazul in care parametrii nu sunt validati, trebuie revenit la pasul 1. – Valoarea testul Student asociat parametrilor modelului este: 





-Zt ≤ Zc ≤ Zt : se accepta ipoteza nula (parametrul NU este

valid); altfel, se accepta ipoteza alternativa (parametrul este valid);

Modele autoregresive (AR) • Exemplu: previziunea vanzarilor pentru a 11-a perioada: Anul

Yi (Vanzari mil. $)

Ian

10

Feb

12

Mar

11

Apr

14

Mai

14,5

Iun

15

Iul

16

Aug

18,5

Sep

19

Oct

20

Modele autoregresive (AR) 

p

 

st

Ytap . .2 Y. 2t a



1

Yta1 ð

Yt

ˆ  

  

• Valoarea coeficientilor de grad 3, estimata de catre SPSS: – ð = -0,934 – α1 = 0,534

α2 = - 0,398

α3 = 1,062

• Ecuatia de autoregresie devine astfel:  ,062

Y 1

3 t

2 t

1 t

t

 ,398

Y 0

Y 0

-

Y

ˆ  0,934  ,534

Modele autoregresive (AR) • Pentru perioada 11 vom avea: 8 , 1 2 5 , 8 1 2 0 6 , 1 9 1 8 3 9 , 0 0 2 4 5 3 , 0 4 9 ,3 -0

1

Y1

ˆ 















• Testarea semnificatiei parametrilor: c

a 3 s a3

z



1,062   3,218 0,333

– pentru α=0,05 zt=1,96 => zc > zt => ipoteza alternativa va fi acceptata (parametrul este valid)

Modele autoregresive (AR) 1

c

a s

z

c

a

2

1

2 a sa

z

• Testarea semnificatiei parametrilor: 0,398  0,534    1,005    1,684 0,317 0,396 • pentru α=0,05 zt=1,96 => -zt (-0,96) ≤ zc (-1,005) ≤ zt (1,96) => ipoteza nula va fi acceptata (parametrul NU este valid) 3 Yt

1



7 , 8 1 ,5 8 1 2 0 6 , 1 4 9 ,3 -0

1

Y1

ˆ

-

t Y

ˆ  0,934  ,062 





 



Analiza autocorelatiei Testul Durbin-Watson necesita calculul parametrului d, dupa formula: ˆ ) ˆ T (U t U t1  2

d

t2

T

2 ˆ U t t1

Daca d
dT, atunci este acceptata ipoteza nula (dL si dT sunt luate din tabelele asociate testului Durbin-Watson).

Testul Geary este de natura neparametrica si are ca punct de plecare calculul numarului schimbarilor de semn in seria valorilor reziduale ð. Daca ðmin< ð < ðmax (tabelate), atunci ipoteza nula este acceptata.

Regresia – Regresia reprezinta o clasa semnificativa de metode de previziune, in care valoarea unei variabile (denumita dependenta) este previzionata folosind valorile altor variabile (independente), de ale carei valori depinde.

– Dependenta variabilei previzionate trebuie demonstrata, utilizand un coeficient de corelatie (corelatia trebuie sa fie cel putin medie, dar se recomanda utilizarea corelatiilor puterice sau foarte puternice).

Regresia • Formele regresiei: – in functie de numarul de variabile utilizate: • bivariata (o singura variabila independenta); • multivariata (doua sau mai multe variabile independente);

– in functie de forma relatiei dintre variabile (identificata cu ajutorul analizei grafice): • • • •

liniara; logistica; polinomiala; trigonometrica;

 

x b a



• Regresia liniara bivariata:

y



Regresia liniara

Regresia liniara  

i



n

2

x  ˘

x

x

2

i

i

1 i

1 i



1 i

1 i

n

n



 y

i

i

1 i



n

x  ˘x

x





b

– panta (b):

n

y n i n x

• Parametrii regresiei (metoda celor mai mici patrate):





x b y a

– termenul liber (a):

 

Metoda regresiei multiple 

• Permite analiza relatiei liniare dintre o variabila dependenta si una sau mai multe variabile indepentende • Obiectiv: explicarea si previziunea variatiei variabilei dependente in functie de covarianta ei cu variabilele independente.



ˆ

n

ˆ

Xn



þ .

ˆ

. i .Xi þ . . .2 X 2 þ

1

X1 þ a

Y

ˆ  ˆ

• Parametrii þ sunt estimati utilizand metoda celor mai mici patrate (un model cu n variabile va avea nevoie de n perechi de date “istorice” pentru scrierea unui sistem de n ecuatii). • Exemplu: cererea de bunuri/servicii (dependenta) in functie de factori determinanti (venituri, cifra de afaceri, pret, etc.)

Metoda regresiei multiple • Metoda celor mai mici patrate pentru o regresie liniara de gradul 2: n

2i n

˘

2i

x 1i x

x yi

1 i

2

x 2i

1i

1

ii

1



˘

˘

2i

x 1i x

2

x x

1i

x

x

-

x 

2

þx x2

1

a1

þ y



˘x  

i

nn

1 n

2 2i

x

2 1i

1 i

 



1 i

n

1i

1

2



x 

 

˘



1 i

-

2 i

1 i



yi

2i

i

1

n

n

x

yi 2i x 1 i

þ

˘



x 



n

1

i

1 i

x 



-

x

2 2i

2 1i

x

  

˘x 

x

-

i 2 2

n

n

1



x



1

1 i

 ˘

x

1i

yi

x



nn

n i

þ



x

Metoda regresiei multiple • Estimarea semnificatiei statistice a parametrilor este utilizata pentru a se verifica faptul ca variatia variabilei dependente nu este datorata intamplari (evenimentelor aleatoare), ci este rezultatul variatiei uneia sau mai multor variabile independente. • Realizata cu ajutorul testului Student, in care numarul de grade de libertate al valorii teoretice (tabelate) se determina cu conform: Nivelul de semnificatie = (1-nivelul de confidenta)/2

Metoda regresiei multiple

tc

þ i þ s

• Testarea semnificatiei (reprezentativitatii) parametrilor de regresie:



 s j

t ˆ j T , j

i

• Eroarea standard a unui parametru estimat arata cu cat poate sa varieze acesta in jurul valorii sale ca urmare a erorii aleatoare.

Metoda regresiei multiple • Testul F este utilizat pentru a determina semnificatia (reprezentativitatea) variatiei variabilei dependente explicata de variatia variabilelor independente considerate. • Utilizeaza formula: n

1 k n Y

Y

ˆ  x x ˘  i

 

1 n i

Fc



 ˘

1 k

2

1 i



Y

ˆ  ˘x x 

Yi



Metoda regresiei multiple 

n





2



i



y



y

ˆ 1 i n

k





2

i

1 i



y

y

x ,2 . x 1 ., x . ,, y

R



• Coeficientul (raportul) de corelaţie multiplă R reprezinta gradul in care variabilele independente, per ansamblu, explica variatia variabilei dependente . • Utilizeaza formula:

Metoda regresiei multiple  

• Pentru a putea caracteriza proporţia variaţiei variabilei dependente datorată variaţiei setului de variabile variabile independente ale modelului se calculează coeficientul de determinare multiplă R2 (pătratul raportului de corelaţie multiplă), care arată proporţia din variaţia totală a variabilei Y care este explicată de variabilele independente X1, X2, ...Xk. • În afara coeficienţilor de corelaţie multiplă, în analiza corelaţiei dintre variabile se mai pot calcula şi coeficienţii de corelaţie parţială, ce caracterizează intensitatea legăturii dintre două variabile, în ipoteza că celelalte variabile rămân constante

Metoda regresiei multiple •

Exemplu: Estimarea nivelului vanzarilor de telefoane mobile plecand de la suprafata comerciala a magazinului si numarul de asistenti de vanzare. Vânzări (bucăţi) Număr vânzători (persoane) Suprafaţa comercială 22

7

98

20

5

90

23

8

110

26

9

130

30

12

140

32

15

145

45

22

156

50

25

160

52

32

164

60

40

175

Metoda regresiei multiple •

Sistemul de 3 ecuaţii simultane cu 3 necunoscute, pentru determinarea estimatorilor α, þ1 şi þ2 este.  

y

i

 

y ii x1

 

y ii 2 x

i 2

x

2

2



4 5 7 2 5

 

2



6 1 8 0 7 6 3

8þ 6 3

1 þ 51 7 1



i

i

i

x2

2

2

i

 



2

þ xi

x1

1

a 0 1

 



x1



2

2



1



þ

i 2



þ1

x



x



þ x



2 þ þ 21 6 7 7 6 8 2 94 1 þ 1 21 þ 1 7 2 6 3 4 2 a 1 1 a 8 5 6 7 1 3 1

       



þ 2 xi

i 1



i

x1

þ





i 1

þ a n



a

        



Dupa rezolvarea ecuatiei vom obtine: – þ1 = 0,974543752; – þ2 = 0,104112437; – α = 4,702902918;

Ŷ = 4,703 +0,97X1i+ 0,104X2i •

Coeficientul de corelatie multipla este: n

2

y

y

  ˆ   i





2

i

1 i 



y

y





5 8 0 9 , 9 0 8



1 i n

2

1

k

x , . x ,. x . ,, y

R



Metoda regresiei multiple

Metoda regresiei multiple  





Valorile reziduale: Yi

ŷ

yi

ε = yi - ŷ

(yi- ŷ)

2

22 22,92209467 22 -0,922094675 0,850258589 20 18,15286921 20

1,847130787 3,411892145

23 23,49930977 23 -0,499309769 0,249310245 26 26,96671515 26 -0,966715154 0,934538188 30 31,04921181 30

-1,04921181 1,100845422

32 34,49973652 32 -2,499736517 6,248682653 50 45,79082822 50

4,209171778 17,71712706

52 52,87302888 52 -0,873028881 0,762179427 60 61,77950786 60 -1,779507855 3,166648206 40,85910144

Metoda regresiei multiple •

Validitatea valorilor previzionate: n



Y Yi

ˆ  ˘x

 ˘



1 i

x

i

1 n i

Fc



  ˘

6 1 5 5 2 1 7 , 7 5 1 1 1 k k n 2 Y

ˆ  x ˘

Y

x 



Valoarea tabelata a lui F pentru o probabilitate de garantare a rezultatelor de 95% si 52 de grade de libertate: 3,23 => Fc =157,71 > Ft =3,23 => se accepta ipoteza alternative (valoarea coeficientului de corelatie multipla este semnificativ diferita de zero), deci regresia este valida.

Analiza multicoliniaritatii • Coliniaritatea reprezinta relatia liniara dintre doua variabile independente ale unui model. • Prezenta sa poate duce la distorsiuni serioase ale parametrilor modelului. • Sugerata de prezenta erorilor standard mari sau de sensitivitatea exagerata a parametrilor. • Evidentiata utilizandu-se cele trei teste Farrar si Glauber.

Primul test Farrar si Glauber – Se bazeaza pe compararea matricei de corelatie a modelului cu matricea unitate, cu ajutorul testului χ2

  ˘ ˘  

] Z T Z [ t ln e 5 d 1

x

m

2 1 6

1 n

2c

χ

     x  



• Valoarea teoretica a lui χ2 se regaseste in tabelele statistice ale repartitiei χ2, considerandu-se 1/2(m-1)(m-2) grade de libertate. • Daca χ2 > χ2, atunci se concluzioneaza ca exista multicoliniaritate la nivelul modelului (regresiei) analizate.

Al doilea test Farrar si Glauber • Permite identificarea variabilelor cel mai afectate de coliniaritate • Se bazeaza pe compararea matricei de corelatie a modelului cu matricea unitate, cu ajutorul testului Fisher.

 ˘ 

1

x

m

1

i i

2

m

r Fc

x

x  ˘

• Valoarea teoretica a lui F se regaseste in tabelele statistice ale repartitiei Fisher, considerandu-se n-m+1 si m-2 grade de libertate. • Daca Fc > Ft, atunci se concluzioneaza ca ipoteza ortogonalitatii intre variabilele independente nu este acceptata.

j

i r



r



jj

r

ii



• Apoi se calculeaza valoarea testului Student dupa formula:

 ˘

1

m

j

x

ij





n

ri t

2j



ri 1



• Permite stabilirea semnificatiei statistice a coeficientilor de corelatie • Coeficientii de corelatie partiala intre Xi si Xj se determina pe baza formului:

ri j

 

Al treilea test Farrar si Glauber

• Daca tij > tt, atunci se concluzioneaza ca ipoteza nula este respinsa.

Analiza erorii medii patratice a valorilor reziduale Masura sintetica a acuratetii modelului si o metoda de evidentiere a erorilor de previziune. 1 T 2 2 (P  A)  (S S )   A )  (P t P A   2(1 r)S P S A  T t1 t (P-A)2 indica tendinta medie a modelului de a supraestima sau subestima valorile reale. (SP-SA)2 indica sensitivitatea modelului la modificarea valorilor independente. 2(1-r)SPSA indica marimea erorii datorate lipsei corelatiei perfecte dintre valorile previzionate si cele actuale.

Related Documents


More Documents from "Phileas"

Docum
August 2019 25
Idei Vlog.txt
August 2019 30
Givwe.docx
August 2019 29
Cuprins-modificat.docx
August 2019 31
Giveaway Requ.docx
August 2019 33