REGRESIA MULTIPLĂ Modelul liniar general
1
Exemplu 1 În medie ne-am aştepta ca la un nivel mai ridicat de educaţie, nivelul venitului să crească: venit = β 1 + β 2⋅ educaţie + ε Dar în acest caz nu se tine seama de faptul că venitul depinde şi de vârstă: venit = β 1 + β 2⋅ educaţie +β 3⋅ vârstă + ε care este un model liniar multifactorial. Forma generală a modelului liniar de regresie multifactorial: yi = β 1xi1+β 2xi2+...+β kxip+ ε i, i=1,...,n 2
Exemplu 2
Î 3
Forma generală a modelului y1 Y = y n
X =
x1k ε1 1 k β1 x2 x2 ε = β = ε n 1 k xn xn βk x11
Y = Xβ + ε 4
Forma generală a modelului
5
Ansamb X = [x 1 ,x 2 ,...,x
k
=]
... x 1 k x11 x21 x x ... x 12 22 2 ∈kM ( .... .... .... .... x x ... x kn 1n 2 n
.
,n )k
1 1
y1 y2 yn
6
Etapele realizării unui model de regresie multiplă
I.
Id 7
Etapele realizării unui model de regresie multiplă
III. Es 8
Ipotezele modelului de regresie multiplă
1.
9
1. Forma funcţională: Y = Xβ + ε • Ipoteza de linearitate nu este atât de restrictivă pe cât pare. Aceasta se referă la felul în care parametrii intră în ecuaţie, nu neapărat la relaţia între variabilele x şi y. • Exemplu: elasticitatea preţului pentru un produs şi elasticităţile încrucişate:
Q = α Pβ 1Pβ1 ... k βPk
⇒ ln Q ln =
• β – elasticity coefficient • βi – cross-elasticity coefficients
ln α +Pβ
1
ln 1P+ β...
k
10
ln+
2.Media zero a erorilor: E(ε )=0 • Valoarea reală a lui Y, înregistrată pe baza datelor statistice, este de regulă mai mare sau mai mică decât cea estimată. • Dacă în cadrul modelului au fost incluse acele variabile ce influenţează în mod real valoarea lui Y, atunci ecartul dintre cele două valori, reale şi estimate, tinde spre zero, iar în medie acesta este zero.
11
3. Homoscedasticitatea: E(ε ε ’)=σ 2In
Daca Ω (ε ,ε ) = E (εε ' )
cov(ε1, ε1 ) cov(ε1, ε 2 ) cov(ε 2 , ε1 ) cov(ε 2 , ε 2 ) = ............... ............... cov(ε n , ε1 ) cov(ε n , ε 2 )
... cov(ε1, ε n ) σε2 0 ... cov(ε 2 , ε n ) 0 σ ε2 = ... ............... ... ... ... cov(ε n , ε n ) 0 0
... 0 ... 0 . ... ... 2 ... σ ε
E (εε ' ) = σ ε2I n ,
12
5.Matricea X este de rang k
C
1, k
13
Estimarea parametrilor prin MCMMP
Minim S ( βˆ ) = ∑ ie2 = ∑ ( yi i
i
−ˆ xβ
1 1 i
ˆ− x β ... − ˆ x− 2)β ( yi − βˆ=' xi ) 2 . k ki ∑
2 2 i
i
n
S ( βˆ) = e ∑ (ei2=e ...e1 )2 i =1
n
⋅
e1 e2 ' = en
ee
ˆ β
[min]S β(ˆ =) e e' = Y( − X ˆ β) '(Y βˆ
X− ˆ ) βY2=Y' '
ˆ − X Yβ'
ˆ. 'X+ '
βˆ ' X 'Y 14
Estimarea parametrilor prin MCMMP βˆ
∂ S (βˆ ) = ∂ βˆ
[∂Y ' Y 2−ˆ β' X ' Y ˆ '+Xβ ' X ˆ ] β 2 X 'Y = − ˆ ∂β
[ ˆ ' X ' ∂Xβ ˆ ] ˆ β + 2 X 'Y β 2 X '=X − ˆ ∂β
Derivîn βˆ = ( X ' X )− 1 X 'Y.
∂ S ( βˆ ) = −2 X ' Y +2 X ' X βˆ ∂ βˆ
∂ 2 S(βˆ ) = 2 X' X ˆ ˆ ∂β ∂β '
βˆ
15
Interpretarea parametrilor
Pentru modelul yi = βˆ1 x1i + βˆ2 x2i+ ...+ β k ˆ kix. ∆y i = βˆ1 ∆x1i ,
β1
∆y i ˆ β1 = . ∆x1i
βˆ1
16
Forma echivalentă de estimare a parametrilor S ( βˆ ) =
∑ e = ∑ ( y − βˆ x 2 i
i
i
1 1i
− βˆ2 x2i − ... − βˆk xki ) 2 =
i
∑( y
i
ˆ ' x )2 . −β i
i
βˆ1 ∑ x12i + βˆ2 ∑ x2i x1i + ... + βˆ k ∑ x ki x1i = ∑ y i x1i i i i i ˆ 2 ˆ ˆ β x x + β x ∑ ∑ 1i 2i 2 2 i + ... + β k ∑ x ki x 2 i = ∑ y i x 2 i 1 i i i i ....................................................................... 2 βˆ1 ∑ x1i x pi + βˆ2 ∑ x2i x pi + ... + βˆ k ∑ x ki = ∑ y ix ki i i i i
∑ex
i 1i
i
= 0, ∑ eix 2i = 0,...,∑ eixki = 0. i
i
17
Modele particulare
Caz 1, p
18
Între p β j = β* j ; βj =
σy σ xi
β** j .
zt = yt − y şi u jt = x jt − x j ;
x jt − x j yt − y Zt = si u jt = . σy σj
σj
19
Coeficienţii de corelaţie parţială
Prin m ry / xi =
cov( y, xi ) σ y σ xi
cov( y, xi ) =
∑y
t
t
n
xit
rxi / x j =
cov(xi , x j ) σ xi σ xj
.
∑x x
it jt
cov(xi , x j ) =
t
n
.
∑ yt x jt = n cov( y, xi ) t
∑ xit x jt = n cov( xi , x j ). t
20
Luând în nσ x21 cov( n 1 ,x 2 x) ... cov( n 1, x x)k 2 n cov( x , x ) σ ... n cov( x2 k , x ) 2 1 xn 2 X 'X = n [ 1 .. ................... .................... .................... n cov( kx ,1 x ) n cov( kx , 2x ) ... σ 2 n xk
2
C ] kx =,x
cov(y, x1 ) X'y = n = nC[ y, X] , cov(y, x p )
C(x1, x2 ,...,xk )βˆ * = C(y, X)
βˆ * = C-1 (x1, x 2 ,...,xk )C(y, X)
21
Eroarea pentru modelul de regresie multiplă
Vectoru yˆ = Xβˆ = X( X' X)-1 X' y.
e = y − yˆ = y − X( X' X) −1 X' y = (I − X( X' X) −1 X' )y = G y.
G 2 = G ⋅ G = [I − X( X' X) −1 X' ][I − X( X' X) −1 X' ] = I − X( X' X) −1 X' = G;
[
]
[
]
T r( G ) = T rI − X( X' X )−1 X' = T r( I ) − T r X( X' X )−1 X' = n − k ; GX ' = 0 ˆy = Py ; P = I - G, PX = X( X' X) −1 X' X = X PG = GP = 0. Tr ( A) = ∑ a ii ; Tr (αA) = αTr ( A), i
22
Proprietăţile estimatorilor ˆ β
βˆ = Ly
Propr L = ( X' X) −1 X'∈ M (1,n);
β = L(Xβ + ε ) = ( X' X) −1 X' Xβ + ( X' X) −1 X' ε = β + ( X' X) −1 X' ε.
E (βˆ ) = E (β ) + ( X' X) −1 E ( X' ε ) = β.
23
[(
)] [
]
Propr )(
Var (βˆ ) = Ωβˆ = E β − βˆ β − βˆ ' = E ( X' X ) −1 X' εε ' X( X' X ) −1 = = ( X' X ) −1 X' E ( εε ') X( X' X ) −1.
−1 −1 2 ˆ Var(β )= ( X X' ) X ( ε' σ ) I (X X ) X' =( ε2σ
)X
X'
−1
.
cov(βˆ , e) = 0.
σˆ ε2 =
2 e ∑t
e'e = t n −k n −k
Var ( βˆ )
σ ε2
σˆ = σˆε ( X ' X ) . 2 βˆ
2
-1
24
Coeficientul de determinaţie R2 • Este o măsură a proporţiei varianţei explicate de model n
n
2 2 ˆ ( y − y ) e ∑ ∑ i i SSR =i 1 R2 = = i =1 = − 1 ∈2 [0,1 ] 2 SST y) ( yi − y) ∑ ( yi −numărului ∑de • R2 este afectat de creşterea parametri; de i
i
aceea pentru modele cu multi parametri se calculează R2 ajustat, care are aceeaşi interpretare.
n−1 R = 1 −(1 − R ) n − k 2 adj
2
n 1− 1∈ − ,1 n k− 25
Tabelul ANOVA
Source n
SSR = ∑ (Yˆi − Y )
2
i =1
n
SSE = ∑ e i =1
n
i
2
i =1
Testul
MSR MSE
SSE n−k
2
SST = ∑ ( iY − Y)
SSR F = k −1F ~ SSE n− k
SSR k −1
SST n −1
k-numărul de parametrii ai modelului
k −1n ,−k
este folosit la verificarea validităţii modelului. Un model este valid dacă proporţia varianţei 26 explicate prin model este semnificativă. Ipoteza nulă pentru testul F in cazul acesta
Testarea semnificaţiei parametrilor modelului θ ii =
−1 ˆ βi → N β,i σε ( X'X) ii
zi =
βi − βˆi σε
( X'X ) −1 ii
→ N(0,1).
H 27
Pentru −1 σˆ = σ ( X'X ) ii . 2 βˆi
ti =
2 e
βˆi − βi
σe
( X ' X
) ii −1
−1 ˆ β i − tα / 2; −n k σe ( X'X) ii
≤ βi ≤ ˆβi +t
(
/α2; n −k
1− eσ )X'X ii
28
Exemplu • O firmă vrea sa evalueze impactul publicităţii în radio şi presa scrisă asupra vînzărilor produselor sale. Sînt luate în calcul 3 variabile: • Y – valoarea vînzărilor(mii dolari) • X1- cheltuielile cu publicitatea prin radio(mii dolari) • X2 - cheltuielile cu publicitatea prin presa scrisă(mii dolari) • Sînt înregistrate, timp de o lună, valorile acestor 3 variabile în 22 de oraşe, aproximativ omogene din punctul de vedere al comportamentului consumatorilor. 29
-Modelul de regresie: Sales =β
0
ε+ + β 1 Radio+ β 2 Newspaper
30
Corelograma 3D
31
Rezultatul regresiei
32
Matricea X
33
Matricile X’X si X’X
-1
34
METODA CELOR MAI MICI PATRATE
35
Exemplu
36
Exemplu
37
38