Principal Component Analysis Intro

  • Uploaded by: simuworld
  • 0
  • 0
  • April 2020
  • PDF

This document was uploaded by user and they confirmed that they have the permission to share it. If you are author or own the copyright of this book, please report to us by using this DMCA report form. Report DMCA


Overview

Download & View Principal Component Analysis Intro as PDF for free.

More details

  • Words: 6,383
  • Pages: 124
主成分分析

•主成分分析 •主成分回归 •立体数据表的主成分分析

§1

基本思想

一项十分著名的工作是美国的统计学家斯通 (stone) 在 1947 年关于国民经济的研究。他曾利用 美国 1929 一 1938 年各年的数据,得到了 17 个反映 国民收入与支出的变量要素,例如雇主补贴、消费 资料和生产资料、纯公共支出、净增库存、股息、 利息外贸平衡等等。

在进行主成分分析后,竟以 97.4 %的精 度,用三新变量就取代了原 17 个变量。根据 经济学知识,斯通给这三个新变量分别命名 为总收入 F1 、总收入变化率 F2 和经济发展 或衰退的趋势 F3 。更有意思的是,这三个变 量其实都是可以直接测量的。斯通将他得到 的主成分与实际测量的总收入 I 、总收入变 化率

I 以及时间 t 因素做相关分析,得到

 

F1

F2

F3

i

i

t

F1

1

 

 

 

 

 

F2

0

1

 

 

 

 

F3

0

0

1

 

 

 

i

0.9 95

0.05 7

l

 

 

Δi

-0 .0 56

-0. 04 1 0.9 48

-0 .1 02

l

 

t

-0 .3 69

-0.1 2 4 -0.8 3 6

-0 .4 14

-0. 11 2

1

-0. 28 2

主成分分析是把各变量之间互相关联的复 杂关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分 析和研究问题,必须考虑许多经济指标,这些指 标能从不同的侧面反映我们所研究的对象的特征 ,但在某种程度上存在信息的重叠,具有一定的 相关性。

主成分分析试图在力保数据信息丢失最 少的原则下,对这种多变量的截面数据表进 行最佳综合简化,也就是说,对高维变量空 间进行降维处理。 很显然,识辨系统在一个低维空间要比 在一个高维空间容易得多。

在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组合 ,并且这几个线性组合所构成的综合指标将尽可能 多地保留原来指标变异方面的信息。这些综合指标 就称为主成分。要讨论的问题是:

(1) 基于相关系数矩阵还是基于协方差 矩阵做主成分分析。当分析中所选择的经济变 量具有不同的量纲,变量水平差异很大,应该 选择基于相关系数矩阵的主成分分析。

( 2 ) 选择几个主成分。主成分分析的 目的是简化变量,一般情况下主成分的个数 应该小于原始变量的个数。关于保留几个主 成分,应该权衡主成分个数和保留的信息。 ( 3 )如何解释主成分所包含的经济意 义。

§2

数学模型与几何解释

假设我们所讨论的实际问题中,有 p 个指 标,我们把这 p 个指标看作 p 个随机变量,记为 X1 , X2 ,…, Xp ,主成分分析就是要把这 p 个 指标的问题,转变为讨论 p 个指标的线性组合的 问题,而这些新的指标 F1 , F2 ,…, Fk(k≤p ) ,按照保留主要信息量的原则充分反映原指标的 信息,并且相互独立。

这种由讨论多个指标降为少数几个综合 指标的过程在数学上就叫做降维。主成分分析 通常的做法是,寻求原指标的线性组合 Fi 。 F1 = u11 X 1 + u21 X 2 +  + u p1 X p F2 = u12 X 1 + u22 X 2 +  + u p 2 X p  Fp = u1 p X 1 + u2 p X 2 +  + u pp X p

满足如下的条件: 每个主 成分的系数 平方和为 1 。即 u12i + u22i +  + u 2pi = 1 主成 分之间 相互 独立, 即无 重叠的 信息 。即 Cov(Fi,Fj)= 0,i ≠ j,i,j = 1, 2, ,p

主成 分的方 差依 次递减 ,重 要性依 次递 减,即 Var(F1)≥ Var ( F2 ) ≥  ≥ Var ( Fp )

平移、旋转坐标轴 x2

主 成 分 分 析 的 几 何 解 释

F2

•• • • • • • • • • • • •• •• • • •• • • • •• • • • • •• • • • • • •

F1

x1

平移、旋转坐标轴 x2

主 成 分 分 析 的 几 何 解 释

F2



• •• •• • • ••• • •• • • •• • • • •• • • • •• •• • • ••• • ••

F1

x1

平移、旋转坐标轴

F1

x2

主 成 分 分 析 的 几 何 解 释

F2

• • • • • • • • • • • •• • •

• • • •• • • • •• • •• • • • • •



x1

平移、旋转坐标轴 主 成 分 分 析 的 几 何 解 释

F2

x2

F1 •

• • • •• • • • • • • ••• •• • • • • • • ••• • • •• • •• • • •••• • • • • •• •• • • • • • • • ••• • • • • • • • • • • •• • • • • • • • • •• • • • • • • • • • •• • • • •• • •

x1

为了方便,我们在二维空间中讨论主成分的几何 意义。 设有 n 个样品,每个样品有两个观测变量 xl 和 x2 ,在由变量 xl 和 x2 所确定的二维平面中, n 个样本点 所散布的情况如椭圆状。由图可以看出这 n 个样本点无论 是沿着 xl 轴方向或 x2 轴方向都具有较大的离散性,其离 散的程度可以分别用观测变量 xl 的方差和 x2 的方差定量 地表示。显然,如果只考虑 xl 和 x2 中的任何一个,那么 包含在原始数据中的经济信息将会有较大的损失。



如果我们将 xl 轴和 x2 轴先平移,再同 时按逆时针方向旋转

角度,得到新坐标轴

Fl 和 F2 。 Fl 和 F2 是两个新变量。

根据旋转变换的公式:  y1 = x1 cosθ + x2 sin θ   y1 = − x1 sin θ + x2 cosθ  y1   cosθ  =  y2   − sin θ

sin θ  x1    = U′x cosθ  x2 

U′为旋转变换矩阵,它是正交矩阵,即有 U′ = U −1 , U′U = I

旋转变换的目的是为了使得 n 个样品 点在 Fl 轴方向上的离 散程度最大,即 Fl 的方 差最大。变量 Fl 代表了原始数据的绝大 部分 信息,在研究某经济问题时,即使不考虑变量 F2 也无损大局。经过上述旋转变换原始数据的 大部分信息集中到 Fl 轴上,对数据中包含的信 息起到了浓缩作用。

Fl , F2 除了可以对包含在 Xl , X2 中的信息 起着浓缩作用之外,还具有不相关的性质,这就 使得在研究复杂的问题时避免了信息重叠所带来 的虚假性。二维平面上的个点的方差大部分都归 结在 Fl 轴上,而 F2 轴上的方差很小。 Fl 和 F2 称 为原始变量 x1 和 x2 的综合变量。 F 简化了系统 结构,抓住了主要矛盾。

§3

主成分的推导及 性质

一、两 个线 性代数 的结 论 1 、若 A 是 p 阶实对称阵,则一定可以找到正交阵 U ,使

λ1 0 0 λ 2 −1  U AU =   0 0 

0  0     λ p  p × p 

其中 λi , i = 1.2. p 是 A 的特征根。

2 、若上述矩阵的特征根所对应的单位特征向量 为 u1 ,, up

 u11 u12  u1 p  u  u  u 22 2p  令 U = (u1 ,, up ) =  21     u  u  u p2 pp   p1 则实对称阵 A 属于不同特征根所对应的特征 向量是正交的,即有 U′U = UU′ = I

二、主成分的推导 (一 ) 第一主成 分

 σ 12 σ 12  σ 1 p  σ  2 σ  σ 2 2p 设 X 的协方差阵为 Σ x =  21      2  σ σ  σ p2 p   p1

由于 Σx 为非负定的对称阵,则有利用线性代数的 知识可得,必存在正交阵 U ,使得 λ1  U′Σ X U =    0

0   λ p 

其中 不妨假设

1 1



2

,…,

p

为 Σx 的特征根,

≥ λ2 ≥ … ≥λp 。而 U 恰好是由特征根

相对应的特征向量所组成的正交阵。

i

 u11 u12  u1 p  u  u  u 21 22 2p   U = (u1 ,, u p ) =     u  u  u p2 pp   p1 U i = ( u1i,u2i, ,u pi )



i = 1,2,, P

下面我们来看,是否由 U 的第一列元素所构成为原始 变量的线性组合是否有最大的方差。

(

设有 P 维正交向量 a1 = a11 , a21 ,, a p1

)



F1  a11 X 1    a p1 X p  aX

λ1    λ2  U′a1 V ( F1 ) = a1′Σa1 = a1′U       λ p   1   u1       2 u2     a  a1  u1 ,u 2 , ,up       1       p   up  

p

  iauiuia i 1

p

  i (aui ) 2 i 1

p

≤ λ1 ∑ (a′u i ) 2 i =1 p

= λ1 ∑ a′u iu′ia i =1

= λ1a′UU′a = λ1a′a = λ1

F1 = u11 X 1 +  + u p1 X p 当且仅当 a1 =u1 时,即

时, 有最大的方差

1

。因为 Var(F1)=U’1xU1=1 。

如果第一主成分的信息不够,则需要寻找第二主 成分。

(二)  第二主成分 在约束条件 cov( F1 , F2 ) = 0 下,寻找第二主成分

F2 = u12 X 1 +  + u p 2 X p 因为 cov( F1 , F2 ) = cov(u1′x, u2′ x) = u2′ Σu1 = λ1u2′ u1 = 0 所以 u2′ u1 = 0

u2 ,有 则,对 p 维向量 p

p

p

V ( F2 ) = u2′ Σu2 = ∑ λi u′2u i u′i u 2 = ∑ λi (u′2u i ) ≤ λ2 ∑ (u′2u i ) 2 i =1 i =1 2

i =2

p

= λ2 ∑ u′2u i u′i u 2 i =1

= λ2u′2 UU′u 2 = λ2u′2u 2 = λ2

所以如果取线性变换:F2 = u12 X 1 + u22 X 2 +  + u p 2 X p 则F2 的方差次大。 F1 = u11 X 1 + u21 X 2 +  + u p1 X p

类推

F2 = u12 X 1 + u22 X 2 +  + u p 2 X p  Fp = u1 p X 1 + u2 p X 2 +  + u pp X p

写为矩阵形式: F = U′X  u11 u12  u1 p  u  u  u 21 22 2p  U = (u1 ,, u p ) =      u  u  u p2 pp   p1 X = ( X 1 , X 2 ,, X p )′

§4 一、 均值

主成分的 性质

E (U′x) = U′µ

二、 方差 为所有 特征 根之和 p

∑ Var ( Fi )

i =1

= λ1 + λ2 +  + λ p = σ 12 + σ 22 +  + σ p2

说明主成分分析把 P 个随机变量的总方差分解 成为 P 个不相关的随机变量的方差之和。 协方差矩阵 的对角线上的元素之和等于特征根 之和。

三、 精度分 析

1 )贡献率:第 i 个主成分的方差在全部方差中所 占比重λi

p

∑ λi

i =1

,称为贡献率 ,反映了原来 P 个指标

多大的信息,有多大的综合能力 。 2 )累积贡献率:前 k 个主成分共有多大的综合能 力,用这 k 个主成分的方差和在全部方差中所占比重 k

p

i =1

i =1

∑ λi ∑ λi

来描述,称为累积贡献率。

我们进行主成分分析的目的之一是希望用尽可 能少的主成分 F1 , F2 ,…, Fk ( k≤p )代替原来的 P 个指标。到底应该选择多少个主成分,在实际工作中 ,主成分个数的多少取决于能够反映原来变量 80% 以 上的信息量为依据,即当累积贡献率≥ 80% 时的主成 分的个数就足够了。最常见的情况是主成分为 2 到 3 个。

四、原始变量与 主成分之间 的相关系数 Fj = u1 j x1 + u2 j x2 +  + u pj x p F = U′X

j = 1,2,, m, m ≤ p

UF = X

 x1   u11 u12  u1 p   F1   x  u  F  u  u 22 2p   2   2  =  21               x p  u p1 u p 2  u pp   Fp 

Cov( xi , Fj )  Cov(ui1F1  ui 2 F2    uip Fp , Fj )  uij  j uij  j uij  j  ( xi , Fj )   i j i xi F j和 可见, 的相关的密切程度取 决于对应线性组合系数的大小。

五、原始变 量被主成分 的提取率 前面我们讨论了主成分的贡献率和累计贡献率, 他度量了 F1 , F2 ,……, Fm 分别从原始变量 X1 , X2 ,…… XP 中提取了多少信息。那么 X1 , X2 ,… … XP 各有多少信息分别 F1 , F2 ,……, Fm 被提取了。 应该用什么指标来度量?我们考虑到当讨论 F1 分别与 X1 , X2 ,…… XP 的关系时,可以讨论 F1 分别与 X1 , X2 ,…… XP 的相关系数,但是由于相关系数有正有 负,所以只有考虑相关系数的平方。

Var ( xi )  Var (ui1F1  ui 2 F2    uip Fp ) 则

2 ui211  ui222    uim m    uip2  p   i2

uij2λ j 是 Fj 能说明的第 i 原始变量的方差 uij2λ j / σ i2是 Fj 提取的第 i 原始变量信息的比重

如果我们仅仅提出了 m 个主成分,则第 i 原始变量信息的被提取率为: m

m

Ωi = ∑ λ u / σ = ∑ ρ j =1

2 j ij

2 i

j =1

2 ij

例 设x1 , x2 , x3

的协方差矩阵为

 1 − 2 0 Σ = − 2 5 0   0 2  0

解得特征根为 λ1 = 5.83 , λ 2 = 2.00, λ3 = 0.17 ,,

 0.383  U1 = − 0.924    0.000 

0  U 2 = 0    1

0.924 U 3 =  0.383   0.000

第一个主成分的贡献率为 5.83/ ( 5.83+2.00+0.17 ) =72.875% ,尽管第一个主成分的贡献率并不小,但在本 题中第一主成分不含第三个原始变量的信息,所以应该取 两个主成分。

X i 与 F1 的

平方

相关系数

Xi 与 F2 的相 平方 信息提 取率 关系数

xi 1

ρ ( xi , F1 ) = ρ i1

0.925

0.855

0

0

0.855

2

-0.998

0.996

0

0

0.996

3

0

0

1

1

1

ρ i21

ρ ( xi , F2 ) = ρ i 2

ρ11 = λ1u11

σ 12 = 5.83 * 0.383 1 = 0.925

ρ12 = λ1u21

σ 22 = 2 * (−0.924)

ρ13 = 0

5 = −0.998

ρ i22

Ωi

定义:如果一个主成分仅仅对某一个原 始变量有作用,则称为特殊成分。如果一个 主成分所有的原始变量都起作用称为公共成 分。 ( 该题无公共因子)

六、载荷矩 阵

 u11 u12  u1m  u  u22  u2 m 21       u u   u p 1 p 2 pm  

§5

主成 分分析 的步 骤

一、基于协方差矩阵 实际问题中, X 的协方差通常是未知的,样品有 ′ X l = ( x1l,x2l, ,x pl ) (l = 1, 2, ,n) n 1   ∑ ( xil − xi )( x jl − x j )  Σˆ x =   n − 1 l =1  p× p

第一步:由 X 的协方差阵 Σx ,求出其特征根,即解 λ1 ≥ λ2 ≥  ≥ λ p ≥ 0 ΣI    0 方程 ,可得特征根 。

第二步:求出分别所对应的特征向量 U1 , U2 ,…, Up ,

Ui

= ( u ,u 1i

, ,u pi

2i

)′

第三步:计算累积贡献率,给出恰当的主成分个数 。 Fi = U′i X,i = 1, 2, ,k (k ≤ p )

第四步:计算所选出的 k 个主成分的得分。将原始数据的 中心化值 : X = Xi * i

− X = (x

1i

− x1,x2i − x2, ,x pi − x p

)′

代入前 k 个主成分的表达式,分别计算出各单位 k 个 主成分的得分,并按得分值的大小排队。

二、基于相关系数矩阵 如果变量有不同的量纲,则必须基于相关系数矩 阵进行主成分分析。不同的是计算得分时应采用标准化 后的数据。

例一 应收账款是指企业因对外销售产品、材 料、提供劳务及其它原因,应向购货单位或接受劳务的 单位收取的款项,包括应收销货款、其它应收款和应收 票据等。出于扩大销售的竞争需要,企业不得不以赊销 或其它优惠的方式招揽顾客,由于销售和收款的时间差 ,于是产生了应收款项。应收款赊销的效果的好坏,不 仅依赖于企业的信用政策,还依赖于顾客的信用程度。 由此,评价顾客的信用等级,了解顾客的综合信用程度 ,做到“知己知彼,百战不殆”,对加强企业的应收账 款管理大有帮助。某企业为了了解其客户的信用程度, 采用西方银行信用评估常用的 5C 方法, 5C 的目的是说 明顾客违约的可能性。

1 、品格(用 X1 表示),指顾客的信誉,履行偿 还义务的可能性。企业可以通过过去的付款记录得 到此项。 2 、能力(用 X2 表示),指顾客的偿还能力。即 其流动资产的数量和质量以及流动负载的比率。顾 客的流动资产越多,其转化为现金支付款项的能力 越强。同时,还应注意顾客流动资产的质量,看其 是否会出现存货过多过时质量下降,影响其变现能 力和支付能力。 3 、资本(用 X3 表示),指顾客的财务势力和财 务状况,表明顾客可能偿还债务的背景。 4 、附带的担保品(用 X4 表示),指借款人以容 易出售的资产做抵押。 5 、环境条件(用 X5 表示),指企业的外部因素,即 指非企业本身能控制或操纵的因素。

首先并抽取了 10 家具有可比性的同类企业作为 样本,又请 8 位专家分别给 10 个企业的 5 个指标 打分,然后分别计算企业 5 个指标的平均值,如 表。 76.5

81.5

76

75.8

71.7

85

79.2

80.3

84.4

76.5

70.6

73

67.6

68.1

78.5

94

94

87.5

89.5

92

90.7

87.3

91

81.5

80

84.6

66.9

68.8

64.8

66.4

77.5

73.6

70.9

69.8

74.8

57.7

60.4

57.4

60.8

65

85.6

68.5

70

62.2

76.5

70

69.2

71.7

64.9

68.9 ;

Total Variance = 485.31477778 Eigenvalues of the Covariance Matrix Eigenvalue Difference Proportion PRIN1 410.506 367.242 0.845854 0.84585 PRIN2 43.264 22.594 0.089146 0.93500 PRIN3 20.670 12.599 0.042591 0.97759 PRIN4 8.071 5.266 0.016630 0.99422 PRIN5 2.805 . 0.005779

X1 X2 X3 X4 X5

PRIN1 0.468814 0.484876 0.472744 0.461747 0.329259

Eigenvectors PRIN2 PRIN3 -.830612 0.021406 0.329916 0.014801 -.021174 -.412719 0.430904 -.240845 0.122930 0.878054

Cumulative

1.00000

PRIN4 PRIN5 0.254654 -.158081 -.287720 -.757000 -.588582 0.509213 0.706283 0.210403 -.084286 0.313677

第一主成份的贡献率为 84.6% ,第一主成份 Z1=0.469X1+0.485X2+0.473X3+0.462X4+0.329X5 的各项系数大致相等,且均为正数,说明第一主成份对所 有的信用评价指标都有近似的载荷,是对所有指标的一个综 合测度,可以作为综合的信用等级指标。可以用来排序。将 原始数据的值中心化后,代入第一主成份 Z1 的表示式,计 算各企业的得分,并按分值大小排序 : 序号

1

2

3

4

5

6

7

8

9

10

得分

3.16

1 3.6

-9. 0 1

35.9

2 5.1

-1 0.3

-33. 8

4

3

7

1

2

8

6.4 1 6

-13 . 8

排序

4.3 6 5

10

9

在正确评估了顾客的信用等级后,就能正确制定出对其的信用期、收 帐政 策等,这对于加强应收帐款的管理大有帮助。

例二 基于相关系数矩阵的主成分分析。对美国纽约上市 的有关化学产业的三个证券和石油产业的 2 个证券做了 100 周 的收益率调查。下表是其相关系数矩阵。 1 )利用相关系数矩阵做主成分分析。 2 )决定要保留的主成分个数,并解释意义。 1

0.577

0.509

0.0063

0.0037

0.577

1

0.599

0.389

0.52

0.509

0.599

1

0.436

0.426

0.387

0.389

0.436

1

0.523

0.462

0.322

0.426

0.523

1

Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 2.85671 2.04755 0.571342 0.57134 PRIN2 0.80916 0.26949 0.161833 0.73317 PRIN3 0.53968 0.08818 0.107935 0.84111 PRIN4 0.45150 0.10855 0.090300 0.93141 PRIN5 0.34295 . 0.068590 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.463605 -.240339 -.611705 0.386635 -.451262 X2 0.457108 -.509305 0.178189 0.206474 0.676223 X3 0.470176 -.260448 0.335056 -.662445 -.400007 X4 0.421459 0.525665 0.540763 0.472006 -.175599 X5 0.421224 0.581970 -.435176 -.382439 0.385024

§6

主成分分析主要有以下几方面的应用

根据主成分分析的定义及性质,我们已大体上能看 出主成分分析的一些应用。概括起来说,主成分分析主要有 以下几方面的应用。 1 .主成分分析能降低所研究的数据空间的维数。即用 研究 m 维的 Y 空间代替 p 维的 X 空间 (m < p) ,而低维的 Y 空间代替 高维的 x 空间所损失的信息很少。即:使只有 一个主成分 Yl( 即 m = 1) 时,这个 Yl 仍是使用全部 X 变 量 (p 个 ) 得到的。例如要计算 Yl 的均值也得使用全部 x 的 均值。在所选的前 m 个主成分中,如果某个 Xi 的系数全部 近似于零的话,就可以把这个 Xi 删除,这也是一种删除多 余变量的方法。

2 .有时可通过因子负荷 aij 的结构,弄清 X 变量间 的某些关系。 3. 多维数据的一种图形表示方法。我们知道当维数 大于 3 时便不能画出几何图形,多元统计研究的问题大 都多于 3 个变量。要把研究的问题用图形表示出来是不 可能的。然而,经过主成分分析后,我们可以选取前两 个主成分或其中某两个主成分,根据主成分的得分,画 出 n 个样品在二维平面上的分布况,由图形可直观地看 出各样品在主分量中的地位。

4 .由主成分分析法构造回归模型。即把各主 成分作为新自变量代替原来自变量 x 做回归分析。 5 .用主成分分析筛选回归变量。回归变量的 选择有着重的实际意义,为了使模型本身易于做结 构分析、控制和预报,好从原始变量所构成的子集 合中选择最佳变量,构成最佳变量集合。用主成分 分析筛选变量,可以用较少的计算量来选择量,获 得选择最佳变量子集合的效果。

主成分回归介绍

一、提出问 题 国际旅 游外汇收入 是国民收入 是国 民经济 发展的重要 组成部分, 影响一个 国家 或地区 旅游收入的 因素包括自 然、文化 、社 会、经 济、交通等 多方面的因 素。《中 国统 计年鉴 》把第三次 产业划分为 12 个组成部 分,分 别为:

x1 :农林牧 渔服务 业

x2 :地 质

勘查 水利 管理业 x3 :交通运 输仓储 和邮 电通讯 业

x4 :批 发零 售贸易和

餐食 业 x5 :金融保 险业

x6 :

房地 产业 x7 :社会服 务业

x8 :

卫生 体育 和社会 福利 业 x9 :教育文 艺和广 播

x10 :科

学研 究和 综合艺 术 x11 :党 政机 关

x12 :

Intercept X Variable 1 X Variable 2 X Variable 3 X Variable 4 X Variable 5 X Variable 6 X Variable 7 X Variable 8 X Variable 9 X Variable 10 X Variable 11 X Variable 12

Coefficients -205.236 -1.40045 2.675001 3.300877 -0.94402 -5.5016 4.054434 4.142 -15.3649 17.36766 9.078883 -10.58 1.350709

标准误差 116.8459 22.8676 18.57508 2.464556 1.296117 4.508593 3.953745 5.069984 10.82589 8.35337 10.14728 5.610696 5.001504

t Stat -1.75646 -0.06124 0.14401 1.339339 -0.72834 -1.22025 1.025467 0.816965 -1.41927 2.079121 0.894711 -1.88569 0.27006

P-value 0.096008 0.951842 0.887092 0.197128 0.475774 0.238117 0.318728 0.42463 0.172905 0.052178 0.38275 0.075582 0.790186

这个模型是不理想的,一个最严重的问题是多重共线 性的问题。

线性回归模型的方差分析表 方差来源

自由度

离差 平方和

方差

F 统计量

显著性 水平

回归分析

12

11690140

974178.3

10.51335

8.15025E06

残差

18

1667899

92661.04

总计

31

13358039  

利用主成分的互不相关性来建立应变量与主成 分的回归,在理论上可以达到消除多重共线性。

二、主 成分 回归方 法

F1 = u11 X 1 + u21 X 2 +  + u p1 X p F2 = u12 X 1 + u22 X 2 +  + u p 2 X p  Fp = u1 p X 1 + u2 p X 2 +  + u pp X p

主成分回归:Yi *   1F11   2 F12     m F1m   i n

  Y i 1

i

*

  1Fi1   2 Fi 2     m Fim 

2

 min

原始数据观测矩阵

主成分系数矩阵

 x11  x 21  X0     x  n1

x12  x1 p  x22  x2 p     xn 2  xnp 

 u11 u12  u1 p  u  u  u 21 22 2p   U = (u1 ,, u p ) =     u  u  u p2 pp   p1

主成分得分矩阵

 F11 F 21 F=   F  n1

F = X0 U

F12  F1 p  F22  F2 p     Fn 2  Fnp 

根据最小二乘估计,则 基于协方差矩阵的主成分回归

基于相关系数矩阵的主成分回归

γˆ = (F′F) −1 F′Y

γ(U  X X0 U)0 U1X Y0  U(X0 X0 )−1 UUX0 Y = U′βˆ 同理

γˆ * = U*'βˆ *

ˆ  F) F1Y  γ(F ˆ *  F *') *F 1Y *' γ(F

主成分回归系数的协方差矩阵 ˆ )  Var Var ( γUβ

 ˆ 

 UVar ( ˆ )U  UVar  ( X0 X0 ) 1 X0 Y  U  UVar  ( X0 X0 ) 1 X0 Y  U  1 1           U Var  ( X0 X0 ) X0  Var  Y   ( X0 X0 ) X0  U   2 U  ( X0 X0 ) 1 X0   ( X0 X0 ) 1 X0   U

1     U ( X0 X0 ) U 2

  (UX0 X 0 U ) 2

1

  2 (F 'F ) 1 * 2 ˆ 同理Var ( γF) F (

*'

* 1

)

λˆ1  λˆ2 p F′F ≈ (n − 1)    



     ˆ λp 

σ 2 (n − 1) λˆ1    2 ˆ σ (n − 1) λ2   Var ( γ ) =      2 ˆ σ (n − 1) λ p  



λˆ1*  * ˆ λ 2 F*'F* ≈ (n − 1) p     

    *  ˆ λp 

σ 2 (n − 1) λˆ1*    2 * ˆ σ (n − 1) λ2 *   Var ( γ ) =     2 *  ˆ σ (n − 1) λ p  

三、主成分回归的实例 1 、经济分析数据 Y :进口总额 X1 : GDP X2 :积累总额 X3 :消费总额 求进口总额与 GDP 、积累总额和消费总 额之间的回归方程。

data a; input x1-x3 y;

proc reg outest=b;

cards;

model y=x1-x3/pcomit=1,2 outvif;

149.3 4.2 108.1 15.9 161.2 4.1 114.8 16.4

proc print data=b;

171.5 3.1 123.2 19.0

proc standard data=a out=c mean=0 std=1;

175.5 3.1 126.9 19.1

var x1-x3 y;

180.8 1.1 132.1 18.8

proc princomp data=c out=d prefix=z;

190.7 2.2 137.7 20.4

var x1-x3;

202.1 2.1 146.0 22.7 212.4 5.6 154.1 26.5

proc reg data=d;

226.1 5.0 162.3 28.1

model y=z1 z2/noint;

231.9 5.1 164.3 27.6

run;

239.0 0.7 167.6 26.3 ;

Analysis of Variance                                                               Sum of           Mean   Source           DF        Squares         Square    F Value    Pr > F   Model             3        204.77614       68.25871     285.61    <.0001   Error              7         1.67295        0.23899  Corrected Total    10      206.44909                                     

Root MSE                  0.48887      R-Square     0.9919 Dependent Mean       21.89091    Adj R-Sq     0.9884 Coeff Var                   2.23321                                      Parameter Estimates                                  Parameter       Standard    Variable     DF       Estimate          Error    t Value    Pr > |t|   Intercept     1      -10.12799        1.21216      -8.36      <.0001   x1                1       -0.05140          0.07028      -0.73      0.4883   x2                1        0.58695          0.09462       6.20      0.0004   x3                1        0.28685          0.10221       2.81      0.0263

                                    Eigenvalues of the Correlation Matrix                                                                 Eigenvalue    Difference         Proportion    Cumulative                         1    1.99915493    1.00100076        0.6664        0.6664                         2    0.99815418    0.99546329        0.3327        0.9991                         3    0.00269089                               0.0009        1.0000 Eigenvectors                                                          F1            F2            F3                                            x1      0.706330      -.035689      0.706982                                            x2      0.043501      0.999029      0.006971                                            x3      0.706544      -.025830      -.707197

                       Obs       x1               x2          x3                 y*                 F1            F2              F3                       1    -1.50972     0.54571    -1.53319    -1.31852    -2.12589     0.63866     0.020722                        2    -1.11305     0.48507    -1.20848    -1.20848    -1.61893     0.55554     0.071113                        3    -0.76971    -0.12127    -0.80140    -0.63625    -1.11517    -0.07298     0.021730                        4    -0.63637    -0.12127    -0.62209    -0.61424    -0.89430    -0.08237    -0.010813                        5    -0.45970    -1.33395    -0.37008    -0.68027    -0.64421    -1.30669    -0.072582                        6    -0.12970    -0.66697    -0.09869    -0.32813    -0.19035    -0.65915    -0.026553                        7     0.25031    -0.72761     0.30355     0.17807     0.35962    -0.74367    -0.042781                        8     0.59365     1.39458     0.69610     1.01440     0.97180     1.35406    -0.062863                        9     1.05032     1.03078     1.09350     1.36654     1.55932     0.96405    -0.023574                       10     1.24366     1.09141     1.19042     1.25649     1.76700     1.01522     0.044988                       11     1.48033    -1.57648     1.35035     0.97038     1.93110    -1.66266     0.080613

 Analysis of Variance                                                                       Sum of           Mean   Source                   DF        Squares         Square    F Value    Pr > F    Model                     2        9.88278        4.94139     379.38    <.0001   Error                       9        0.11722        0.01302   Uncorrected Total   11       10.0000                                    Parameter Estimates                                 Parameter       Standard   Variable     DF       Estimate          Error    t Value    Pr > |t|     F1            1        0.68998        0.02552      27.03      <.0001     F2            1        0.19130        0.03612       5.30      0.0005

yˆ ∗ = 0.68998 F1 + 0.19130 F2

yˆ ∗ = 0.4804 x1* + 0.2211x2* + 0.4825 x3*

Obs 1 2 3 4 5

MODEL TYPE MODEL1 PARMS MODEL1 IPCVIF MODEL1 IPC MODEL1 IPCVIF MODEL1 IPC

DEPVAR y y y y y

PCOMIT . 1 1 2 2

RMSE 0.48887 . 0.55001 . 1.05206

Intercept -10.128 . -9.1301 . -7.7458

x1 -0.0514 0.25083 0.07278 0.24956 0.07381

x2 0.58695 1.00085 0.60922 0.00095 0.08269

1 VIF = 1 − R 2j 一般建议,当 VIF>10 时,多重共线性是严重的。

yˆ = −9.130 + 0.0727 x1 + 0.6091x2 + 0.1062 x3 可见,系数的符号没有与经济概念相悖。

x3 0.28685 0.25038 0.10626 0.24971 0.10735

2 、朗莱用美国联邦政府雇员人数 Y 和国民总产 出隐含平减指数 X1 ,国民总产出 X2 ,失业人数 X3 ,武 装力量人数 X4 , 14 岁及以上非慈善机构人口数 X5 , 时间变量 X6 。朗莱所用数据是美国 47—62 年数据,该 例是主成分回归用得较早的例子。

y 1892 1863 1908 1828 2302 2420 2305 2188 2187 2209 2217 2191 2233 2270 2279 2340

x1 83 88.5 88.2 89.5 96.2 98.1 99 100 101.2 104.6 108.4 110.8 112.6 114.2 115.7 116.9

x2 234289 259426 258054 284599 328975 346999 365385 363112 397469 419180 442769 444546 482704 502601 518175 554894

x3 2356 2325 3682 3351 2099 1932 1870 3578 2904 2822 2936 4681 3813 3931 4806 4007

x4 1590 1456 1616 1650 3099 3594 3547 3350 3048 2857 2798 2637 2552 2514 2572 2827

x5 107608 108632 109773 110929 112075 113270 115094 116219 117388 118734 120445 121950 123366 125368 127852 130081

x6 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1950 1660 1961 1962

Eigenvalues of the Correlation Matrix (相关系数矩阵的特征根)

Eigenvalue

Difference

(特征根)

Proportion ( 差值)

Cumulative ( 贡献率)

贡献率) 1

4.60337745

3.42803711

0.7672

0.7672

2

1.17534035

0.97191518

0.1959

0.9631

3

0.20342517

0.18849689

0.0339

0.9970

4

0.01492828

0.01237624

0.0025

0.9995

5

0.00255204

0.00217533

0.0004

0.9999

6

0.00037671

0.0001

1.0000

(累计

 Eigenvectors (特征向 量)

                                 Prin1              Prin2            Prin3          Prin4          Prin5          Prin6

                      x1      0.461835      0.057843      -.149120      -.792874      0.337934      -.135193                       x2      0.461504      0.053211      -.277681      0.121625      -.149550      0.818485                       x3      0.321317      -.595513      0.728306      -.007645      0.009235      0.107451                       x4      0.201510      0.798193      0.561607      0.077255      0.024253      0.017970                       x5      0.462279      -.045544      -.195985      0.589743      0.548569      -.311589                       x6      0.464940      0.000619      -.128116      0.052285      -.749556      -.450388

F1 = 0.461835 x1* + 0.461504 x2* + 0.321317 x3* + 0.20151x4* + 0.462279 x5* + 0.464940 x6* F2 = 0.057843x1* + 0.053211x2* − 0.595513x3* + 0.798193x4* − 0.045544 x5* + 0.000619 x6*

Prin1 Prin6

Prin2

Prin3

Prin4

Prin5

3.47885 -0.75147 -0.002579

-0.30795

0.16424

0.008797

3.01051 -0.84904 -0.011980

-0.64223

-0.12592

0.061546

2.34330 -1.54000 -0.005062

0.49343

0.00882

0.005746

2.09390 -1.27632 0.013677

0.11129

0.06126

-0.061845

1.43824 1.23579 0.042682

0.02909

-0.09746

0.052257

0.09951 0.69349 0.018926

0.09757

0.10111

-0.098808

0.44943 0.54784 -0.014139

-0.29295

-0.01756

-0.083762

0.95506 0.42945 -0.027154

-0.44524

-0.11933

-0.023694

……

                                                              Sum of           Mean                           Source                   DF        Squares         Square    F Value    Pr > F                           Model                     6         498504          83084      47.22    <.0001                           Error                      9          15836     1759.57184                           Corrected Total     15         514340                                                       Parameter Estimates                                                            Parameter       Standard                                Variable     DF       Estimate          Error    t Value    Pr > |t|                                Intercept     1         386505         122516       3.15      0.0116                                x1                 1       13.71162       11.68424       1.17      0.2707                                x2                1        0.00846         0.00461         1.84      0.0995                                x3                1        0.09405         0.06720         1.40      0.1952                                x4                1        0.20562         0.02948         6.97      <.0001                                x5                1       -0.00435         0.03111         -0.14      0.8918                                x6                1     -199.20213       62.67100      -3.18      0.0112

_MODEL_ _TYPE_ _PCOMIT_ _RMSE_ MODEL1 PARMS . 41.9473 MODEL1 IPCVIF 1 . MODEL1 IPC 1 47.8401 MODEL1 IPCVIF 2 . MODEL1 IPC 2 58.5686 MODEL1 IPCVIF 3 . MODEL1 IPC 3 56.9331

Intercept 386504.91 . 176723.59 . -7444.27 . -9223.76

x1 13.7116 87.0179 27.7054 42.2698 8.2039 0.1585 2.9078

x2 0.0085 10.1823 -0.0007 1.4186 0.0002 0.4277 0.0003

x3 0.09405 2.96899 -0.03439 2.93557 -0.04055 2.93165 -0.04114

x4 0.20562 2.73164 0.17677 2.50115 0.15507 2.10135 0.16307

x5 -0.004 141.452 0.046 23.535 -0.003 0.237 0.003

x6 -199.202 220.461 -93.531 0.311 4.515 0.128 5.307

SAS 的回归分析( REG )过程中,带有主成分回归的功能, 在这个功能中, SAS 不仅用因变量的标准化值建立了与主成分之间 的回归方程,并且将回归方程还原为以原始变量为自变量,以因变 量 Y 为被解释变量的模型。

据 的 浅 主 谈 成数时 分 序 分 立 析 体

前面介绍的主成分分析方法,成功地实现了截面数 据的最佳综合和简化。然而,在现实生活中,随着时间的发展 于数据的积累,人们开始拥有大量按时间顺序排列的平面数据 表序列,这样一组按时间顺序排放的数据表序列就像一个数据 匣,被称为时序立体数据表。 本章将介绍如何对这种多维动态数据系统进行立体式 的综合简化,并在此基础上,迅速提取立体数据表中的重要信 息,充分发掘其中的丰富内涵,从而简化扼要地把握系统的动 态规律。

第一节

全局分析的概念

时序立体数据表时一个按时间顺序排放的数 据表序列。如果对每一张数据表分别进行主成分分 析,则不同的数据表有完全不同的简化空间,就无 法保证系统分析的统一性、整体性和可比性。因此 ,对这种数据表进行主成分分析,得到一个统一的 简化子空间。 一、  全局概念 p T 假设有n 个样本, 个指标,时间的跨度为 K 时序立体数据表 , K = { X t ∈ R n× p , t = 1,2, T }



x1 , x2 ,, xn 若以 ,在 X t 时刻数据表中

x  x    t  xn1

t 11 t 21

t 12 t 22

x

x  x

t n1

 x   e1t    t  x  e2  =      t t   xnp  en  t 1p t 2p

t 为变量的指标

t = 1,2,, T

对上列数据的分析称为全局分析。

二、 全局变量 全局群点在 j 指标上的取值分布被称为全局变量 ,表示为

[

]

x j = x11 j  x1nj

T x12j  xnj2  x1Tj  xnj 1×nT

三、全局重心 全局数据表的重心为 g = (x

1

x2  x p T

n

)′ (列向量)

其中:x j = ∑ ∑ pit xijt t =1 i =1

权数应该根据不同时刻的重要性来决定 , 也 可以等权 , 等权时 , 均值为 : T

n

x j = ∑ ∑ xijt / Tn t =1 i =1

t

时刻 t 的数据表重心为 t t t t ′ g = ( x1 x2  x p )

n

x = ∑ xijt / n t j

i =1

四、全局方差 全局变量的方差 : T

n

V = VAR( x j ) = ∑ ∑ pit ( xijt − x j ) 2 t =1 i =1

五、全局协方差 全局变量的协方差为: T

n

sij = Cov ( xk , x j ) = ∑ ∑ pit (( xijt − x j )( xikt − xk ) t =1 i =1

全局协方差矩阵: V = ( s jk ) p× p

第二节

全局主成分分 析

一、全局主成分分析的步骤为 ( 1 ) 求全局相关系数矩阵 R = (γ jk ) p× p R = (γ jk ) p× p ( 2 )求

不妨假设 :

λ1,λ2, ,λ p 的特征根

λ1 ≥ λ2 ≥  ≥ λ p ≥ 0

和对应的特征向量

 u11 u12  u1 p  u  u  u 21 22 2p U = (u1 ,, up ) =      u  u  u p2 pp   p1 U i = ( u1i,u2i, ,u pi )′

第三节

对经典主成分分析的继承性

一、全局主成分一定对应于数据变易最大的方 向 Var ( F1 ) ≥ Var ( F2 ) ≥  ≥ Var ( Fm ) 二、全局主成分是对原始变量系统的最佳综合 在全局主成分分析中,还可以证明,若全局数 x1 , x2 ,, x p 据表种有 p 个变量 ,如果想以 x1 , x2 ,, x p 一个综合变量来取代原来所有的全局变量 ,则第一个主成分 F1 就是最好的选择。

2

2 2 n u λ   u λ 2 ∑ ρ ( xi , F1 ) = ∑  i1 1  = ∑ i1 1 = λ1 i =1 i =1 σ  i λ1  i =1 σ i λ1 p

p

这个结论可以推广到 m 维空间: 2

2 2 m p u λ   u λ 2 ∑ ∑ ρ ( xi , F1 ) = ∑ ∑  i1 1  = ∑ ∑ i1 1 = λ1 +  + λm h =1i =1 h =1i =1 σ  i λ1  h =1i =1 σ i λ1 m p

m p

三、全局分析与单张数据表分析的联系 (j=1,2,…,m) 是全局特征值



j

 u11 u12  u1 p  u u22  u2 p  21 为全局特征向量 U = (u1 ,, u p ) =      u  u  u p2 pp   p1

λtj (j=1,2,…,m) 是第 t 时刻的数据表所计算的特征 值 t t  u11 u12  u1t p   t t t  u21 u22  u2 p  t t t  U = (u1,, u p ) = 为t时刻数据表特征向量       t t t  u p1 u p1  u pp 

1T p t 2 1T t λh = ∑ ∑ λ jγ (uh , u j ) + ∑ [ Ph ( g t ) − Ph ( g )]2 T t =1 j =1 T t =1

上式反映了全局第 h 个主成分与单张数据表个主成分 之间的数量关系。特别当 h=1 时:

1T p t 2 1T t λ1 = ∑ ∑ λ jγ (u1 , u j ) + ∑ [ P1 ( g t ) − P1 ( g )]2 T t =1 j =1 T t =1

因此,如果各年数据表的重心在第一主成分上的投影 不发生改变,则

1T p t 2 λ1 = ∑ ∑ λ jγ (u1 , u tj ) = max T t =1 j =1 说明,第一主成分与单张数据表的主成分之间最相关。

第四节

精度分析

一、 全局精度 以数据变异的大小来恒量数据中的信息量 m

p

i =1

j =1

Qm = ∑ λi ∑ S 全局精度 2 j

如果变量已经被标准化,则精度为: m

Qm = ∑ λi p i =1

二、数据表 Xt 的表现精度 N It = {eti , i = 1,2,, n} 数据表 Xt 的表现精度是指群点 在全局主成分上的近似精度。令 Fh (t , i ) 表中的 第 i 个样本在全局第 h 个主成分的得分。 F t 表中在全局主成分结构 中的方差 1n V = ∑ [ Fh (t , i ) − Fh (t )]2 n i =1 1n t = ∑ [(ei − g )′uh − (g t − g )′u h ]2 n i =1 1n t t = ∑ [(ei − g t )′u h ]2 = u′h V u h n i =1 t h

是第 t 张

原始数据利用全局指标标准化

t x ij − x j t ~ xij = Sj

t S 1 n ~t t ~ 方差为:Var ( x j ) = ∑ [ xij − E ( ~ x jt )]2 = ( j ) 2 n i =1 Sj

1 n x − xj x − xj 2 = ∑[ − ] i = 1 n Sj Sj t ij

1 x −x = ∑  n i =1 S j t ij

n

m

t j

t j

2

 S tj 2  =( )  Sj 

p

qt = ∑ u′h V u h ∑ ( S tj / S j ) 2 h =1

t

j =1

第五节

数据主要特征的动态分 析

为了迅速把握多维动态数据群种的主要 信息,还应该对数据系统的主要特征进行动态分 析研究。 N 1) g , t =1,2,, T 数据群点有如下特征: ( 的总体水平 t I

t

t N (I 2 ) t N ( I3 )

utj的主轴 , j = 1,2,, p, t = 1,2,, T utj的主轴 , j = 1,2,, p, t = 1,2,, T

λtj , j = 1,2,, p; t上 = 1,2, ,n 的分布偏差 t N (I 4 ) 置和排列顺序。

中各样本点间的相对位

一、总体水平 N It g t ∈ R p , t = 1,2,, T 第 t 年数据群点 的总体水平为 。可以从三个方面研究其动态数据信 息。

1 2 t g , g ,  , g (1)

的时序轨迹

( 2 ) 对于 1 一 p 个变量指标,研究哪一个指标 一 T 年间发生 的变化最大。

首先, j 指标在 1 一 T 年间的变化可以用 aj 表示,有 T n 1T t 2 a j = ∑ ( x j − x j ) x j = ∑ ∑ pit xij是全局重心g的j分量。 t =1 i =1 T t =1

所有指标在 1—T 年的变化为 a 表示,有 1 T p t a j = ∑ ∑ ( x j − x j )2 Tp t =1 j =1 aj cj = a

j = 1,2,, p

使 cj 最大的指标 xj ,在 1—T 年发生的变 化最大, 在经济系统分析中,过大过小的 cj 都应是分析 人员关注的对象。 xt ( 3 ) 从 1—T 年,研究在哪一年j 发生了较大 的变化。这是比值,比 cj 更加深入的分析。

c

t +1 j

=

(x

t +1 j

−x )

t 2 j

1 T −1 t +1 t 2 ∑ (xj − xj ) T − 1 t =1

c tj+1则说明 j 指标在 t~t+1 年间的变化比其它年间更大。

uth 二、主轴 对第 t 年的数据表 xt 做平面主成分分析,可以得 t t λ uh , h = 1,2,, p h , h = 1,2,, p 到一组主轴 ,对应的有特 征值 ut h



分析 是如何随时间变化的,可以了解数据的主要 特征发展变化的历史过程。

t u 1 从前面的分析可以知道, 是第 t 年数据变 异最大的方向,数据在这个方向被拉得最长。如果 研究国民生活水平的话,则在这一方向人们生活水 t F 平的差距最大,所以, 1 是最能反映国民生活水 t t u F 平的主要特征。与 1 对应的是主成分 。 1

数据的主要特征随时间的发展会发生变化,这 1 2 T u , u ,  , u 个变化可以通过h h 的变化过程来 h 观察。特别对于第一、第二主轴 ( 即 h = 1,2) ,以 及后续含数据信息量较大的那些主轴,更应给予重 点研究。

t λ 三、方差 j

的变化

在数据表由 x1 , x2 ,…, xT 的 变化过程中,除了需要研究数据 的主要特征 随时间的变化以外,还要分析数据在主轴上 的分布方差是否发生了较大的变化。 分别从以下三个指标来观察数据在主 轴散布范围发生的变化。

( 1 )在 h 轴上,数据的分散程度的 差分

∆λth+1 = λth+1 − λth t +1 u ( 2 )比较在 t+1 年,哪个主轴 h

的散布范围较大 t +1

Lh =

∆λth+1 1 p t +1 ∑ ∆λh p j =1

( 3 )比较 1 ~ T 年间,哪个主轴的 T −1 分散范围较大 t +1 Lth+1 =

∑ ∆λh

t =1

1 T −1 p t +1 ∑ ∑ ∆λh p t =1 j =1

四、样本点间相对位置和排列顺序的变化 N It 随着时间的发展,群点 在某一方向上的 相对位置和排列 顺序也会发生变化。例如,改革开放 以来,我国沿海城市经济发展速度较其他地区的城市 要快,特别在对外贸易方面,其发展更为显著。如果 第一主轴反映了城市经济的综合实力,则在这个轴上 可以看出,在不同的年份上,各城市由于发展速度不 一,因此,相对位置和顺序都有变化,沿海城市的经 济实力显然日趋向前。

如何反映样本点间位置和顺序的变化呢 ? 有一个要点必须注意,这就是必须在同一的轴上比 较样本点的位置和顺序,因此,取全局主成分分析 t u e 的第 h 主轴 ,它对所有时刻的数据表都是同i h 一的。 在其上的投影为 F (t , i ) = (e − g)T u h

t e 1、 i

i

uh 在

h

上的投影坐标是否有明显移动 ′ ( ) Fh (t ) = Fh (t ,1), Fh (t ,2), Fh (t , n) 1T bi = ∑ Fh (t , i ) T t =1

1T 1 nT 2 2 ∑ ∑ ∑ [ [ Bi = Fh (t , i ) − bi ] / Fh (t , i ) − bi ] T t =1 nT i =1t =1 Bi 表示1~T年间ei (i = 1,2,, n)的位移是否显著。 2 、样本点排列顺序的改变 ′ ( ) Fh (t ) = Fh (t ,1), Fh (t ,2), Fh (t , n)

下例是我国 1998 年和 1999 年城镇居 民分地区的消费支出资料: X1: 食品支出 X2 :衣着支出 X3 :家庭设备用品及服务支出 X4 :医疗保健支出 X5 :交通和通讯支出 X6 :娱乐教育文化支出 X7 :居住支出 X8 :杂项商品支出 进行主成分分析,并比较全局主成 分分析和单张数据表主成分分析的结果。

Eigenvalues of the Correlation Matrix ( 全局主成分特征根) A1 A2 A3 A4 A5 A6 A7 A8

Eigenvalue Difference Proportion Cumulative 6.99125 6.44329 0.873906 0.87391 0.54796 0.39531 0.068495 0.94240 0.15266 0.03019 0.019082 0.96148 0.12247 0.03972 0.015309 0.97679 0.08275 0.02042 0.010344 0.98714 0.06233 0.02190 0.007792 0.99493 0.04044 0.04030 0.005055 0.99998 0.00014 . 0.000018 1.00000

全局主成分特征向量 A1 X1 0.374493 -.894875 X2 0.346007 0.358262 X3 0.311984 0.061138 X4 0.362343 0.185796 X5 0.360705 0.083447 X6 0.345751 0.057272 X7 0.364743 0.082907 X8 0.358775 0.124385

A2 A3 A4 A5 A6 A7 -.172257 0.030143 0.136213 0.076849 0.062345 0.005073 -.445411 0.024956 0.532852 0.438070 0.136731 -.241623 0.710728 0.411674 0.164345 0.360232 -.055544 0.253882 -.194425 0.293868 0.105955 -.623604 0.310654 0.461967 -.096981 0.484438 -.536079 -.081534 -.154719 -.548523 0.425463 -.516114 -.016448 -.203576 0.488600 -.386444 0.060889 -.332168 0.215494 -.291244 -.784080 0.002187 -.186733 -.362278 -.570254

0.388105 0.019425 0.462062

A8

Eigenvalues of the Correlation Matrix 98 年数据表的主成分分析 B1 B2 B3 B4 B5 B6 B7 B8

Eigenvalue 7.10592 0.51643 0.12444 0.10014 0.07694 0.05662 0.01942 0.00010

Difference 6.58949 0.39198 0.02430 0.02320 0.02031 0.03721 0.01932 .

Proportion 0.888240 0.064553 0.015555 0.012517 0.009617 0.007078 0.002427 0.000012

Cumulative 0.88824 0.95279 0.96835 0.98087 0.99048 0.99756 0.99999 1.00000

Eigenvectors 98 年数据表的主成分分析 B1

B2

B3

B4

B5

B6

B7

B8

X1 0.372150 -.159966 -.071551 -.057458 0.102394 0.118105 -.006808 -.896111 X2 0.349028 -.418593 -.335008 -.152609 0.517027 0.310746 0.279572 0.354117 X3 0.312789 0.729505 0.271016 -.034411 0.496477 0.150524 -.151145 0.057958 X4 0.365701 -.120455 0.051476 -.389966 -.416759 0.320595 -.618933 0.193606 X5 0.361312 -.092321 0.626102 -.266618 -.242140 -.169833 0.551419 0.079394 X6 0.347155 0.403651 -.479912 0.280454 -.487565 0.195188 0.358038 0.059746 X7 0.364365 0.038843 -.325100 -.154922 0.069968 -.833079 -.175368 0.079806 X8 0.352541 -.282022 0.280252 0.803997 0.027822 -.055566 -.229918 0.120426

Eigenvalues of the Correlation Matrix ( 99 年数据表的主成分分析) C1 C2 C3 C4 C5 C6 C7 C8

Eigenvalue 6.94378 0.60308 0.16008 0.11773 0.08848 0.05292 0.03377 0.00015

Difference 6.34070 0.44301 0.04235 0.02925 0.03556 0.01915 0.03361 .

Proportion 0.867973 0.075385 0.020010 0.014716 0.011061 0.006615 0.004221 0.000019

Cumulative 0.86797 0.94336 0.96337 0.97808 0.98914 0.99576 0.99998 1.00000

Eigenvectors 99 年数据表的主成分分析

X1 X2 X3 X4 X5 X6 X7 X8

C1 0.375326 0.342405 0.311094 0.360191 0.359409 0.345183 0.365788 0.365029

C2 C3 C4 C5 C6 C7 C8 -.176598 -.025298 0.142244 0.043048 0.053525 0.055225 -.894037 -.456571 -.142611 0.634127 0.299171 0.174451 -.033774 0.361620 0.687727 0.332464 0.410055 0.013385 -.119860 0.364141 0.066550 -.263051 0.143639 -.224628 -.638715 0.343534 0.414770 0.178802 -.098416 0.703325 -.237833 0.141298 -.042767 -.530138 0.084078 0.435106 -.413152 -.254514 0.167365 0.591044 -.274788 0.056631 0.080977 -.388392 0.085724 -.476896 -.561740 -.389637 0.081534 -.112389 -.177901 -.479953 0.474450 -.409397 0.427557 0.128860

全局均值

x1 x2 1643. 712903 861. 045

x3 x4 104. 1032258 240. 781129

全局标准差 98年均值

691. 386782

267. 6298493 45. 2232006

143. 6967533

98年标准差 99年均值

708. 616787

99年标准差

685. 074825

全局均值

x5 x6 x7 x8 90. 47693548 73. 94580645 68. 53419355 168. 9841935

1659. 266452 877. 2419355 107. 2680645 248. 1890323 273. 1304651 47. 7055639

157. 4061596

1628. 159355 844. 8480645 100. 9383871 233. 3732258 265. 5119117 43. 1500409

130. 7505032

全局标准差 98年均值

67. 73559617 40. 4403908

52. 54442662 97. 0200486

98年标准差 99年均值

65. 42021618 37. 66294906 51. 42069294 93. 0864894

99年标准差

71. 05436069 43. 63631005 54. 25738321 102. 0917306

89. 92387097 72. 79451613 64. 99322581 163. 9812903 91. 03

75. 09709677 72. 07516129 173. 9870968

F1

F2

F3

7.105412548 7.10592

0.5092261 0.51643

0.109952254 0.12444

0.879045375 0.88824

0.0629989 0.064533

0.013602732 0.02430

99 关于全 局主 成分 的解 释方 差

6.94333379 6.94378

0.5973243 0.60308

0.153185908 0.16008

99 关于 全局主 成分 的贡献 率

0.852712583 0.867973

0.073357553 0.075385

0.0188128 0.020010

98 关于全 局主 成分 的解 释方 差

 98 关于 全局主 成分 的贡献 率

红字 为分 年度数据 表作 主成 分分析 的方 差和贡 献率

-2

-4

-6

61

58

55

52

49

46

43

40

37

34

31

28

25

22

19

16

13

10

7

4

1

12

10

8

6

4

2 系列3 系列2 系列1

0

-2

-4

-6

61

58

55

52

49

46

43

40

37

34

31

28

25

22

19

16

13

10

7

4

1

12

10

8

6

4

2 系列6 系列5 系列4

0

-2

-4

61

58

55

52

49

46

43

40

37

34

31

28

25

22

19

16

13

10

7

4

1

10

8

6

4

2 系列9 系列8 系列7

0

Related Documents

Component
November 2019 36
Principal
April 2020 14
Principal
October 2019 27
Principal
November 2019 31

More Documents from ""