統計学⼊⾨−第2章
2/15/2019
統計学入門
玄関>雑学の部屋>雑学コーナー> 前口上 目次
第1章
第2章
第3章 第4章 第5章 第6章 第7章 第8章 第9章 第10章
第11章 第12章 第13章 第14章 第15章 第16章 第17章 第18章 第19章 第20章 付録 123
456
2.4 差と比とパーセントの使い分け (1) 差と比の違い
薬剤の投与前後で血圧を測定した時のように対応のある2標本データの要約をする時、前後の差
変化量にしたり、差を前値で割って100を掛け、前値に対する変化率にするなどして1
を計算して
標本データに還元して扱います。 変化量にしろ変化率にしろわりと無造作に計算していますが、
統計学の落とし穴が潜んでいます。 差や差のパーセントを計算するということがど
実はここにも
ういった意味を持っているのか、ここでもう一度しっかりと考えてみましょう。 差を計算して変化量に変換するのは、個々のデータの変化量を比較したり、変化量の平均値を 求めて全体としてどの程度変化したかを要約したりするためです。 しかしもし変化量が前値によ って影響を受けるとすると一体どういうことになるでしょうか? 例えば血圧は前値の大きな人ほどよく低下するとします。 そうすると同じように10mmHg低下し たとしても、前値が180mmHgの時と140mmHgの時とでは意味が違います。 つまり同じ低下量なら前 値が低いほど実質的によく低下したと考えられるわけです。 また前値がバラバラの集団では低下 量を平均することも通常とは違った意味になります。 したがって変化量が正確な意味を持つの
前値が変化量に影響を与えないデータつまり間隔尺度的な変化をするデータだけということ
は、
になります。 では変化率についてはどうでしょうか? 変化率は前値に対する変化量の率を表すもの、すなわ ちもし前値が100だったら変化量はいくつになるかということを意味する値です。 つまり前値が バラバラでは比較しにくいから、無理矢理同じにしてしまおうという乱暴な値なのです。 前値が 同じになれば比較は簡単になり、一見、成程と納得しやすいでしょう。 しかしこれが変化率の思 うツボ、その目論見が成功するには前値が10の時1低下するなら100の時は10低下するという確証 が必要です。
前値と変化量が比例するデータつまり比例尺度的
したがって変化率が正確な意味を持つのは、
な変化をするデータだけということになります。 後値を前値で割った比や、それに100を掛けた http://www.snap-tck.com/room04/c01/stat/stat02/stat0204.html
1/7
統計学⼊⾨−第2章
2/15/2019
パーセントについても原理的には変化率と全く同様です。 (注1) データがどちらの種類なのかおおよその見当をつけるには、やはりグラフを利用するのが一番 です。 今、X軸を前値x、Y軸を後値yとして、ペアになった個々のデータをプロットした散布図が 図2.4.1または図2.4.2のようになったとします。 通常、前値と後値は因果関係があるのでプロッ トは直線的に並び、xとyとの関係は次のような式で近似的に表されます。 これは第5章で説明す
回帰直線です。 (→第5章 相関と回帰)
る
y=α + βx y=α+x y=x
y=x 後 値 (y)
後 値 (y)
d=y-x→
←d=y-x
y=βx
45°
前値(x)
前値(x)
図2.4.1 差に変換するデータ
図2.4.2 ⽐に変換するデータ
差dを計算するということは、上式より次のようになります。 d=y - x=(α + βx) - x=α + (β-1)x この式から、前値xと差dの回帰直線の傾きは、前値と後値の回帰直線の傾きβから1を引いた値 になることがわかります。 そのため普通は前値xが差dに影響するものの、β≒1の時はほとんど
前値と後値の回帰直線の傾きがほぼ45°の時、データは間隔尺度 的な変化するため差を計算しても良いことになります。 影響しなくなります。 つまり
また前値と後値の比rは次のようになります。
r=
y α +β x α = = +β x x x
この式から、前値の逆数(1/x)と比rの回帰直線の傾きは、前値と後値の回帰直線の定数αにな ることがわかります。 そのため普通は前値xが比rに影響するものの、α≒1の時はほとんど影響
前値と後値の回帰直線がほぼ原点を通る時、データは比例尺度的な変 化をするため比を計算しても良いことになります。 しなくなります。 つまり
http://www.snap-tck.com/room04/c01/stat/stat02/stat0204.html
2/7
統計学⼊⾨−第2章
2/15/2019
さらに差dをパーセントに変換した変化率d(%)は次のようになり、結局、比rに帰着します。
d ( % )=
( )
100 ( y − x ) d y × 100 = = 100 − 1 = 100 ( r− 1)= 100 r − 100 x x x
回帰直線が原点を通らず、傾きも45°ではない時は、回帰直線を利用して前値の影響を取り除
共分散分析という手法を用いる必要があります。 この手法は非常に便利で
いてから差を計算する
あるにもかかわらず、残念ながらいまひとつ知名度が低くてあまり利用されていません。 (→第8 章 共分散分析) 一般に血圧のように一定の正常域がある臨床検査値は、
前値が異常な値であるほどより強く正
常な状態に戻ろうとする傾向いわゆる初期値の法則があります。 そのためこれらの臨床検査値は 比例尺度的な変化に近いかと思うと、これがさにあらず、正常域の付近では前値とは無関係に変 化することが多くなり、間隔尺度的な変化に近くなったりします。 はなはだ始末の悪いデータで すが、こんなタチの悪いデータの場合には理解しやすくて危険の少ない差を計算しておくのが無 難でしょう。 (注2)
(2) 差の平均値と平均値の差の違い 差の平均値と平均値の差は意味が違い、変化率の平均値と平均値の 変化率は意味も値も違うということもあまり知られていません。 一般にデータを変換してから要 約したものと、データを要約してから変換したものは意味も値も異なるのです。 (←あぁ、やや 次にまた面倒な話ですが、
こしい!) たまたま差の平均値と平均値の差は同じ値になるものの、その意味するところは多少違いま す。 差の平均値は個々のデータの変化量を要約した値であり、差の標準偏差を求めることによっ て変化量のバラツキ具合まで要約することができます。 しかし平均値の差はすでに要約されてい る値を用いた全体的な比較であり、差の標準偏差を求めることはできません。 つまり差の平均値 に比べて差の標準偏差の分だけ情報量が少ないのです。 その代わり個々のデータがわかっていな くても、平均値さえわかっていれば計算できるので対応のないデータでも求めることができま す。
全てのデータの前値を100
変化率の平均値は個々のデータの変化率を要約した値です。 つまり
に統一したら全体としていくつぐらい変化したかということを表していて、前値による変化量の 補正ということが主な目的です。 この値は前後のデータを前値に対するパーセントに変換した時 の、差の平均値に相当します。
http://www.snap-tck.com/room04/c01/stat/stat02/stat0204.html
3/7
統計学⼊⾨−第2章
2/15/2019
前値(%)=
前値
×100=100
前値 変化率(%)=
後値(%)=
×100
前値
後値−前値
後値
×100=後値(%)−前値(%)=後値(%)−100
前値 この時、前値をパーセントに変換した値は必然的に100になり、その平均値も100になります。 そして変化率の平均値はパーセントに変換した前値の平均値とパーセントに変換した後値の平均 値の差、つまりパーセントに変換した後値の平均値から100を引いた値になります。 それに対して平均値の変化率は次のような式で計算する値であり、個々のデータの前値が全て 一定の時は変化率の平均値と一致します。 平均値の変化率(%)=
後値の平均値−前値の平均値
×100
前値の平均値
前後の平均値しかわかっていない時に変化率の平均値の代わりに使用する単なる目安
この値は
にすぎず、個々のデータがわかっている時は変化率の平均値を用いるべきです。 もちろん変化率 の平均値も平均値の変化率も、比例尺度のデータでしか意味を持たないので注意が必要です。 以上の値を表2.4.1のデータについて実際に計算してみましょう。 表2.4.1 平均値の差と平均値の変化率
前値 後値 差 前値(%) 後値(%) 変化率(%) 10
-1
100
90
-10
10
20 +10
100
200
+100
100
90 -10
100
90
-10
100
90 -10
100
90
-10
100
101
+1
100
9
101
+1
平均値 64 62 -2 平均値の差=-2
100 114.2 +14.2 平均値の変化率=-3.125%
ご覧のように差の平均値と平均値の差は同じ値になり、変化率の平均値はパーセントに変換し た前値と後値の平均値の差と同じ値になっています。 しかし変化率の平均値と平均値の変化率で は、値どころか符号まで違っています。 そして元のデータの平均値は後値の方が小さいにもかか わらず、パーセントに変換したデータの平均値は後値の方が大きくなっています。 http://www.snap-tck.com/room04/c01/stat/stat02/stat0204.html
4/7
統計学⼊⾨−第2章
2/15/2019
「何じゃこれは? 前後で値は上ったのか下がったのか、一体どっちなんじゃ!?」
それぞれ意味の
とお思いでしょう。 しかしこれらは同じ情報を別の値で表現したものではなく、
違う情報を要約した目的の異なる値です。 そのため結果が違っても不思議ではないのです。
このあたりが統計学のややこしいところですが、もしこのデータが比例尺度的な変化をするな ら、パーセントに変換したデータと変化率の平均値が正確な意味を持ち、前後で値は上ったと考 えられます。 しかし間隔尺度的な変化をするなら、実測値のままのデータと差の平均値が正確な 意味を持ち、前後で値は下がったと考えられます。 また平均値の変化率は前後の平均値しかわか っていない時に変化率の平均値の代わり用いる単なる目安ですから、この場合はあまり意味を持 ちません。
実測値のままのデータと差の平均値を採用して、
データの種類がどちらかはっきりしない時は
一応、前後で値は下がったと考えておくのが無難でしょう。
(注1) 比と割合と率は混同されて使われることの多い用語ですが、厳密には全て異なる 概念です。 これらは次のように定義されています。
比(ratio):お互いに相手を含まない別々の値を割ったもの 分子と分母の値の単位を組み合わせた次元を持ち、値に制限はない。 [例]…A/G比(アルブミンをグロブリンで割った値)、BMI(体重を身長の平方で割 った値)等
割合(proportion):分子が分母に含まれる分数 次元を持たず、0〜1の間の値になる。 [例]…有効率(有効例数を全例数で割った値)、有病率(疾病の患者数を全人口で 割った値)等
率(rate):単位あたりの変化量 単位の逆数の次元を持ち、値に制限はない。 [例]…低下率(単位量あたりの低下量)、反応速度(単位時間あたりの反応量)等
血圧の変化率は初期値に対する単位量あたりの変化量に相当するため、この定
例えば
義に従うと率(rate)になります。
(注2) 元のデータが正規分布する時、差に変換したデータは正規分布をしますが、比に 変換したデータは正規分布しません。 そして比の分散は次のように平均の関数にな り、はなはだ扱いにくいものになってしまいます。 http://www.snap-tck.com/room04/c01/stat/stat02/stat0204.html
5/7
統計学⼊⾨−第2章
2/15/2019
V
E ( x )2 x ≈ ( CV 2x +CV 2y − 2 ρ CV x CV y ) 2 y E( y)
()
ρ:xとyの母相関係数 CVx、CVy:x、yの変動係数 しかし現実のデータで厳密に正規分布するものはないので、細かいことは気にかけ ず、普通は比に変換したデータも近似的に正規分布すると考えてしまって差し支えあり ません。 (こんなことを言うと数学者などの口うるさい連中が目の色を変えて文句を言 うかもしれませんが、馬耳東風と無視しておきましょう) ちなにみに、この比の分散は
デルタ法(delta method)によって近似的に求めたもので
す。 デルタ法は確率変数xの期待値と分散がわかっている時、xの関数f(x)の期待値と分 散を近似的に求める手法です。 この手法はf(x)をテーラー展開して一次式で近似し、そ の期待値と分散を近似的に求めます。 E(x)=μ、V(x)=σ2 として、y=f(x)を1次の項までテーラー展開すると y=f(x)≒f(μ) + (x-μ)f'(μ) E(y)≒f(μ) V(y)≒V(f(μ) + (x-μ)f'(μ))=V((xμ)f'(μ))=V(x){f'(μ)}2=σ2{f'(μ)}2 ※期待値については2次の項までテーラー展開すると近似が良くなる。
1 2 y= f (x)≈ f (μ)+(x− μ)f ' (μ)+ 2 (x− μ) f ' ' (μ) 1 1 2 E( y)≈ E(f (μ)+(x− μ)f ' (μ)+ 2 (x− μ) f ' ' (μ))= f (μ)+ 2 V(x)f ' ' (μ) デルタ法を用いて比の分散を近似的に求めると次のようになります。
dz=
E(x) ∂f ∂f 1 dx+ dy= dx+ dy ∂x ∂y E ( y) {E ( y)}2
zを1次の項までテーラー展開すると:
デルタ法を用いると2つの確率変数の積の分散も近似的に求めることができます。 そ の計算は比較的簡単ですから、是非、チャレンジしてみてください。 (→1.3 データの 要約方法 (注4))
最終更新日:2014年8月19日 第3節へ
http://www.snap-tck.com/room04/c01/stat/stat02/stat0204.html
第5節へ
6/7
2/15/2019
統計学⼊⾨−第2章
[email protected] Copyleft (C) 2000-2018 SNAP(Sugimoto Norio Art Production)
http://www.snap-tck.com/room04/c01/stat/stat02/stat0204.html
7/7