統計学⼊⾨−第2章
2/15/2019
統計学入門
玄関>雑学の部屋>雑学コーナー> 前口上 目次
第1章
第2章
第3章 第4章 第5章 第6章 第7章 第8章 第9章 第10章
第11章 第12章 第13章 第14章 第15章 第16章 第17章 第18章 第19章 第20章 付録 12
3456
2.3 パラメトリック手法とノンパラメトリック手法 (1) ノンパラメトリック手法
データが特定の分布——例えば正規分布——をしていることを前提にせず、データがどんな分布をし
ノンパラメトリック手法(nonparametric procedure)または分布によらない手法(distribution-free method)といいます。 それに対してデ ていても値があまり変化しない要約値に関する統計手法を
ータが特定の分布をしていることを前提にし、データの分布状態によって値が変化する要約値に関
パラメトリック手法(parametric procedure)といいます。 パラメトリックとは母 数(パラメーター)に依存しているという意味であり、パラメトリック手法とはデータの分布状態 する統計手法を
を決定する母数に依存している統計手法ということになります。 (注1)
ノンパラ手法は次のような特徴を持っています。
ノンパラメトリック手法、略して
1. データの分布についての要求が緩く、どんな分布をしていても結果があまり左右されない
頑
健性(robustness)の大きい手法である。 2. 精度は若干悪いが、計算が速くて簡単な簡便法(quick and dirty method)である。 コンピュータを手軽に利用できる現在では計算の簡便性はそれほど重要ではなく、ノンパラ手法 の利点は主に頑健性にあるといって良いでしょう。 実際、コンピュータを用いるとノンパラ手法 よりもパラメトリック手法の方がむしろ簡単に計算できます。 通常、計量尺度のデータは要約値として平均値を用いるのでパラメトリック手法を適用します。 ところが順序尺度のデータは第1節で説明したように四則演算が行えず、平均値が計算できませ ん。 そのため普通は要約値として順位平均値を用い、ノンパラ手法を適用します。 また名義尺度のデータは平均値が計算できないだけでなく、順位平均値も求められません。 そ こで普通は要約値として出現率を用います。 出現率はデータの分布状態によって値があまり変化 しない要約値です。 しかし出現率を用いた統計手法の中には、データが特定の分布――例えば二 項分布――をしていることを前提にしたものがあります(例えば二項検定)。 そのため全てが厳密 http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
1/20
統計学⼊⾨−第2章
2/15/2019
な意味でノンパラ手法というわけではありませんが、たいていはノンパラ手法に相当すると考えて 良いでしょう。
(2) ノンパラメトリック手法の特徴 ノンパラ手法はデータがどんな分布をしていても結果があまり変わらないことが特徴です。 し かしそれは結果の精度が高いからではなく、もともと精度の低いラフな手法なので、データがどん
データの分布状態を検出できない
な分布をしていてもそれが結果にあまり反映されない、つまり
ほどラフで精度が低い手法であるということです。
それに対してパラメトリック手法は精度の高い手法なので、データの分布状態を敏感に検出して それを結果に反映します。 したがってデータの分布が正規分布からどの程度ずれているかがわか れば、パラメトリック手法の結果に含まれている誤差の大きさを評価することができ、うまくいけ ば正しい結果に修正することができます。 しかしノンパラ手法の結果に含まれている誤差の大き さを評価することは難しく、正しい結果を求めることはほとんど不可能です。 (→5.3 計数値の相 関 図5.3.1) またノンパラ手法は正規性を利用していないと思われていますが、実際にはほとんどの手法が正 規性を利用しています。 ノンパラ手法は平均値の代わりに順位平均値や出現率を利用して検定し
それらの要約値が中心極限定理によって近似的に正規
ます。 その際、平均値の検定と同じように
分布する性質を利用しています。
平均値も順位平均値も出現率もデータが正規分布しないと厳密には正規分布をせず、しかもデー タの分散が未知の時は正規分布ではなくt分布のような特殊な分布をします。 しかしノンパラ手法 はその分布の違いを反映できるほど敏感な手法ではないので、パラメトリック手法のように分散が
どうせい い加減でラフな手法なのだから、データがどんな分布をしていようと委細構わず全て正規分布す ると考えてしまおうというわけです。 (→3.2 1標本の計数値、3.4 2標本の計数値) 未知の時は正規分布の代わりにt分布を利用するといった厳密な区別はしません。 つまり
(3) パラメトリック手法とノンパラメトリック手法の使い分け 統計学の解説書などによく次のようなことが書かれていて、これをそのまま盲信している人がい ると思います。 「たとえ計量尺度のデータでも、正規分布しない時とかデータ数が少ない時はt検定など のパラメトリック手法は適用できないので、順位和検定などのノンパラ手法を適用しなけ ればならない!」 http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
2/20
2/15/2019
統計学⼊⾨−第2章
統計手法と要約値の科学的な意義を無視した乱暴な主張ですから、こんな主張を鵜
でもこれは
呑みにしてはいけません。 データがどんな分布をしていても、中心極限定理によって標本平均な どの要約値は漸近的に正規分布をします。 そのためデータが正規分布しない時はパラメトリック
ちゃんと使えます。 しかし検定の検出力が低くなったり、信頼区 間の幅が広くなったりする――つまり検定や推定の効率が悪くなることがあり、時にはノンパラ 手法が使えないわけではなく、
手法よりも悪くなったりするのです。 (→1.3 データの要約方法 (注7)) データが正規分布する時、通常はパラメトリック手法が最も効率的であり、ノンパラ手法はそれ よりも効率が落ちます。 ところがデータが正規分布からずれるとデータのバラツキが大きくなる ことがあります。 パラメトリック手法はそれをきちんと反映するので効率が落ちます。 それに対 してノンパラ手法はそれを反映しないので効率はほとんど悪くなりません。 そのため正規分布か らのズレが極端に大きいと、時にはパラメリック手法の方がノンパラ手法よりも効率が悪くなった りします。 (注2)
パラメ トリック手法の効率がノンパラ手法の効率よりも悪くなる時は、ノンパラ手法を使った方が効率 的である」と書くのが正確です。 しかしこれは、食べすぎて胃がもたれるので消化薬を買いに薬 そこで最初に書いたような極論が統計学の解説書に書かれたりするわけですが、本当は「
屋に行ったところ、薬剤師から「今日は効果の弱い消化薬しか置いてないので、代わりに効果の強 い花粉症の薬を使った方がいいですよ!」と助言されるようなもので、的外れかつ科学的に非合理 です。 パラメトリック手法とノンパラ手法は要約値が異なり、目的も異なる手法です。 例えば平均値 と順位平均値と出現率は、それぞれ科学的な意義が異なる要約値です。 そのため平均値の検定・ 推定と、順位平均値の検定・推定と、出現率の検定・推定はそれぞれ目的が異なります。 そして これらの要約値の科学的意義と手法の目的がデータの分布状態によって変わることはありません。 さらに第2節で説明したように、評価指標として最適な要約値はあくまでも要約値の科学的な意義
データの分布状態で評価指標を変える、つまりパラメトリック手法 とノンパラ手法を使い分けるのは科学的に非合理です。 で選ぶべきです。 したがって
またデータ数が少ない時は中心極限定理による要約値の漸近的な正規近似が悪くなります。 そ のため元のデータが正規分布からずれていると、要約値の分布と正規分布とのずれが比較的大きく なります。 そのため「データ数が少ない時は要約値が正規分布しないから、ノンパラ手法を適用 すべきである」と短絡的に考えてしまいがちなのでしょう。 しかしノンパラ手法もたいていは順 位平均値や出現率が中心極限定理によって近似的に正規分布する性質を利用しているので、データ 数が少ない時はこれらの要約値の分布と正規分布のズレも比較的大きくなります。 http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
3/20
統計学⼊⾨−第2章
2/15/2019
そしてデータ数が多い時は評価指標として平均値が科学的に意義があるものの、データ数が少な い時は順位平均値の方が科学的に意義があるということは普通は考えられません。 たとえそのよ うに考えられたとしても、評価指標を切り替えるデータ数を科学的かつ合理的に決定することは不
データ数の多い少ないで評価指標を変える、つまりパラメトリック手 法とノンパラ手法を使い分けるのも科学的に非合理です。 可能でしょう。 したがって
(4) 平均値と順位平均値 代表的なノンパラ手法であるウィルコクソンの2標本検定は、データに順位を付けて、2群の平均 値の差の代わりに2群の順位平均値の差を検定する手法です。 そのため平均値の差の検定つまり2
平均値の代わりに順
標本t検定の代わりにウィルコクソンの2標本検定を適用したということは、
位平均値を評価指標にしたことに他なりません。
これは例えばマラソンレースで、実際のタイムではなく順位で競技者の成績を評価するようなも のです。 つまり1位と2位の差が1秒でも1時間でも成績は変わらないわけです。 マスコミのスポー ツ報道ならこれでもいいでしょうが、競技者の実力を評価したい時はやはり順位よりもタイムで評 価すべきでしょう。 また医学論文などで「データが正規分布しないためウィルコクソンの2標本検定を用いた」と書 いておきながら、平均値のグラフを描いたり、中央値とIQR(nterquartile range)を表に記載して
ウィルコクソンの2標
していることが多々あります。 これは完全な間違いです。 この間違いは、
本検定が平均値の検定または中央値の検定と誤解されていることに起因します。
平均値のグラフを描いたのなら、それは平均値を評価指標にしたということであり、平均値の検 定と推定を行わなければ整合性が取れません。 また中央値を表に記載したのなら、それは中央値 を評価指標にしたということであり、中央値の検定と推定を行わなければ整合性が取れません。
中央値は中心極限定理が成り立たないので、中央値そのものを検定したり推定したりする 手法はありません。 ただし元のデータが正規分布する時は中央値が正規分布するので、中央値の しかし
検定と推定を行うことができます。 しかし中央値を用いるのは元のデータが正規分布しないから こそなので、この検定と推定は無意味でしょう。
平均値と順位平均値は別々の情報を要約した値なので結果が矛盾する時があります。 例え
また
ば薬剤Aと薬剤Pの安全性をASTによって比較した試験で、図2.3.1のように薬剤投与後に薬剤P投与 群は値が全く変わらず、変化量平均値は0だったとします。 それに対して薬剤A投与群はほぼ全例 がわずかに低下したものの、1例だけが副作用で異常上昇し、変化量平均値が正の値になったとし
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
4/20
統計学⼊⾨−第2章
2/15/2019
ます。 この時、データに順位を付けて順位平均値を求めると、P群の順位平均値が4であるのに対 してA群の順位平均値は3になり、P群よりも小さくなります。 その結果、平均値を評価指標にして2標本t検定を適用した時はA群はP群よりも上昇したと評価さ れるのに対して、順位平均値を評価指標にしてウィルコクソンの2標本検定を適用するとA群はP群
ウィルコクソンの2標本検定で
よりも低下したと評価され、結果が矛盾してしまいます。 つまり
はASTが異常上昇した副作用が見逃されてしまうのです! そうなれば製薬会社は大喜びするでし ょうが、科学的にも倫理的にも大いに問題です。 (→2.6 尺度合わせと外れ値 図2.6.2参照、 →3.4 2標本の計数値 図3.4.11参照)
6 A S T 変 化 量
異常上昇例
A群の平均値>0
345
P群の平均値=0 P群の順位平均値=4 A群の順位平均値=3
12 投与前
投与後
図2.3.1 平均値と順位平均値が⽭盾する例 この場合、P群は平均値=中央値=順位平均値になるものの、A群は平均値>順位平均値>中央値 になり、順位平均値と中央値は一致せず、どちらも異常上昇例を反映しません。 このことから中
ノンパラ手法の特徴です――の
央値と順位平均値は異常上昇例を反映しない――これがまさに
副作用を評価するための評価指標には適していないことがわかると思います。 そしてウィルコクソンの2標本検定はデータの実測値には科学的な意義がなく、データの順位 だけが科学的な意義を持つ時に適用すべき手法だということもわかると思います。 データの実測 で、
値ではなく順位だけが科学的な意義を持つようなデータは、最初から順位として定義されたデータ つまり順序尺度のデータ以外には普通は有り得ないでしょう。 また医学分野では、たいていは疾患に罹患した被験者を研究対象にします。 そして疾患に罹患 した状態はヒトにとって異常な状態なので、臨床検査値などで異常値が発生します。 そのような http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
5/20
統計学⼊⾨−第2章
2/15/2019
それ らを無視してデータを解析するのは非科学的です。 そのため医学分野では異常値(外れ値)を反映 しない要約値は評価指標として不適切と言って良いと思います。 疾患による異常値と薬剤の副作用による異常値は医学分野では必然的に発生するものであり、
それから複数の症状の重症度を「0:症状なし 1:軽症 2:中等症 3:重症」の4段階で評価し、 それらの項目の合計点を求めて総合重症度のように扱うことがあります。 この時、元のデータが 順序尺度だからという理由で、またはデータが正規分布しないという理由で、またはデータが連続 ではないという理由で、順序尺度扱いしてノンパラ手法を適用すべきであると主張されることがあ ります。 しかし合計点を求めるということは、例えば3つの項目が全て「1:軽症」の時の合計点3点と、1 つの項目が「3:重症」で他の2つが「0:症状なし」の時の合計点3点が医学的に同じ意味であると解
どの項目のデータも数字と数字の間隔が等しい計量尺度扱いしたことに
釈したことです。 これは
他なりません。 第1節で説明したように、計量尺度と順序尺度の本質的な違いは数字と数字の間隔 が等間隔で四則演算が行えるかどうかという点であり、連続データか離散データかという点ではあ りません。 したがってこのような合計点データを順序尺度扱いするのは論理的に首尾一貫しておらず、あま り意味のあることではありません。 これは複数の症状を「0:無 1:有」で評価し、症状有の項目 数を総合重症度のように扱う場合でも全く同じです。 繰り返しになりますが、データがどんな分布をしていても中心極限定理によって標本平均は近似 的に正規分布をします。
平均値の検定(t検定)はその標本平均の分布を利用する頑健性の高い手
法ですから、データが正規分布から極端にズレていない限り安心して適用できます。 また場合に よっては、順序尺度のデータをそのまま計量尺度として扱った方が科学的に妥当なこともありま す。 (→3.4 2標本の計数値 (1)順序尺度 表3.4.6と表3.4.7)
(5) データの正規性 そもそもデータの正規性というのは比較したい群ごとのデータが正規分布していること——これを
残差の正規性または検定誤差の正規性といいます——であり、比較したい群を一緒にした全体のデ
ータが正規分布していることではありません。 つまり第2節の図2.2.12のように正常群、軽症群、 中症群、重症群の各群のデータが正規分布していることがデータの正規性であり、4群を一緒にし た全体のデータが正規分布していることではないのです。 もし4群のデータが図2.2.12のように分 布していれば、4群を一緒にした全体のデータが正規分布するはずはありません。
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
6/20
統計学⼊⾨−第2章
2/15/2019
正常群
軽症群 中症群 重症群 中 央 値
平 均 値
⾎圧
図2.2.12 投与前の⾎圧分布
しかし「データが正規分布していない時はノンパラ手法!」という主張を鵜呑みにした人は、
それが正規分布からずれ
往々にして群ごとのデータではなく全体のデータの分布をチェックし、
ている時はノンパラ手法を適用しなければならないと誤解しています。
また実際の研究では同じ項目を男女で比較したり、疾患の有無で比較したり、治療法の種類で比 較したりします。 その場合、厳密に言えば比較する群ごとにデータが正規分布する必要がありま す。 つまり同じデータを男性と女性で2群に分けた時も、疾患有と疾患無で2群に分けた時も、治 療法の種類で数種類の群に分けた時も、どの群のデータも正規分布している必要があるのです。
理論的にも現実的にもほとんど不可能でしょう。
これは
したがってデータの正規性というものはあくまでも近似的なものであり、あまり厳密に正規性を 求めるとパラメトリック手法を適用できるデータなど有り得なくなってしまうことがわかると思い ます。 しかも近似的に正規分布しているかどうかを厳密に検討するためには、分布状態を表す指
歪度(ワイド、skewness、asymmetry)と分布の尖り具合を表す尖
標――例えば分布の対称性を表す
度(センド、kurtosis)――の区間推定を行ない、信頼区間が許容範囲内に収まっているかどうかを 検討する必要があります。 ところが「データが正規分布しない時はノンパラ手法!」と書かれた 統計学の解説書で、こういった指標の許容範囲を明示しているものは残念ながら見たことがありま せん。 (注3) 正規分布はちょうど物理化学分野における理想気体のようなものです。
理想気体のような気体
は現実には存在しません。 しかし大部分の気体は近似的に理想気体とみなすことができるので、 状態方程式などを当てはめて色々な計算を簡単に行うことができます。 そして現実の気体が理想 気体からどの程度ずれているかを考慮して、理想気体で計算した結果を現実の気体に適用します。 http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
7/20
統計学⼊⾨−第2章
2/15/2019
理想気体のような気体は現実には存在しない ↓
理想気体によるモデル化
大部分の気体は近似的に理想気体とみなすことが可能―― ↓
理想気体の状態方程式を当てはめて結果を求める ↓ 現実の気体が理想気体からどの程度ずれているかを考慮して結果を解釈 ↓ 理想気体で計算した結果を現実の気体に適用
現実のデータで厳密に正規分布するものはあ
理想気体と同様に正規分布も理想分布ですから、
りません。 しかし近似的に正規分布するとみなしてパラメトリック手法を適用することにより、 母集団の様子を確率的に推測することができます。 そして現実のデータの分布が正規分布からど の程度ずれているかを考慮した上で、パラメトリック手法の結果を現実のデータに適用すれば、デ ータが厳密に正規分布していなくても実用上は問題ありません。 つまり正規分布によってモデル 化した理想的な結果を、現実のデータに合わせて補正しながら解釈するわけです。 (注4) 正規分布するデータは現実には存在しない ↓
正規分布によるモデル化
大部分のデータは近似的に正規分布とみなすことが可能―― ↓
正規分布を当てはめて結果を求める ↓ 現実のデータが正規分布からどの程度ずれているかを考慮して結果を解釈 ↓ 正規分布で計算した結果を現実のデータに適用 統計学で用いられる理論分布――例えば二項検定で用いられる二項分布やχ2検定で用いられる χ2分布等――は全て数学的に導かれた理想分布です。 そのため現実のデータは正規分布だけでな く、どの理論分布にも厳密には従いません。 しかし中心極限定理によって、ほとんどの要約値は 近似的に正規分布します。 そしてパラメトリック手法もノンバラメトリック手法も要約値が近似 的に正規分布する性質を利用して検定と推定を行います。 そのため中心極限定理が統計学の最も 重要な基本定理と言われ、正規分布が多用されているのです。 (→1.3 データの要約方法)
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
8/20
統計学⼊⾨−第2章
2/15/2019
検定手法を決定するのは要約値の種類であり、どの要約値が評価指標として最適
いずれにせよ
かを決定する最も重要な要因は、データの分布状態に関する数学的な判断ではなく科学的な判断で
科学的な判断 によって評価指標として最適な要約値を決定し、それに応じて統計手法を選択するべきです。 す。 したがってデータの分布状態だけで機械的に統計手法を選択するのではなく、
(注1) 数理統計学的な定義では、母数と局外母数(nuisance parameter、確率分布に関 する母数以外の母数)によって確率分布が完全に定められているモデルをパラメトリック モデル(parametric model)といい、そうでないモデルをノンパラメトリックモデル (nonparametric model)またはセミパラメトリックモデル(semi-parametric model)といい ます。 そしてパラメトリックモデルを用いる統計手法がパラメトリック手法であり、ノ ンパラメトリックモデルを用いる統計手法がノンパラメトリック手法ということになりま す。
(注2) 標本平均は中心極限定理が成り立つので、データが正規分布しない時でも母平均 値の推定誤差と検定(t検定)における有意確率p値の誤差は非常に小さく、事実上、無視 できる程度です。 データが正規分布する時、平均値の検定は一様最強力検定(UMP: Uniformly Most Powerful test)つまりどんな対立仮説についても検出力が最も高い検定 になります。 しかしデータが正規分布からずれていると一様最強力検定になるとは限り ません。 ただし正規分布からのズレが極端に大きくなければ、検出力はあまり悪くはな りません。 (→1.6 統計的仮説検定の考え方 (注4)) データが正規分布から大きくずれると検出力がどの程度悪くなるのか、医学分野でたま に問題になる対数正規分布を利用して検討してみましょう。 第2節で説明したようにデー タxを対数変換したy=ln(x)が正規分布する時、xは対数正規分布します。 そしてxの統計 量とyの統計量の間には次のような関係があります。 yの平均値: μ y =
∑ y = ∑ ln( x) = ln {(∏ x)1/n }= ln (μ * )= ln (μ n
x
n
x
')
yの分散:σy2=ln(CVx2 + 1)
( ) 2
() 2
σ σ xの平均値: μ = exp μ + y = (μ ' )exp y x y x 2 2 xの分散:
xの幾何平均値:μx* xの中央値:μx' http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
() 2
μx σ = exp y μx ' 2
9/20
統計学⼊⾨−第2章
2/15/2019
σ
xの変動係数: CV x = μ x x
σ 2x μ 2x {exp(σ 2y )− 1} CV = 2 = = exp(σ 2y )− 1 2 μx μx 2 x
ここで計算を簡単にするために、まずyの母分散σy2=1としましょう。 そしてyの母平 均μyが基準値μy0=0と等しいかどうかを、100例の標本集団のデータを用いて、有意水準 5%で検定する時の検出力を80%としてみましょう。 第1章の図1.6.2から、この時のμy は次のような値になります。 δ*
δ*
SE
H0︓μ=μ0
α/2
α/2 p/2 mU
mL μ0
t(n-1,2β)×SE m
μL
μU
t(n-1,α)×SE SE
SE
H1︓μ=μ0-δ*
H1︓μ=μ0+δ*
β μ0-δ* mL
β mU
μ0+δ*
図1.6.2 統計的仮説検定の模式図 α=0.05 2β=2×(1-0.8)=0.4 n-1=99 t(99,0.05)=1.98422 t(99,0.4)=0.845267
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
10/20
統計学⼊⾨−第2章
2/15/2019
δy*={t(n-1,α)+t(n-1,2β)}SEy=(1.98422+0.845267)×0.1=0.2829487 ∴μy=μy0 + δy*=0.2829487 ここで基準値μ0とμyの関係を元のデータxに戻すと次のようになります。 この場合、 データyは正規分布するため、100例の標本集団から求めた標本平均myはt分布します。 そ
100例の標本集団から求めた標本平均mxは中心極
してデータxは対数正規分布しますが、
限定理によって近似的にt分布します。 図1.6.2の3つの分布は、それらの標本平均の分 布を表すので注意してください。 ○μy=μy0=0の時 → μx=μx0の時:帰無仮説が正しい時
σx02=μx02{exp(σy2)-1}=1.6487212×{exp(1)-1}≒4.670774
mxU=μx0 + t(n-1,α)・SEx0=1.648721 + 1.98422×0.2161197=1.648721 + 0.4288291=2.07755 ○μy=0.2829487の時 → μx>μx0の時:対立仮説が正しい時
σx2=μx2{exp(σy2)-1}=2.1879142×{exp(1)-1}≒8.225362
t(n-1,2β')・SEx=μx - mxU=2.187914 - 2.07755=0.1103639
0.1103639 t (n− 1,2β ' )= 0.2867989 ≈ 0.3848128 t(99,2β')=0.3848128 の時の 2β'=0.701202 ∴検出力(1-β')=1 - 0.350601=0.649399 (65%) ※w=exp(σy2)=exp(1)=2.718282 と置くと xの分布の歪度:
√β1= (w+2) √ w− 1= (2.718282+2)× √ 2.718282− 1= 6.184877 xの分布の尖度:β3 - 3 = w4 + 2w3 + 3w2 - 3≒113.9364 尖度と歪度については(注2)参照
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
11/20
統計学⼊⾨−第2章
2/15/2019
以上のように正規分布するyを用いて検定した時の検出力が80%であるのに対して、対 数正規分布する元のデータxを用いて検定した時の検出力は約65%になり、15%ほど悪く なります。 この平均値の検定に対して、順位平均値を検定する場合はyを用いて検定して もxを用いて検定しても検出力は変わりません。 そしてyを用いた時の平均値の検定に対 する順位平均値の検定の漸近相対効率は約95%であり、標本集団が100例の時の検出力は
平均値の検定よりも順位平均値の検定
約79%になります。 したがってxを用いた時は、
の方が検出力が高くなります。
ただし正規分布では平均値=中央値=順位平均値になるので、平均値の検定と順位平均 値の検定は実質的に同じ帰無仮説になります。 しかし対数正規分布では平均値と中央値
平均値の検定の帰無仮説と順位平均値の帰無仮説は別 のものになり、検定の目的も科学的意義も異なります。 そのため「平均値の検定よりも と順位平均値が一致しないため、
順位和検定の方が検出力が高いので順位和検定を用いる」というのは、「天体望遠鏡より
科学的
も顕微鏡の方が倍率が高いので顕微鏡を使って天体観測をする」ようなもので、
に非合理です。 (注3) データが正規分布するかどうかを調べる手法には色々なものがあり、それらの手 法はたいてい正規性の指標を検定することによって行います。 しかし正規分布は理想分
正規性の検定
布であり、厳密に正規分布するデータは現実には存在しません。 そのため
は例数が多くなれば必ず有意になります。
したがってデータの正規性を検討するためは、正規性の指標の許容範囲つまり「正規性 の指標がこの範囲に収まっていれば実用上は正規分布と見なすことができる範囲」を設定
試験の必要例数を求めて同等性検定と区間推定を行う必要があります。 そして正規
し、
性の指標の信頼区間が許容範囲内にすっぽりと収まっていれば、近似的に正規分布とみな すことができます。 (→1.7 ハンディキャップ方式の検定)
歪度と尖度を用い た手法を紹介しましょう。 歪度と尖度の計算には積率(モーメント、moment)という値を ここでは正規性の指標として計算が比較的簡単で、区間推定も容易な
利用します。 (→1.4 推定 (注4))
(0) 原点まわりのr次積率(moment of order r about zero) 母数:μ'r=E(xr) 推定値: m' = r
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
∑ xr n
12/20
統計学⼊⾨−第2章
2/15/2019
(1) 平均まわりのr次積率(moment of order r about mean) 母数:μr=E(x-μ)r 推定値: m = r
∑ (x− m)r n
便利な計算法
{
(x− m)3 1 ∑ m= = 3
n
n
{∑ {∑
( x− m)4 1 ∑ m= = 4
n
n
}
2
(x− m)2 1 ( ∑ x) ∑ m2= = ∑ x 2− n n n
x2 ∑ = − m2
n
}
3
3( ∑ x)( ∑ x2) 2(∑ x) x − + n n2 3
2
}
4
4 ( ∑ x)( ∑ x3 ) 6 ( ∑ x) (∑ x 2) 3( ∑ x) x − + + n n2 n3 4
(2) 母集団の場合 m3 m4 尖度: β = 2 m22 m 3/2 2
歪度: √β 1 =
(3) 標本集団の場合(こちらが一般的) 歪度: g1=
k3 k
3 /2 2
尖度: g2 =
k4 k 22
フィッシャーのk統計量(累積率)であり、次のようにして求めま
ただしk2、k3、k4は す。
1 n 1 x :平均値 k 2= m2= (x− m)2 :不偏分散 ∑ ∑ n− 1 n− 1 n 3 2 n ∑ ( x− m) n k 3= m3 = (n− 1)(n− 2) (n− 1)(n− 2) n2 {(n+1)m4 − 3(n− 1)m22 } k4= (n− 1)(n− 2)(n− 3) k 1=
これらの値には図2.3.2〜図2.3.7のような性質があります。
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
13/20
2/15/2019
統計学⼊⾨−第2章
図2.3.2 右傾
図2.3.3 対称
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
14/20
2/15/2019
統計学⼊⾨−第2章
図2.3.4 左傾
β2<3 g2<0
図2.3.5 鈍峰
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
15/20
統計学⼊⾨−第2章
2/15/2019
β2=3 g2=0
図2.3.6 正規
β2>3 g2>0
図2.3.7 鋭峰
これらの値を利用した歪度と尖度の検定と推定、つまり√β1=0、β2=3の検定と推定は 次のようにして行います。
6 n(n− 1) SE(g 1)= √V (g 1) (n− 2)(n+1)(n+3) 24 n(n− 1)2 SE(g 2)= √V (g 2) V (g 2)= (n− 3)(n− 2)(n+3)(n+5) | g1| ≧t(∞, α)の時、有意水準αで有意 歪度の検定: z 1= SE (g 1) V (g 1)=
歪度の推定:√β1の100(1-α)%信頼区間=g1±t(∞,α)SE(g1) 尖度の検定: z 2=
| g2| SE (g2 )
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
≧t(∞,α)の時、有意水準αで有意 16/20
統計学⼊⾨−第2章
2/15/2019
尖度の推定:(β2-3)の100(1-α)%信頼区間=g2±t(∞,α)SE(g2) t(∞,α):正規分布における100α%点の値
ジャック・ベラ検定(Jarque-Bera test) という手法もあります。 この手法は区間推定を行うのが難しいのであまりお勧めできま 尖度と歪度を別々に検定せず、一緒に検定する
せんが、一応、紹介しておきます。 検定統計量: JB=
{
} (
n 1 n 2 1 2 ≧χ2(2,α)の 2 6 β1+ 4 (β2− 3) = 6 g1 + 4 g 2
)
時、有意水準αで有意
コルモゴロフ−スミ
また2種類の相対累積度数分布が一致しているかどうかを検定する
ルノフ検定(Kolmogorov-Smirnov test)という手法があります。 この手法を利用してデー タが正規分布するかどうかを検定できます。 これは正規分布だけでなく、色々な理論分
かなりラフな手法ですから、正規分布に関しては
布の検定に応用できます。 その代わり
尖度と歪度を利用した手法の方が正確かつ便利です。 ○1標本の場合 D=max|P0(x)-P1(x)| として χo2=4D2n≧χ2(2,α)の時、有意水準 αで有意 P0(x):理論分布関数 P1(x):実際の相対累積度数 n≫0:例数 ※P0(x)を正規分布の分布関数にすれば正規性の検定になる。 ○2標本の場合 D=max|P1(x)-P2(x)| として
≧χ2(2,α)の時、
有意水準αで有意 P1(x):群1の相対累積度数 P2(x):群2の相対累積度数 n1、 n2≫0:群1、群2の例数 医学分野では近似的に対数正規分布するデータがたまにあります。 そして対数正規分 布の歪度と尖度は理論的に次のようになります。 (→2.2 データの分布と統計手法 (注 4)) 対数変換後のデータ y=ln(x) の分散を σy2 として、w=exp(σy2) と 置くと 歪度:
√β 1 = (w + 2 ) √w – 1
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
尖度:β3 - 3 = w4 + 2w3 + 3w2 - 3
17/20
統計学⼊⾨−第2章
2/15/2019
対数変換後の平均値μyを指数変換すると元のデータxの幾何平均値μx*になり、これは
平
中央値μx'と一致します。 そこで統計的仮説検定の検出差を10%未満とする、つまり
均値の差が10%未満なら科学的に同等として、元のデータの平均値μxと中央値μx'の差 が10%になる時の条件を求めてみましょう。
() 2
μx σ 2 = exp y = 1.1 より σy =2×ln(1.1)=0.1906203 μx ' 2 w=exp(σy2)=1.21 CVx2=exp(σy2) - 1=w - 1=0.21 → CVx=0.4582575 √β1=(1.21 + 2)×√0.21=1.4710068 β3 - 3=1.214 + 2×1.213 + 3×1.212 - 3=7.079011 この計算結果から、平均値の差の科学的同等範囲つまり許容範囲を10%未満にした場
変動係数CVが約46%未満(対数正規分布は変 動係数が一定という性質を持つ)なら、近似的に正規分布として扱っても科学的に意義 があるほど平均値に影響を与えないことがわかります。 そしてその時の歪度は約1.5で 合、データが近似的に対数正規分布する時は
尖度は約7です。 平均値の差の許容範囲が10%よりも大きいと歪度と尖度の許容範囲はも っと大きくなり、例えば20%の時は1.5倍ほどになります。 このことから歪度と尖度の許 容範囲は次のような値を一応の目安にし、データの科学的な意義を考え合わせてこれを少 し調整すれば良いと思います。 歪度と尖度の許容範囲(母集団):|√β1|<1〜3 |β2-3|<5〜10 歪度と尖度の許容範囲(標本集団):|g1|<1〜3 |g2|<5〜10 しかし科学雑誌の査読者がしばしば要求する正規性はこのように厳密なものではなく、 単なる慣習的なものにすぎないことがほとんどです。 そのような時は上記の検定を行っ
g1とg2の値が上記の条件を満足している
て有意にならなかったと回答するか、あるいは
から近似的に正規性があると回答すれば良いと思います。
また独立性の検定であるχ2検定は、度数が近似的に正規分布する時、実現度数と理論 度数の差の平方が近似的にχ2分布することを利用した統計手法です。 そのためt検定を
χ2検定を適用したデータについても正規性
適用したデータに正規性を要求するのなら、
を要求しなければ整合性が取れません。 しかし正規性の要求は単なる慣習的なものにす http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
18/20
統計学⼊⾨−第2章
2/15/2019
ぎないため、このような要求をする査読者はまずいないでしょう。 (→3.4 2標本の計数 値 (2)名義尺度 (注1)、付録1 各種の確率分布 (2)χ2分布)
(注4) 研究現場で用いられる統計手法の大半は線形モデル(linear model)に基づいてい ます。 そしてこの線形モデルは線形性(linearity)を最も重要な前提にしています。 こ の線形性は説明変数と目的変数の関係が直線関係であるという線形性ではなく、パラメー タ間に線形性が成り立つというものです。 例えば2次関数「y=b0+b1x+b2x2」はxとyの関 係は曲線関係つまり非線形ですが、xに関する3つの項を足すとyになるのでパラメータ b0、b1、b2に関しては線形です。 (→14.1 コンパートメントモデル (注2)) この線形性は現実のデータでは近似的にしか成り立たないので、この前提で求められた パラメータには必ず誤差があります。 したがって結果を解釈する時は線形性の誤差を考 慮に入れる必要があります。 例えば前述の2次関数「y=b0+b1x+b2x2」では、3つのパラメ ーターb0、b1、b2に線形性に起因する誤差が入りこんでいるわけです。
誤差分散の正規性と
そして線形モデルのパラメータについて検定と推定を行う時は、
独立性、そしてたいていは等分散性を前提にします。 これらも現実のデータでは近似的 にしか成り立たないので、この前提で求められた検定結果と推定結果には必ず誤差があり ます。
これらの前提が成り立たないと検定と推定が 行えないわけではなく、効率が悪くなったり、結果に誤差が入り込んだりするだけだと ただし注意しなければならないことは、
いうことです。 そのため(注2)で説明したように、これらの前提に起因する誤差が検定結 果と推定結果に及ぼす影響を定量的に検討し、それが許容範囲内である、または何らかの 方法で誤差を補正できるのなら検定と推定を行うことができます。 (→3.2 2標本の計量 値 (注2)) またこれらの前提は線形性とは無関係のため、パラメーターを求めること自体には影響 しません。 つまり線形性を前提にして求められたパラメータには線形性に起因する誤差 が入り込むだけなので、検定と推定を行わないのなら――つまり記述統計学的な手法では
最も重要な線形性は問 題にされず、誤差分散の独立性と等分散性もほとんど問題にされず、何故か正規性だけ が強調されています。 しかも誤差分散の正規性ではなくデータそのものの正規性と誤解 これらの前提は不必要です。 ところが現在はこれらの前提のうち
されたり、正規性が成り立たないと線形モデルそのものが成り立たないと誤解されたりし ています。 http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
19/20
統計学⼊⾨−第2章
2/15/2019
線形モデルに限らず、統計手法で用いられるモデルは全て数学的に理想化されたモデル です。 そのため全ての統計手法は、理想化されたモデルを現実のデータに近似的に当て はめることができるという前提で利用します。 不正確な現実のデータに理想的な数学モ デルを当てはめるのですから、どんなモデルを用いようと所詮は近似にすぎません。 ど
科学的に解釈しやすく目的に合ったモデルを用いるべきです。 それからモデルを選択する時に大切なことは、現実のデータによく当てはまるモデル ではなく、科学的に妥当なモデルを選択することです。 一般にモデルを複雑にすればす うせ近似なら
るほど、現実のデータによく当てはまります。 例えば2つの項目の関係をモデル化する 時、1次式よりも2次式の方がよく当てはまり、(データ数−1)次式にすれば完全に当てはま ります。 しかしいくら当てはまりが良いからといって、(データ数−1)次式が科学的に妥 当だとは思えません。 できるだけ単純かつ科学的に妥当なモデルを用いるべきです。
最終更新日:2018年7月18日 第2節へ
第4節へ
[email protected] Copyleft (C) 2000-2018 SNAP(Sugimoto Norio Art Production)
http://www.snap-tck.com/room04/c01/stat/stat02/stat0203.html
20/20