統計学⼊⾨−第2章
2/15/2019
統計学入門
玄関>雑学の部屋>雑学コーナー> 前口上 目次
第1章
第2章
第3章 第4章 第5章 第6章 第7章 第8章 第9章 第10章
第11章 第12章 第13章 第14章 第15章 第16章 第17章 第18章 第19章 第20章 付録 12345
6
2.6 尺度合わせと外れ値 (1) 尺度合わせ
臨床試験などで次のような表をよく見かけます。 表2.6.1 全般改善度
群 著明改善 中等度改善 軽度改善 不変 悪化 計 改善率 クダラン投与群 8 12 45 35 0 100 65.0 プラセボ投与群 0 25 25 35 15 100 50.0 全体:Mann-WhitneyのU検定 zo=2.052 * (p=0.0402) 改善率(軽度改善以上を改善とした時):χ2検定(2x2) χo2=4.010 * (p=0.0452) この表を度数分布図にすると次のようになります。
http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html
1/7
統計学⼊⾨−第2章
2/15/2019
例 数
著明 中等度 軽度 不変 悪化
改善
⾮改善
図2.6.1 グダラン群の度数分布図
例 数
著明 中等度 軽度 不変 悪化
改善
⾮改善
図2.6.2 プラセボ群の度数分布図 第1節で説明したように、レベルの高い尺度のデータをレベルの低い尺度のデータに変換するこ
尺度合わせといいます。 表2.6.1の改善率は順序分類尺度である改善度を改善と非改善に2分
とを
類して名義尺度に変換したもので、尺度合わせの典型的な例です。 軽度改善以上を改善にしたと
著明改善も中等度改善も軽度改善も医学的な意義は全て同じで、ひっくるめて改善 と考えられ、同様に不変も悪化も医学的な意義は全て同じで、ひっくるめて非改善と考えられ るという判断をしたことに他なりません。 いうことは、
確かにそのように考えた方が良い時もあるでしょう。 しかし、それならなぜ最初から「改善」 と「非改善」の2段階で判定しなかったのでしょうか? 医学的に何らかの意味があると判断した からこそ、5段階で判定したのではないでしょうか?
最初に決めた5段階評価の結果が重要であり、改善率は単なる目安にすぎな
この場合はやはり
いと考えるべきでしょう。 目安ですからあまり信頼できない証拠に、表2.6.1で中等度改善以上 を改善とした時の改善率はクダラン群20%に対してプラセボ群25%になり、結果が逆転してしま http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html
2/7
統計学⼊⾨−第2章
2/15/2019
います。 これではどちらを信用して良いのか判断に迷うでしょう。 しかしこれは単なる目安に すぎないので、気にしないで5段階評価の結果だけを信用しましょう。 レベルの高い尺度のデー タほど多くの情報を持っていて、その情報のある面だけを取り上げたのが尺度合わせですから、 別々の方法で尺度を合わせれば別々の結果になって当然なわけです。 尺度合わせが科学的に意義を持つのは、試験途中で計画段階には予測していなかったような事 態が発生し、どうしても評価基準を変えざるを得なくなった時だけです。 もしそのような事態に なったら、今度は古い評価基準による結果が科学的な意義を持たなくなります。 そのため古い評 価基準による結果は捨て去り、尺度合わせをした結果だけを信頼しなければなりません。 しかし
新しい評価基準でもう一度試験をやり直すのが賢明でしょう。 そし て結論的なことを言えば、原則として尺度合わせはするべきではなく、元のデータが持っている 情報を最大限有効に利用することが大切です。 厳密に言えば、こんな時は
ちなみに表2.6.1のようなデータを尺度合わせして改善率を求めるのは、改善度という順序分類
マン・ホイットニィ(Mann-Whitney)のU検定を適用
尺度のデータにノンパラメトリック手法である
した時、何を評価指標にして2群を比較しているのか研究者——または製薬企業の臨床試験担当者—— がよく理解していないことが原因のひとつです。
U検定は2群のデータを総当りで比較し、大きい方を勝ちとした時の2群の勝率を比較する検定手 法です。 この勝率は図2.6.1および図2.6.2の度数分布図の中心位置のズレ、つまり順位平均値の ズレ具合と比例します。 もし2群の順位平均値がズレていなければ、2群の勝率はどちらも50%に なります。 もしズレていれば、順位の大きい方にズレている群の勝率が50%よりも大きくなりま す。 そして2群の度数分布が完全に分離していれば、2群の勝率は100%と0%になります。 この
U検定は要約値としてデータの勝率を用いる手法であり、それは要約値として度数分布の 中心位置つまり順位平均値を用いることに相当します。 したがって表2.6.1のデータにU検定を適用したということは、改善度の評価指標として勝率ま たは順位平均値を用いることに他なりません。 そのため改善率の代わりに勝率を表記すれば、尺 ように
度合わせをしなくても2群の度数分布の中心位置のズレの目安をつけることができます。 勝率は0 〜100%の間を変動し、改善率と同じような感覚で解釈することができる上に、改善率と違って尺 度合わせする必要がないので正確かつ合理的です。 (→3.4 2標本の計数値) 例えば表2.6.1のデータについて著明改善→悪化の順に順位を付け、改善よりも悪化の方がデー タが大きいということにします。 するとクダラン群の勝率は42%、プラセボ群の勝率は58%で、
プラセボ群の方が悪化側に8%(例数にすれば16例分)ずれています。 表2.6.1と図2.6.1および図 2.6.2を見れば、この8%という勝率の差を感覚的に理解することができると思います。 http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html
3/7
統計学⼊⾨−第2章
2/15/2019
(2) 外れ値
データの中に1つか2つだけ他のものと極端に値が異なっているものがあって、 「こいつさえなければ、もっときれいな結果になるのに……!」
外れ値(outlier)または異常
と、悔しい思いをされた方も多いと思います。 そこでそのにっくき
値を抹殺せんものと棄却検定(rejection test)なるものを持ち出してきて、次のように居直って いる論文をたまに見かけます。 「棄却検定によって
科学的に棄却したんだ、何か文句あっか!?」
読む方は難しげな検定の名前を見ただけで畏れ入ってしまい、わけもわからずに納得してしま いがちですが、これが大いなる間違いなのです。 棄却検定とは、本当はデータを捨て去るための ものではなく外れ値かどうかチェックするためのもので、
チェック検定とでも名付けるべき手法
です。 この手法の原理は第1章で説明した検定と同様で、標本平均によって推定した母平均を基 準値にし、目的のデータがこの基準値と異なっているかどうかを検定します。 (→1.5 有意性検 定の考え方) 実際の計算式は外れ値まで含めた全例の例数をn、標本平均をm、標準偏差をSD、目的のデータ をxとすると次のようになります。
|t o|=
| x− m| ≧t(n-1,α)の時有意水準αで有意 SD √1+1/n
式中で分母の標準誤差が第1章の式と多少違っているのは、基準値の代りに標本平均を、標本平
増山の棄却検定と呼ばれています。 これ以外 にもトンプソン(Thompson)の棄却検定やスミルノフ(Smirnov)の棄却検定などがあり、原理は全て 均の代りにデータを用いたためです。 この手法は
同じです。 (注1) 本来、棄却検定は外れ値の許容範囲——この範囲より外側にあるデータは科学的に外れ値と考え られるという範囲——を決め、統計的仮説検定を行う必要があります。 有意性検定の場合は、例数 が大くなれば外れ値のない分布でも両端のデータが必ず有意になってしまうからです。 そして棄
他のデータとは違った情報を含んでいる
却検定で有意になり、許容範囲から外れているデータは
可能性が高く、データを変動させている原因をもう一度調べ直す必要があります。
そしてその原因が例えば試験の手違いとか、単なるデータの記入ミスとかいった試験の目的と は無関係な要因であった時に、初めて外れ値を棄却することになります。 原因が試験の目的と関 係があったら、当然、そのデータは重要な結果になるので棄却するなどというのはとんでもない ことです。 http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html
4/7
統計学⼊⾨−第2章
2/15/2019
例えば
薬の副作用は本質的に外れ値であり、これを棄却してしまったら副作用のある薬など無
くなってしまい、製薬企業は大喜びするでしょう。 副作用と思われる外れ値がある時は、外れ値 が発生した被験者と発生しない被験者を別々に解析し、どのような時にどれくらいの確率で副作 用が発生し、どの程度の値になるか、そして副作用が発生しない被験者についてはどの程度の値 になるか……といったことを詳細に検討するべきです。 またそれとは反対に試験ミスによって得られたデータは、たとえ棄却検定で有意にならず、許 容範囲内に入っていたとしても、棄却しなければならないことは言うまでもありません。 原因不明の外れ値については次のような対処方法があります。 1. 外れ値を除外して解析した結果と、外れ値を含めて解析した結果を比較検討する。 →
分析(sensitivity analysis)
感度
2. 外れ値を含めて解析する。 3. データに順位を付け、順位を用いて解析する。 → ウィルコクソンが順位和検定を開発した のは外れ値の処理に困ったため
異常値か︖ ↓ データの順位→ 1 2 3 4 5 6 7
8 ↑ 順位にすると外れ値が 外れ値ではなくなる
図2.6.3 外れ値の例
3番目の順位を利用する方法は尺度合わせに相当するためお勧めできません。 ウィルコクソン が順位和検定を開発したのは、実は外れ値の処理に困ったからです。 図2.6.2を見ればわかるよ うに、データに順位を付けると外れ値が外れ値ではなくなります。 そのため順位和検定を適用す れば、たとえ外れ値があっても外れ値がない時と同じように検定することができます。 ところが http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html
5/7
統計学⼊⾨−第2章
2/15/2019
外れ値が薬剤の副作用による異常値だとしたら、それを外れ値ではなくして解析するのは非合 理です。 そんなことをすれば副作用が大幅に減って、やはり製薬企業は大喜びするでしょう。 また外れ値がある時は図2.6.3のようにデータの分布が歪むため、正規分布からずれることにな
データが正規分布していない時はノンパラメトリック手法を用いよ!」とい
ります。 そこで「
う数学者の主張を盲信すると、このデータに順位和検定を適用して副作用を見逃してしまうこと
要約値に関する科学的な意義を無
になります。 図2.6.2と第3節の図2.3.1を見れば、この主張が
視した乱暴な主張であり、これを盲信することの危険性をよく理解できると思います。 (→2.3 パラメトリック手法とノンパラメトリック手法)
2番目の外れ値を含めて解析する方法は、結果だけ見ていたら外れ値が存在したことがわからな いので、やはりあまりお勧めできません。
感度分析を行う方法がお勧めです。 外れ値を除外して解析した結果は、外
したがって1番目の
れ値は別の要因――例えば薬剤の副作用――で変動したと考えられるので別々に解析することに
別の要因がない集団の結果をシミュレートしたものになります。 そして今後の研究
した時の、
によって同じような外れ値が多く観測されれば、外れ値だけで解析して、外れ値の正体とその発 生要因――例えば副作用が発生しやすい要因――を突き止めることができるかもしれません。
たま たま外れ値の周辺のデータが観測されなかったと考えられる時の結果をシミュレートしたもの 外れ値を含めて解析した結果は、外れ値も他のデータと同じ要因で変動しているものの、
になります。 そして現在のデータではどちらの解釈が正しいのか明確には判断できないので、正 直に両方の結果を提示して、どちらの結果がより合理的と考えられるか考察しておきます。 つま
外れ値が存在したことを明記し、現在のデータから導き出される複数の結果とその解釈を列 挙して、今後の検討の余地を残しておくわけです。 り
外れ値は要約された平均値だけを眺めていたら、ともすると見逃してしまいがちなものです。 しかしそれはひょっとすると何か新しい現象なのかもしれませんし、そこから新しい発見がある
過去の偉大な発見の多くは、こうした外れ値について1つ1つ真剣に検
かもしれません。 事実、
討したからこその結果です。 レントゲンによるX線の発見しかり、フレミングによるペニシリン の発見しかり、パスツールによるワクチンの発見しかり、例をあげたら枚挙にいとまがありませ ん。 「観察の分野では、幸運は備えのある人だけにもたらされる」 というパスツールの言葉は研究者にとって深く味わうべき言葉であると同時に、統計学の限界を 暗示する言葉でもあります。
http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html
6/7
統計学⼊⾨−第2章
2/15/2019
しょせん統計学はデータを要約するための手段にすぎず、データの科学的な意義を決定するた
数字に振り回されて、科学の本質を見失ってしまうのは
めのものではありません。 いたずらに
愚の骨頂です。
(注1) 母分散をσ2とすると、分子(x-m)の分散は次のようになります。
( )
2 1 2 2 V ( x− m)= V (x)+V (m)= σ + σ = 1+ σ n n
そして分子(x-m)の標準偏差すなわち標準誤差は次のようになります。
SE= √ V (x− m)=
1 1+ )σ ( √ n
2
実際の計算ではσ2を不偏分散Vで推定して次のように計算します。
SE= √ V (x− m)= ∴ t o=
1 1 1+ )V = SD 1+ ( √ n √n
x− m x− m = SE SD √1+1/n
最終更新日:2014年8月23日 第5節へ
第3章へ
[email protected] Copyleft (C) 2000-2018 SNAP(Sugimoto Norio Art Production)
http://www.snap-tck.com/room04/c01/stat/stat02/stat0206.html
7/7