生物（医学）統計学がむずかしい理由

西内啓さんによると[注１]、統計学が最強の学問である理由は、「人間の制御しうる何物についても、その因果関係[注2] を分析できるから」であり、この統計学の汎用性は、どのようなことの因果関係も科学的に検証可能なランダム化比較試験によって支えられています。ランダム（無作為）とは、「意図的に手を加えることなく、偶然にまかせること」（広辞苑）であり、十分にランダム化してしまえば、「検定したい１因子」以外の因子（背景因子）は群間で同じとなります。適切にランダム化された比較試験によって「ある結果」がえられたときは、「ある結果」の原因は「検定したい１因子」以外ありえないということになります（その他の因子は全て同じハズだから）。このように因果関係の解析においてランダム化比較試験は強力で、それに支えられた統計学は最強の学問と言っていいでしょう。しかしながら現実問題として（倫理的な問題などから）ランダム化比較試験は実行不可能であることも少なくありません。ランダム化比較試験（＝実験）ができないときは、どうしたらよいのでしょうか。科学は観察と実験からなり、実験ができないときは観察するしかありません。そのための手法が、重回帰分析やロジスティック回帰分析、コックス比例ハザードモデルなどの多変量解析ということになります。原因と想定される因子（説明変数）が独立して（他の因子の影響を考慮しても）、従属変数（結果）と相関することを多変量解析は示してくれます。因果関係の「決定的」な判定はできませんが、共変量について十分に考慮した多変量解析から得られた結論は一定のエビデンスとみなしてよいと考えられています。

確かに統計学は強力です。しかし、強力なランダム化比較試験によって（もしくはランダム化比較試験のメタアナリシスによって）「絶対間違いない」結論が得られたとしても、医学的に意味不明なものが将来的に世紀の大発見となることは少ないでしょう（無いとは言えませんが----）。いうまでもなくP値の程度（小ささ）[注３] と得られた結果の臨床的意義は無関係です。医学論文では「臨床的に重視すべき結果が得られている」ことがどれくらい信頼性があるのかを「健全な統計手法」を用いて定量的に示すことが重要です[Ref. 1] 。生物（医学）現象を解析するためには、統計学の知識だけで十分でしょうか？厳密な因果関係の証明や強い有意性（小さなP値）を求めることに没頭して、何かを忘れていないでしょうか？

なぜ生物統計学は難しいのか？生物（や医学）現象にどうしようもなく内在する複雑な関係性や関係性をもたらしている機序は、事務的な（ルーチンの）統計処理では対応できないからです。高血圧は、血圧値を独立変数として重回帰分析でOKと思っても、高血圧という変数は血圧値だけで決まるものではなく、食塩摂取量、肥満、糖尿病、メタボ、慢性腎臓病などが関与して高血圧という診断になっているので、高血圧はカテゴリー変数としてロジスティック回帰であつかうべきと臨床家は考えるでしょう。また、遺伝子をノックアウトして表現形が変われば、変化した表現形（結果）の原因（特定の遺伝子）は明らかであると基礎生物学者は考えます。しかし、一つの遺伝子をノックアウトしたことで、複数の効果が発生し、その効果の方向性が異なるとき、「その結果」の原因は「一つの遺伝子」であっても「一つの機序」ではありません。「人間の制御しうる何物についても、その因果関係を分析できる」統計学は確かに最強の学問ですが、生物現象は人間が（頭で考えるほどには）制御できるものではありません。どうしたらいいのでしょうか？寝ても覚めても、ずっと考え続けるしかないのでしょうか。答えは分かりませんが、ゆっくり寝て目覚めた休日の朝早く、多変量間の関係性を想像したり、図に書いたりしてみると「なんだそうだったんだ」とか「なんで気づかなかったのだろう」といったことがあるかもしれません。こんなやり方は非効率で贅沢でしょうか？

注１：統計学が最強の学問である　（西内啓、ダイヤモンド社）

注２：因果関係とは、ある原因によってどのように結果が変わるかということ。すなわちある原因（説明変数、独立変数）によりある結果（アウトカム[成果指標]、従属変数）がもたらされることを因果関係という。

注３：時々、「有意差が出さえすれば良いのか？」と言いたくなることがあります。いうまでもなくP値の程度（小ささ）とエフェクトサイズ（の大きさ）は無関係です。つまりP値がいくら小さくて（有意差が明らかでも）得られた結果の臨床的意義が大きいとは（まったく）言えません。P<0.05の意味は帰無仮説のもとでは（帰無仮説が正しい＝群間に差がないとすると）、観察された現象がいかに不自然かということを示すだけです。言い方を変えると、帰無仮説を棄却した時（差があると結論した時）に、実は帰無仮説が本当だった（差がない）という危険性が5%未満であるということです。P値だけしか頭にないときに、特に危ないのは多重検定の場合で、各テストにおいてP<0.05を基準として10回のテストを行うと、少なくとも１つでP<0.05が出る確率は約40%にもなります（0.95の10乗≒0.599、1−0.599≒0.4）。あらかじめ多重比較についての補正が厳密に定義されていない場合は、P値よりも効果や相関の強さと95%信頼区間を記載すべきです。

Ref. 1: Harrington D, D'Agostino RB Sr, Gatsonis C, Hogan JW, Hunter DJ, Normand ST, Drazen JM, Hamel MB. New Guidelines for Statistical Reporting in the Journal.N Engl J Med2019;381:285-286.