統計学が最強の学問です。なぜならランダム化比較試験を行なえば「人間の制御しうる何物についても、その因果関係[注1] を分析できるから」です。ランダム化してしまえば、ランダム化に関わる1要因以外は群間で同じなので、得られた群間の差(結果)の原因は「その1要因」以外にありえないからです。しかし、現実はそう単純ではありません。例えば、多数例の解析や長期間の追跡調査では欠損値は避けがたいとも言えます。臨床研究(特にランダム化比較試験)における欠損値の取り扱いについて解説した記事があります[Ref. 1] 。
Intention-to-treatの原則[注2] により、一旦ランダム化された全ての対象は—プロトコールが遵守されたか否かにかかわらず—解析から除外してはいけません。つまり欠損値となった症例も解析に加えなくてはいけないし、除外すると検出力が低下し、(より重篤な問題として)結果にバイアスを生じることとなります。
なぜ欠損値が出るのでしょうか?攻撃は最大の防御—欠損値を処理する最も良い方法は欠損値を出さないことでしょう。
どれくらいの頻度で欠損値が出たら、結果に影響を及ぼすのでしょうか?一般的に研究者は5%と20%の間を想定しています。しかし、研究者は(欠損値の数宇を考えるより)欠損値を最小限にすることに集中するべきでしょう。
欠損値を処理(補完)するための統計手法としては、多重代入法[注3] が推奨されています。ここで大事なのは欠損値が生じる機序であって、完全にランダムに生じるのか、比較的ランダムに生じるのか、それともランダムに生じるのではないのかです。ランダムでなく生じた欠損値にも多重代入法は適応可能ですが、その欠損値が生じる機序について十分に認識しておくことが重要です。さらに、全ての状況が一定の手順で(ルーチンで)処理できるわけではないので、様々な仮説を設定して(欠損値の生じる様々な状況を想定して)複数の解析をやってみるべきでしょう。
注2:intention-to-treatの原則とは、いったんランダム化された症例はすべて最終解析に含めなくてはいけないという原則です。たとえばプロトコールを遵守していない逸脱例であっても、その例を除外することでバイアスがかかる可能性があります。「いったんランダム化」した群から適当に何例か除外したら、ランダム化ではなくなることはある程度は直感的に理解できるのではないでしょうか。よくあるのは実薬群で経過を見ているうちに想定外の疾患を発症したものが何例かあり、これを脱落例として最終解析を行なうと実薬群が有意に良好な結果が出たとして、実は脱落例は実薬による予想できない重篤事象であった場合、全例で解析すると実薬群が不良という逆の結果となる事がありえます。例えば「死ぬほどきついトレーニング」の効果に関するランダム化比較試験をしてみましょう。対照群は(ある程度の有効性は既に確認されている)「標準トレーニング」です。このランダム化比較試験が行なわれた理由は身体的に強いアスリートから「標準トレーニング」では物足りないという意見が出たからです。そこでランダム化比較試験を行なうと「死ぬほどきついトレーニング」によって成績は有意に向上しました。しかし、「死ぬほどきついトレーニング」では本当に死亡した例が出てしまいました(「死ぬほどきついトレーニング」ですから当然の結果かもしれません)。ここで死亡例を脱落例として除外した(intention-to-treatではない)解析は正当でしょうか?intention-to-treatの原則に従って解析すると「死ぬほどきついトレーニング」は無効もしくは禁忌であり、おそらく監視委員会からの勧告で死亡例が出た時点で中止となるでしょう。ランダム化比較試験がintention-to-treatの原則で行なわなくてはいけない理由は理解していただけたと思います。
注3:多重代入法とは—欠損値を代入した複数のデータセットを(統計手法によって)作成し、それぞれの代入済みのデータセット(補完された完全データ)を用いた解析により、複数の解析結果を得て、さらにその複数の解析結果を統合することで最終的な解析結果の精度を高めることができます。
Ref. 1: Yeatts SD, Martin RH. What is missing from my missing data plan? Stroke2015;46:e130-132.