欠損値解析計画から無くしたものは何?

統計学が最強の学問です。なぜならランダム化比較試験を行なえば「人間の制御しうる何物についても、その因果関係 [注1] を分析できるから」です。ランダム化してしまえば、ランダム化に関わる1要因以外は群間で同じなので、得られた群間の差(結果)の原因は「その1要因」以外にありえないからです。しかし、現実はそう単純ではありません。例えば、多数例の解析や長期間の追跡調査では欠損値は避けがたいとも言えます。臨床研究(特にランダム化比較試験)における欠損値の取り扱いについて解説した記事があります [Ref. 1] 。

 

Intention-to-treatの原則により、一旦ランダム化された全ての対象は—プロトコールが遵守されたか否かにかかわらず—解析から除外してはいけません。つまり欠損値となった症例も解析に加えなくてはいけないし、除外すると検出力が低下し、(より重篤な問題として)結果にバイアスを生じることとなります。

 

なぜ欠損値が出るのでしょうか?攻撃は最大の防御—欠損値を処理する最も良い方法は欠損値を出さないことでしょう。

 

どれくらいの頻度で欠損値が出たら、結果に影響を及ぼすのでしょうか?一般的に研究者は5%と20%の間を想定しています。しかし、研究者は(欠損値の数宇を考えるより)欠損値を最小限にすることに集中するべきでしょう。

 

欠損値を処理(補完=imputation)するための統計手法としては、single imputationよりもmultiple imputationの方が好まれでいて、ロジスティック回帰が用いられたりします。ここで大事なのは欠損値が生じる機序であって、完全にランダムに生じるのか、比較的ランダムに生じるのか、それともランダムに生じるのではないのかです。ランダムでなく生じた欠損値にもmultiple imputationは適応可能ですが、その欠損値が生じる機序について十分に認識しておくことが重要です。

 

さらに、全ての状況が一定の手順で(ルーチンに)処理できるわけではないので、様々な仮説を設定して(欠損値の生じる状況を想定して)sensitivity analysisをやってみるべきでしょう。

 

注1:統計学が最強の学問である (西内啓、ダイヤモンド社

 

Ref. 1: Yeatts SD, Martin RH. What is missing from my missing data plan?Stroke2015;46:e130-132.