生物(医学)統計学がむずかしい理由

西内啓さんによると[注1]、統計学が最強の学問である理由は、「人間の制御しうる何物についても、その因果関係[注2] を分析できるから」であり、この統計学の汎用性は、どのようなことの因果関係も科学的に検証可能なランダム化比較試験によって支えられています。ランダム(無作為)とは、「意図的に手を加えることなく、偶然にまかせること」(広辞苑)であり、十分にランダム化してしまえば、「検定したい1因子」以外の因子(背景因子)は群間で同じとなります。適切にランダム化された比較試験によって「ある結果」がえられたときは、「ある結果」の原因は「検定したい1因子」以外ありえないということになります(その他の因子は全て同じハズだから)。このように因果関係の解析においてランダム化比較試験は強力で、それに支えられた統計学は最強の学問と言っていいでしょう。しかしながら現実問題として(倫理的な問題などから)ランダム化比較試験は実行不可能であることも少なくありません。ランダム化比較試験(=実験)ができないときは、どうしたらよいのでしょうか。科学は観察と実験からなり、実験ができないときは観察するしかありません。そのための手法が、重回帰分析やロジスティック回帰分析、コックス比例ハザードモデルなどの多変量解析ということになります。原因と想定される因子(説明変数)が独立して(他の因子の影響を考慮しても)、従属変数(結果)と相関することを多変量解析は示してくれます。因果関係の「決定的」な判定はできませんが、共変量について十分に考慮した多変量解析から得られた結論は一定のエビデンスとみなしてよいと考えられています。

 

確かに統計学は強力です。しかし、強力なランダム化比較試験によって(もしくはランダム化比較試験のメタアナリシスによって)「絶対間違いない」結論が得られたとしても、医学的に意味不明なものが将来的に世紀の大発見となることは少ないでしょう(無いとは言えませんが----)。いうまでもなくP値の程度(小ささ)[注3] と得られた結果の臨床的意義は無関係です。医学論文では「臨床的に重視すべき結果が得られている」ことがどれくらい信頼性があるのかを「健全な統計手法」を用いて定量的に示すことが重要です[Ref. 1] 。生物(医学)現象を解析するためには、統計学の知識だけで十分でしょうか?厳密な因果関係の証明や強い有意性(小さなP値)を求めることに没頭して、何かを忘れていないでしょうか?

 

なぜ生物統計学は難しいのか?生物(や医学)現象にどうしようもなく内在する複雑な関係性や関係性をもたらしている機序は、事務的な(ルーチンの)統計処理では対応できないからです。高血圧は、血圧値を独立変数として重回帰分析でOKと思っても、高血圧という変数は血圧値だけで決まるものではなく、食塩摂取量、肥満、糖尿病、メタボ、慢性腎臓病などが関与して高血圧という診断になっているので、高血圧はカテゴリー変数としてロジスティック回帰であつかうべきと臨床家は考えるでしょう。また、遺伝子をノックアウトして表現形が変われば、変化した表現形(結果)の原因(特定の遺伝子)は明らかであると基礎生物学者は考えます。しかし、一つの遺伝子をノックアウトしたことで、複数の効果が発生し、その効果の方向性が異なるとき、「その結果」の原因は「一つの遺伝子」であっても「一つの機序」ではありません。「人間の制御しうる何物についても、その因果関係を分析できる」統計学は確かに最強の学問ですが、生物現象は人間が(頭で考えるほどには)制御できるものではありません。どうしたらいいのでしょうか?寝ても覚めても、ずっと考え続けるしかないのでしょうか。答えは分かりませんが、ゆっくり寝て目覚めた休日の朝早く、多変量間の関係性を想像したり、図に書いたりしてみると「なんだそうだったんだ」とか「なんで気づかなかったのだろう」といったことがあるかもしれません。こんなやり方は非効率で贅沢でしょうか?

 

注1:統計学が最強の学問である (西内啓、ダイヤモンド社

注2:因果関係とは、ある原因によってどのように結果が変わるかということ。すなわちある原因(説明変数、独立変数)によりある結果(アウトカム[成果指標]、従属変数)がもたらされることを因果関係という。

注3:時々、「有意差が出さえすれば良いのか?」と言いたくなることがあります。いうまでもなくP値の程度(小ささ)とエフェクトサイズ(の大きさ)は無関係です。つまりP値がいくら小さくて(有意差が明らかでも)得られた結果の臨床的意義が大きいとは(まったく)言えません。P<0.05の意味は帰無仮説のもとでは(帰無仮説が正しい=群間に差がないとすると)、観察された現象がいかに不自然かということを示すだけです。言い方を変えると、帰無仮説を棄却した時(差があると結論した時)に、実は帰無仮説が本当だった(差がない)という危険性が5%未満であるということです。P値だけしか頭にないときに、特に危ないのは多重検定の場合で、各テストにおいてP<0.05を基準として10回のテストを行うと、少なくとも1つでP<0.05が出る確率は約40%にもなります(0.95の10乗≒0.599、1−0.599≒0.4)。あらかじめ多重比較についての補正が厳密に定義されていない場合は、P値よりも果や相さと95%記載すべきです。

 

Ref. 1: Harrington D, D'Agostino RB Sr, Gatsonis C, Hogan JW, Hunter DJ, Normand ST, Drazen JM, Hamel MB. New Guidelines for Statistical Reporting in the Journal.N Engl J Med2019;381:285-286.

脳MRI健診から得られたささやかな新知見

アルツハイマー病では記憶の障害が最初に起こるのに対して、脳血管性認知障害では遂行機能障害がその特徴であると言われてきました。私たちの経験でも、潜在性脳梗塞がある(多発する)と遂行機能が障害されますが、さらに慢性腎臓病でも遂行機能が障害されることを示しました。また、アパシーの評価が脳血管性認知障害との関連で重要ではないかということが、あちこちで言われていました。Starksteinアパシースケールを出雲のグループが和訳したものは既にあったので、これを(勝手に)ビジュアルアナログ化しました。ビジュアルアナログ化することで総得点は正規分布に近くなり、各項目の動きも定量的に評価しやすくなりました。まず高血圧と深部白質病変がアパシーに関与することを2009年の論文にまとめました。高血圧とアパシーの相関はその後の検討で、独立した相関ではなく、深部白質病変を介する間接的なもののようだということになりましたが、深部白質病変によって生じる症候としてはアパシーの再現性が良いことを確認できました。深部白質病変の成因に関しても、加齢や高血圧のような確立した危険因子に加えて、炎症(おそらくアテローマ硬化比較的大きな動脈の動脈硬化を反映する)の関与をみとめました。また、深部白質病変に伴うアパシーがあると身体活動度が低下し、運動習慣が少なく、フレイルにもなりやすいことがわかりました。このような身体面の脆弱性があると、認知機能も低下しやすくなります。身体面の脆弱性を示すものの一つに歩行速度の低下がありますが、3 m Timed Up and Go testに負荷を加えた二重課題歩行は(身体機能よりも)認知機能を反映することは前述したとおりです。身体活動度が低下すると、アルツハイマー病で最初に萎縮する脳部位である海馬の萎縮も促進されるようですが、このテーマは継続して検討中です。

脳MRI健診のオプションとしての食塩摂取量測定

2015年に食塩摂取目標値は1日あたり男性8 g、女性7 gに厳格化されましたが、日本人の食塩摂取量は1日男性14 g、女性11.8 gと依然過剰なようです。醤油や味噌からの食塩摂取量が多いのも事実ですが、今日では食塩摂取量の5〜8割は加工食品に由来するので、減塩のためには食品業界の協力が不可欠です。英国では国が食品業界に働きかけ、2005年からの3年間で塩分摂取量を10%削減することに成功しました。これにより医療費は年間2600億円減少したそうです。加工食品から多くの食塩を摂取している状況では、自分がどれくらいの食塩を摂取しているか判断することは難しくなっています。したがってまず自分の食塩摂取量を測定してみた方がよいでしょう。そういうことで私たちは脳MRI健診のオプションとして、24時間蓄尿による食塩摂取量の測定を開始しました。24時間蓄尿のためにはユリカップという1回ごとの尿の40分の1を正確にためることができる容器を用いました。脳MRI健診の最後に受診者で食塩摂取量測定を希望するヒトに集まってもらい、水を使ってユリカップの使い方を全員に練習してもらいます。あとは各自、都合のよい日に検査をします。起床時に最初の尿は捨てて(膀胱を空っぽにして)、ここから検査開始となります。あとは24時間の間はすべての尿をユリカップ蓄尿します。これだけです。せっかくの機会ですので、血圧計を持ち帰ってもらい、24時間の検査の最初と最後に朝の家庭血圧も測定してもらいます。

脳MRI健診—画像以外の項目

(1)生活習慣に関するアンケート

生活習慣アンケートでは、まず喫煙と飲酒に関する質問が最初にあります。喫煙は一日平均で10本以上を喫煙ありとしていますが、一日1本でも心血管系疾患リスクがかなり上昇するという報告もあり、今後再評価が必要かもしれません。飲酒量は純アルコール(10 g=1単位)に換算して、週4単位以上の飲酒を飲酒ありとしています。運動習慣と身体活動は重要な評価項目で、運動量はMET・h/週で、身体活動度はBaeckeの表を簡略化したものを用いています。ゆううつ気分と不眠の頻度を記入していただいて、睡眠時間や眠剤の服用の有無は調べていますが、「寝つきが悪いか」「夜中に目がさめるか」「昼間眠たいか」など睡眠の質も今後チェックしなくてはいけないでしょう。自覚的(主観的)物忘れについてvan Nordenらの論文の表の16項目について検討中ですが、量が多すぎるので簡略化する必要性があります。アパシースケールはStarksteinのスケールをビジュアルアナログ化したものを使用して、白質病変とアパシーの関係やアパシーがあると活動度が低下することなどを再現性よく示してきました。

 

(2)認知機能スクリーニング検査

以前は定番のミニメンタルテストを使用していましたが、認知機能低下に対する感度が低いので、The Montreal Cognitive Assessment, Japanese Version(MOCA-J)に変更しました。MOCAには著作権上の問題がなく、日本語版のマニュアルも整備されています。遂行機能検査はなかなかそれだけでOKというものがありませんが、私たちはmodified Stroop test慶應版)を使用しています。Stroop testは色弱を除き、できないということがなく、潜在性脳梗塞や腎機能低下との相関を示すなど有用です。認知機能検査の際には必ず教育歴を確認する必要があります。ミニメンタルテストは教育歴の影響を強く受けますが、Stroop testは教育歴と無関係でした。これらの検査はあくまでもスクリーニング検査としては優れたものですが、点数やカットオフだけで個々人を評価すべきものではないということは留意すべきです。生活習慣アンケートの主観的物忘れやアパシースケール、次に述べる「認知機能検査としての」二重課題歩行などと合わせて総合的に評価すべきです。また、被験者に対して安易に「認知機能低下の疑いがある」などと伝えるべきではありません。

 

(3)歩行検査

歩行検査はまず身体機能の測定(フレイルとの関連)という意味で歩行速度を測定します。整形外科疾患の有無を確認し、握力(利き手をチェックする)も測定します。次いで、10 m直線歩行により「普通どれくらいの速度で歩いているか」を測定し、これも定番である3 m Timed Up and Go testで歩行速度を測定します。歩数も測定しますが、歩行速度の方が良い指標のようです。3 m Timed Up and Go testに引き続き、3 m Dual Task Walking二重課題歩行—足し算をしながら歩く)を2回していただきます。この二重課題歩行は歩行検査に分類されていますが、認知機能を反映することをこれまでに報告してきました。

 

以上、脳MRI健診とは「MRI検査」しておしまいというものではありません。「脳の健康」を正しく評価するためには画像以外の項目が非常に重要です。

一般住民における脳MRI健診

MRI画像なしでも、これまで多くの疫学研究から(その多くは観察研究ですが)心血管系疾患の危険因子や認知症になりやすくする(悪い)生活習慣などについて分かってきました。しかしながら、脳卒中を発症していないヒトにも一定数の潜在性脳梗塞は存在しますし、たまたま症状がないだけで動脈硬化の程度は症候性の脳卒中患者と同じということは十分ありうることです。脳梗塞の潜在性発症(変な日本語ですが)すなわち潜在性脳梗塞は症候性脳梗塞発症の少なくとも5倍はあるという報告もあります。したがって、脳MRI画像なしでは病変の危険因子やその病変が認知機能に及ぼす影響の正確な評価は困難です。そういうことで一般住民の健診に脳MRI検査を主軸として加えることにしました。すでに述べたように、MRIの撮像条件としてT1・T2強調画像とFLAIR画像が必須となり、潜在性脳梗塞と白質病変を適切に評価できるようになりました。T2*という撮像条件により脳微小出血が比較的容易に検出できます。さらに最近ではvoxel-based morphometryを採用したVSRADなどにより海馬萎縮の程度も自動的に算出できるようになっています。このようにMRIによる画像診断技術は進化していますが、ここで重要なことは「検査」に対応する「臨床所見」の取得を十分な精度まで引き上げることです。そのために生活習慣アンケートを工夫し、認知機能検査や歩行機能(特に二重課題歩行)検査、食塩摂取量測定などを組み合わせて、「脳の健康」の全般的な評価ができるようにしてきました。以下では脳MRI健診—画像以外の項目について述べてみたいと思います。

白質病変の迷走

MRI検査の出始めには、T2強調画像で「白く光る」病変に目が眩んでいました。それはハッキリ見えるのですから、気になったのは仕方ないでしょう。しかしT2強調画像で同じように「白く光る」病変でも、T1強調画像で明らかに「黒く抜ける」病変とT1強調画像では見えないか、わずかに黒っぽく見える病変の2つに分かれることが明らかとなってきました。ここで良い仕事をしたのが有名なFazekasです。私がいつも参考にしているのは1993年のNeurologyの論文で、点状の深部白質病変は病理学的にみて虚血性変化ではなく、ゆ合性から広汎病変となっていくと虚血性変化が著明となるというものです(また、脳室壁にはりついている脳室周囲高信号域は虚血性変化ではないと記載されています)。つまり(深部)白質病変はそもそも虚血性変化としては軽度で、完全な組織破壊を伴うものではないということです。組織破壊があるものでは、脳梗塞のようにT1強調画像で明らかに「黒く抜ける」病変として識別されます。

 かなり極端な「広汎な深部白質病変」を特徴とする脳血管性認知症の1型にビンスワンガー病[注] があります。その白質病変は、脳MRIの水平断で側脳室がもっとも大きく見える断面で、脳室周囲を取り囲むように広がっています。ところが全く認知症などない健常高齢者(一般住民)でも2%ほどにはこのような広汎深部白質病変がみとめられます。ビンスワンガー病の広汎白質病変と健常高齢者の広汎白質病変との差はどこにあるかというと、まず合併する脳梗塞(基本的にラクナ梗塞です)の数が圧倒的に異なります。ビンスワンガー病では数個以上の小梗塞が散在するのが普通ですが、広汎な白質病変を有する健常高齢者ではラクナ梗塞は1個とか、無いことも稀ではありません。T2強調画像では同じように「白く光って」見えても、その白質病変が同じように「広汎」であっても、病態はかなり異なっているのです。

MRIで初めて見つかる脳梗塞—当時の状況

1990年代に脳のMRI検査が普及してきて、症状がなくても脳に病変が意外とあることがわかってきました。高血圧などの危険因子を有する高齢者ではほぼ全例にT2強調画像で「白く光る」病変があるなどという極端なものもありましたが、そこまでいかなくても高齢者の4割ほどには無症候性脳梗塞があるというものは多かったと思います。これらは白質病変や血管周囲腔の拡大を脳梗塞として含めていました(もしくは区別できていませんでした)。やがてMRIの撮像条件としてT1・T2強調画像とFLAIR画像が必須ということが共通認識となり、無症候性脳梗塞の頻度は12%ほどという数字に落ち着いてきました。もちろん脳梗塞ですから、年齢と危険因子の有無により、その集団における頻度は大きく変動します。私たちの一般住民における経験(ランダムサンプルではありませんが)では、60歳代で10人中1人、80歳代で10人中3人に無症候性脳梗塞があり、そのほとんどは脳小血管病によるラクナ梗塞[注] でした。したがってその危険因子も一般の脳梗塞と同じで、加齢以外では高血圧をはじめとするいわゆる血管危険因子でした。無症候性脳梗塞の男女比は一般の脳卒中と同じく、男性は女性より2から3割高頻度で、その差は主に(男性で圧倒的に多い)喫煙と飲酒によるものでした。無症候性脳梗塞の呼び方として、「かくれ脳梗塞」という俗名が流行しましたが、脳MRIの前ではもはや隠れることはできなくなりました。無症候性と言っても全く症状を出さないわけではなく、軽度の認知機能障害などを引き起こすので、「潜在性脳梗塞」の方が正確でしょう。