因果推論の歴史物語

因果推論の歴史物語

統計的データを集めることは、まるで宝石を集めるようなものです。しかし、それらの宝石が何から生まれたのか、その「なぜ?」という謎に迫ることが、因果関係を見つける旅の始まりです。因果関係は、原因と結果を結びつける不思議な力のようなものであり、これを見つけるためには、データだけではなく、ちょっとした魔法も必要です。

17世紀には、統計学者たちはまるで魔法使いのように確率を扱い、しかし因果関係には手が届かないと考えていました。だからこそ、「因果関係は科学的でない」という呪文を唱え、統計学はそのまま時を過ごしてきました。

統計学の世界では、データから「相関関係」を見つけることができます。かつては「因果関係は相関関係の一部だ」と言われていましたが、実は相関関係だけでは因果関係は見つからないのです。これはまるで、見かけ上のつながりが本当の関係性ではない、鏡の中の世界のようなもの。

1980年代になり、因果関係を見つけるための魔法の呪文、つまり「因果計算法」が登場しました。これはまるで因果関係の宝探しの新たな冒険。因果関係を見つけるためには、3つのステップを踏む必要があります。

最初はデータを計算する段階。これはまるで観察者が宝石を見つけるようなもので、環境を理解することができますが、因果関係はまだ見えません。

次に「介入」が必要です。これはまるで魔法の実験。もし何かを変えたら、どんな結果が待っているのかを見ることができます。これは実際の実験で行うことができる魔法の実技です。

最後は「反事実」の魔法。もし何も変えなかったら、世界はどうなっていたのかを想像します。これは実験ではできない、人間らしい魔法の力が必要です。

因果関係を見つけるためには、データだけでなく、因果ダイヤグラムという宝の地図が必要です。これはまるで科学者が宝の在り処を事前に想像し、計画的に宝を見つけるようなもの。ダイヤグラムがあれば、間違った結びつきを排除して、本当の因果関係を見つけることができます。

しかし、昔からの統計の大御所たちは、データには真実がすべて詰まっていると信じており、因果関係の魔法は無視され続けました。

統計学の中には、18世紀にトーマス・ベイズが発見した「ベイズの定理」に基づくベイジアン・ネットワークがあります。これはまるで宝石の価値を正確に計算する魔法のようなもの。しかし、これも因果関係の真実を見つけるには不十分です。

 

因果関係の真実を見つけるためには、まるで実際に冒険に出るような、魔法の力が必要です。Rubinの因果推論の根本的な問題解決に対して「反事実」への魔法の想像力が、本当の因果関係を見つける手助けをしてくれるのです。これがなければ、人間同士や人間とAIのコミュニケーションが成り立たないのです。

 

因果推論は、データから「原因」と「結果」の関係を明らかにするための手法で、「結果から原因を特定するような推論」と考えてよいと思います。因果関係を正確に理解することで、社会政策や経済政策などの分野での意思決定に高品質なエビデンスを提供できます。しかし、データから因果関係を抽出するにはそう簡単ではなく、社会科学では法的・倫理的な制約や社会的規範のため、ランダム化比較試験(RCT)などの試験を実施することは難しい場合が多い状況です。つまり、データだけでは因果関係を特定することは難しく、適切な統計モデルを選ぶ必要があります。因果推論の手法には、先ずは、ランダム化比較試験 (RCT)が、ゴールドスタンダードの手法であり、 ワクチンの有効性などを評価する際に使用され、被験者をランダムに処置群と対照群に分け、交絡因子の影響を制御します。差分の差分法 (DID)は、介入前後と非介入群の同タイミングのデータを比較する手法です。回帰不連続デザイン (RDD)は、人為的なルールで介入群と非介入群が分かれている場合に使用されます。

 

因果推論を用いた政策効果の測定がノーベル経済学賞を受賞したこともあり、近年一層の注目が集まっています。

Pearlの因果推論は、有向非巡回グラフ(DAG  Directed Acyclic Graph)非巡回有向グラフ(DAG)というダイヤグラムを用い、因果関係を視覚的に明示し、因果効果を評価します。データにある因果の流れを記述したものが構造的因果モデル(SCM  Structual Causal Model)であります。

因果ダイヤグラムは、因果関係を視覚的に表現するためのグラフであり、特に因果推論や因果関係の解明に使用されます。このグラフは、ある出来事や変数が別の出来事や変数にどのように影響を与えるかを示します。以下に因果ダイヤグラムの基本的な概念を解説します。

因果ダイヤグラムはノード(Node)と呼ばれる点で始まります。ノードは出来事や変数を表し、例えば「Aが発生する」といった事象です。

ノード同士を結ぶ線はエッジ (Edge)と呼ばれます。エッジは因果関係や影響を示しており、矢印の向きが因果の方向を表しています。例えば、ABに影響を与える場合、AからBへの矢印が引かれます。

エッジの向きは因果の方向を示します。通常、因果ダイヤグラムでは時間の流れにそって左から右に向かう方向が未来を表し、矢印が進む方向が因果の流れです。

因果関係を正確に理解するためには、他の変数による影響を考慮する必要があります。因果ダイヤグラムではこれを交絡変数 (Confounding Variable)と呼び、影響を示すエッジで表現します。

因果ダイヤグラムでは、ある変数に介入することを表現するために介入変数 (Intervention Variable)が使用されます。例えば、ある実験で変数Aに人為的に影響を与える場合、介入変数が導入されます。

因果ダイヤグラムは反事実の考慮にも適しています。つまり、「もしAが起こらなかったら、Bはどうなっていたか?」といった仮説的な状況を視覚的に表現できます。

因果ダイヤグラムは、因果関係を直感的に理解し、統計的手法で扱う前に因果関係の構造を考える手助けとなります。例えば、データに基づいて因果関係を推定する前に、因果ダイヤグラムを作成して因果関係の方向性や影響を検討することが一般的です。これにより、より正確で合理的な因果推論が可能となります。

欲求から夫による缶ビール購入(Z)と妻に頼まれたオムツ購入(Y)の間に正の相関関係がみられたことから、このような見せかけの因果(= 交絡)を生んでしまうビール購入する夫にオムツ購入を依頼する件数である変数(X)は、バックドア基準を満たす変数と定義されます。この状況を説明してみると、DAGの因果方向を考えるとZの変化により確かにYには変化が伝搬しますが、Zが変化したということはXが先に変化しているはずであり、俯瞰するとXの変化が起点となってZYが変化していると理解すべきで疑似相関の関係というイメージです。

Pearlはこのバックドア基準を満たす変数を固定(= d分離)してしまうという方法で、ZからYへの因果効果を見積もります。その結果が調整化公式となります。調整化公式はRubinの逆確率重み付け(Inverse Probability Weighted  IPW)推定量と全く同じ式になります。IPWは、傾向スコアの逆数をサンプルの重みとして因果効果の推定に利用する手法です。IPWとは、傾向スコアの逆数をサンプルの重みとして因果効果の推定に利用する手法です。つまり、傾向スコアが大きい場合は、サンプルの出現確率が高く、逆に傾向スコアが小さい場合には、サンプルの出現確率が低いと考えられるため、傾向スコアの逆数をかけることで、出現確率の高いサンプルは、小さく重み付けし、逆に出現確率の低いサンプルは、大きく重み付けすることで処置群と対照群の共変量の分布を調整し、ランダム割り付けされた状態に近づけるイメージです。IPWは、対象実験が実施できないがモデル化可能な観測データがある場合には、因果関係を示すことができます。IPWは、試験治療(介入)群については試験治療(介入)を受ける確率の逆数で、対照治療群については対照治療を受ける確率の逆数で重みづける解析手法です。いくつかの仮定の下で集団全体における平均因果効果(average treatment effect; ATE)を正しく推定することができます。IPWは、二重にロバストな推定法(DR法  Doubly Robust Estimator)と組み合わせて因果効果を推定する手法としても使用されます。つまり、まず、介入群と非介入群においてそれぞれ回帰分析して傾向スコアを推定します。傾向スコアは、各サンプルが介入を受ける確率を表します。この傾向スコアを算出するモデルのほかに、目的変数を共変量で説明する回帰モデルを使用します。つまり、統計的に目的変数(結果変数)が他の一つまたは複数の変数(共変量)との相関関係を数学的にモデル化して回帰分析します。このどちらかが正しく成立していれば因果効果を正しく説明できる(一致推定量を得る)ことがわかっています。

 

先に示したSCMの図は、XYZの関係を表しています。知りたいのは、ZYの関係です。 例えば、Zが処置あり・なしの時に、Yが効果あり・なしのどちらになるのかを知りたいのです。ところが、Xの影響でZが変わるので、YZのデータだけで「相関あり」となったとしても、本当は、Xが原因で、Zは関係ないかもしれないのです。これを擬似相関と呼びます。d分離は、介入という操作をすることによって、 第3変数の除去をするための方法です。例えば、「もしもXの影響を受けずに、Zが処置ありだったら、Yはどうなるか?」という仮想的な状況を考えます。「もしもXの影響を受けずに」という操作が介入です。

具体例にもどすと、仮にオムツが改良され超薄い製品となり軽くかさばらずコンパクトで持ち帰り易くなったら、或いは、現在の通信販売のように妻が気軽に購入することが可能となれば、夫がビールと同時にオムツを購入する現象がなくなり、ビールとおむつの売上に相関関係がなくなります。つまり、交絡因子Xを介して相関関係があるように見えてしまう関係は、疑似相関と呼ばれます。因果関係がないのに、見えない要因によってあたかも因果関係があるように見える現象です。統計学でよく使われる言葉で、「見せかけの相関」「見かけ上の相関」とも言います。

 

データの見える化や予測モデルの導入だけでは、ビジネスの課題を解決するアクションに結びつく発見が得られないことがあります。これは、データの相関関係を見つけても、予測はできてもその理由が明確でないためです。実際のビジネスやヘルスケアでは、良い結果を得るために何をすればいいかを知ることが重要であり、それは原因を理解し、適切なアクションを特定することにかかっています。因果推論は、人がデータから因果関係を推定し、原因と結果をつなぐメカニズムを理解する新しい手法です。さらに、改善策の効果をシミュレーションして、「もし仮にこの値を変えたらどのような効果があるか」という問いに答えることができます。

ビジネスやヘルスケアの分野でよく見られる間違いを避けるために、因果推論に基づいた支援を提供します。ユーザーが自分の生活データを取得できるようにするアプリと連携し、すぐに使えるダッシュボードと因果推論サービスを準備しています。

相関関係を理解するのは大切です。例えば、雨が降ると傘をさす人が増えますが、鶏がいなくなっても太陽は昇ります。そのため、傘をさす人が増えるのは単なる関連であり、因果関係ではありません。ビジネスやヘルスケアなどの分野では、結果を改善するためにどんな行動が必要かを理解することが重要です。相関関係があっても、実際には影響を与えるのは別の要因かもしれません。ですので、因果関係を理解することが重要です。ウェルネスやヘルスケアなど、さまざまな分野で因果関係を理解し、問題を解決する方法が活用されています。

このブログの人気の投稿

小論文 統計的因果推論の現場適用による排泄ケアの展望

排泄ケア相談支援員の育成に向けて

解説 排泄ケアの相談支援計画書作成のためのチェックリスト