投稿

7月, 2025の投稿を表示しています

因果探索や因果推論の実践でよく用いられる実際のデータセットの例

因果探索や因果推論の実践でよく用いられる実際のデータセットの例です。これらのデータセットはそれぞれのドメインや目的に合わせて、変数間の因果関係の検証に使われるケーススタディとして有用です。 1. Sachs データセット 概要  Sachs データセットは、細胞内タンパク質のシグナル伝達ネットワークに関する実測データです。サンプル数は約 700 件、 11 種類のタンパク質(変数)を持ち、実験的介入により記録されたそれぞれの濃度や活性値が含まれています。 利用例 因果探索アルゴリズム( DirectLiNGAM 、 PC アルゴリズムなど)の評価 バイオインフォマティクス分野で、実際の細胞シグナル伝達経路の因果構造を再現するためのベンチマークデータとして利用される 参考: Sachs et al., 2005 2. Tübingen Cause-Effect Pairs データセット 概要  このデータセットは、多様な領域(経済、気象、医学、エネルギーなど)から抽出された変数ペアの集合です。各ペアについて「どちらが原因でどちらが結果か」が既知の、厳選された実例が多数収録されています。 利用例 1 対の変数間で因果方向の推定精度を検証するタスク シングルペアごとにアルゴリズムの強み・弱みの比較評価に使用される 注: 手法によっては、数百のペアが公開されており、因果推論のベンチマークとして広く利用されています。 3. Job Training / NSW ( National Supported Work )データセット 概要  社会政策の効果検証のために作成されたデータセットで、職業訓練プログラムが参加者の収入や就業状況に与える影響を評価する目的で収集されています。  利用例  介入(訓練プログラム)とそのアウトカム(所得・就労率)との間で、因果推論の手法(例えば、傾向スコアマッチングや差分の差分法)を適用する実証研究 組織内の Balanced Scorecard において、研修の効果からその後の業務改善、顧客満足、最終的な企業業績に至る因果の流れを評価する際の参考例としても考えられます 4. ビジネスパフォーマンスのケーススタディデータ 概要  Balanced Scorecar...

バランススコアカード(BSC)で職場研修→業務改善→顧客満足→財務向上の因果ストーリー例を作成

イメージ
バランススコアカード( BSC )で職場研修 → 業務改善 → 顧客満足 → 財務向上の因果ストーリー例を作成し、因果数値シミュレーションできるようデータを生成し、これを Direct Lingam を使用し因果探索して、データから DAG を描写するコードを考えてみます。 もちろん、Googlecolabで実装しますので、先ずはライブラリのインストールから開始します。 # Reinstall core scientific packages !pip install --upgrade --force-reinstall numpy scipy scikit-learn !pip install lingam   import numpy as np import pandas as pd   # データ生成 np.random.seed(42) n_samples = 500 training = np.random.normal(5, 1, n_samples) improvement = 0.5 * training + np.random.normal(0, 0.5, n_samples) satisfaction = 0.7 * improvement + np.random.normal(0, 0.5, n_samples) financial = 0.6 * satisfaction + np.random.normal(0, 0.5, n_samples)   data = pd.DataFrame({     "Training": training,     "Improvement": improvement,     "Satisfaction": satisfaction,     "Financial": financial }) from lingam.direct_lingam import DirectLiNGAM   # DirectLiNGAM モデル model = DirectLiNGAM() model.f...