Modeling Strategy

友人や知り合いの研究者からよくstatistical modelingやvariable selectionの質問を受けることがよくあります。Hopkins時代のmentorを共通にもつresearcherがまさかの偶然でHMSのfacultyとして授業の教官で来ました。彼もやはりinferential goalの設定を明確にすることの需要性を最初に念を押していました。意外にここでつまずいている人が多いんです。。。

よくよく話を聞いているとその多くがinferential goalが明確になっていないことからきていることに気づきます。Variable selectionもそれが明確になっていないので理由と理論を持って選ぶことができていない。私も今でもmodeling strategyは悩むことがありますがinferential goalを明確にすることは基本中の基本です。会話の中で、predictorという言葉と effectなどという言葉が同時に出てくるとこちらとしてはinferential goalは??と聞き返さざるをえないです。Predictionは最終目標はmaximize predictive performanceですのでPredictionとcausal inferenceでは全くapproachは異なります。

Harvardでよく使われるのはdescription, prediction, causal inferenceですが、VittinghoffのRegression methods in Biostatisticsにある identifying independent predictors (independent risk factors), prediction, causal inferenceの方が私はしっくり来ます。ただ、independent risk factorの解析の多くにはblack box epidemiologyの原因となっているstepwise selection(Hasegawa Labでは使いませんし、なぜ避けるべきかはFrank HarrellのRegression Modellng Strategyを読んでください)やmisspecified model(data drivenで変数を選んでしまったり、mediator, collider variablesを入れてしまう)から得られたsignificant resultをindependent risk factorと報告されているものが多いのは事実です。Greenlandの以下の論文は疫学者・研究者としての姿勢を述べています。

The value of risk-factor epidemiology
The value of risk-factor (“black-box”) epidemiology. – PubMed – NCBI

この論文にも書かれていますが、independent risk factorはstatistical associationから導かれたものなのでcausationではありません。しかしながらHarvardのcausal inferenceの世界で著名な教官云く、association studyと言われるindependent risk factorは本来は研究者はcausalをいうのを最終目標にしているので、description, prediction, causal inferenceに分けられるべきだと言ってました。

その他にはJohns Hopkins Bloomberg School of Public HealthのRoger PengがcourseraのManaging Data Analysis (Managing Data Analysis | Coursera) やThe Art of Data Science(Art of Data Science by Roger D. Peng et al. PDF/iPad/Kindle)でも書いていますが、six typesに分けてそれぞれでmodeling strategyを説明しています。1. Descriptive 2. Exploratory 3. Inferential 4. Predictive 5. Causal 6. Mechanistic と分けて説明しています。

また大規模コホートではサンプル数が大きいので不適切なmodellingをすると”統計学的”にはsignificant independent risk factorが出て来てしまうので要注意です。古典的なHill’s criteriaの1つでもあるbiological gradient (tumor stageとcancer mortalityの関連、smoking statusとcardiovascular outcomeの関連などは、本来、biological gradientが見られるべきもの)が弱まったり、消えたりするので典型的なものだとmodelingが間違えているのはわかります。しっかりと論文を読み込みメンターと事前に議論して選択するべきです。これまでの質の高い研究から得られたscientific knowledgeからcandidate variablesを選び、directed acyclic graphを書くとmodelingに使う変数もわかります。最近もJAMA Pediatricsでscientific knowledgeから変数を選びDAGittyを用いて最終的に変数を選んだ論文が出ていました。DAGittyは最近の授業のプレゼンでも使いましたが便利です。

DAGitty
DAGitty – drawing and analyzing causal diagrams (DAGs)

JAMA Pediatricsの論文
Association of Atopic Dermatitis With Sleep Quality in Children | Dermatology | JAMA Pediatrics | JAMA Network

American Thoracic Societyから最近出た論文も是非読んでください。Authorが一流誌のEditor in chief達です。Table 1のKey principlesにもちゃんとmodel based variable selectionは使うべきでないと書いています。

Control of Confounding and Reporting of Results in Causal
Inference StudiesGuidance for Authors from Editors of Respiratory, Sleep, and Critical Care Journals
Control of Confounding and Reporting of Results in Causal Inference Studies. Guidance for Authors from Editors of Respiratory, Sleep, and Critical Care Journals | Annals of the American Thoracic Society

最後に大学院で薦められてる本を読むのは大事と思います。
Regression Methods in Biostatistics
Regression Methods in Biostatistics – Linear, Logistic, Survival, and Repeated Measures Models | Eric Vittinghoff | Springer

Regression Modeling Strategies
今日、R/Medicine 2019に参加してましたが、この本の著者のProf. Frank Harrellに会えたのが嬉しかったです。
Regression Modeling Strategies – With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis | Frank Harrell | Springer

あとはpredictionであればSteyerbergのClinical Prediction Modelsがいいと思います。
Clinical Prediction Models
Clinical Prediction Models – A Practical Approach to Development, Validation, and Updating | Ewout Steyerberg | Springer

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です