この研究室で力をいれている、オミクス研究(例:マイクロバイオーム、メタボローム)では、いわゆる”statistical learning”(機械学習と訳してもいい)手法をよく使います。とくに変数の数 p がサンプル数 n より多いことが問題となるため、PCAやクラスタリングを使った次元削減 (unsupervised learning), sparse PLSなどのスパースモデル(supervised learning) を多用します。
そんな中で手を出していなかったのは、「機械学習」の手法を使った臨床よりの予測モデルの構築でした。最近フェローの後藤先生やHSPHの同級生とのコラボで三本出版されたので、以下で紹介します(Rで~Keras~パッケージが出たのは大きな助けになりました)。
- Goto T, Camargo CA Jr, Faridi MH, Freishtat RJ, Hasegawa K. Machine learning-based prediction of clinical outcomes for children during emergency department triage. JAMA Netw Open 2019;2:e186937
この最新作はEditorialで結構厳しく批判されました。これもありがたいことです。 - Goto T, Camargo CA Jr., Faridi MK, Yun BJ, Hasegawa K. Machine learning approaches for predicting disposition of asthma and COPD exacerbation in the ED. Am J Emerg Med 2018;36:1650-1654
- Zhao M, Tang Y, Kim H, Hasegawa K. Machine learning with K-means dimensional reduction for predicting survival outcomes in patients with breast cancer. Cancer Inform 2018;17:1176935118810215
どれもproof of conceptの段階ですが、発展性があります(Discussionを読んでみてください)。
またDiscussionでは議論していない面白い課題もあります。それは因果の問題と機械学習 (またはもっと大きな概念で人工知能 [AI])の結合。機械学習エンジニア(または古典的統計学者、極端に言えば GaltonやPearson)にとっては因果は下位概念であり、データが全てを教えてくれるというスタンス (または希望)もあります。しかしながら、いくらdeep learningが患者の予後を正確に予測したとしても、「なぜ」という問題には答えてくれません。
この先には、computer scientistであるJudea Pearl (computer scienceのノーベル賞に相当するチューリング賞を受賞)が言うように、データとAIは本来「バカ」であり、古典的統計学は「….」(自粛します)であり、counterfactual (反事実)から因果を想像できることが人間が人間であることをあらしめ(ドイツで発掘した32,000年前の半獣半人の彫刻が初の証拠?)、counterfactualからの因果推論を組み込むことが強いAIをもたらす、のかもしれません。
ここら辺に興味のある方は、Judea Pearlが一般読者向けに書いた “The Book of Why: The New Science of Cause and Effect”を薦めます。