この〜木何の木？　〜決定木とランダムフォレストを学ぼう〜

今回も「ゆるっと機械学習」のコーナーが始まりました。

テーマは「決定木」と「ランダムフォレスト」です！！

皆さんは「この〜木何の木？」状態だと思いますが、数式を省いてどんなものかだけ説明します。

決定木って？何に役立つの？

決定木とは、一言でいうと「もし○○なら→こうする」という分岐のルールを、木の枝みたいに広げていく方法です。

例：健康相談での会話

「血圧は高めですか？」
→ Yes
→「減塩指導はしましたか？」
→ No
→「喫煙習慣がありますか？」
→…

つまり、保健師の面談をAIにさせたら、こんな感じでルール分岐をしてくれるのが決定木なんです。

構造がシンプルなのです。

決定木に弱点ってあるの？

決定木はシンプルで説明しやすい反面、「たまたまのデータ」に振り回されやすいんです。
たとえば「たまたま昨日健康相談に来た人達が全員ヘビースモーカーだった」なんてことがあると、
「よし、タバコを吸う人は全員心疾患リスクが高いぞ！危険危険！！！」と決めつけてしまうことも。

現場にそんな人がいたら「おいおい、それを決めつけるのは早すぎるでしょ！」って突っ込みたくなりますね。

ランダムフォレスト、登場！！

「決定木」が一人の先生だとしたら、ランダムフォレストは複数の先生の会議制です。

例：

A先生「血圧が高いからリスクあり！」
B先生「いやいや、運動習慣を見ないと」
C先生「ストレスが強いのも要注意やね〜」

このように、いろんな角度から意見を出し合って、多数決で結論を出す。
それがランダムフォレスト。
森の木（決定木）がたくさん集まって「森」になっているイメージです。

ランダムフォレストが持つ強みとしては、

「データの偏り」に強い
「たくさんの観点」で判断できる
精度が高く、現場でも役立ちやすい

つまり、一人の医療スタッフの直感よりも、チームで話し合った方が信頼できるのと同じです。

ランダムフォレストの弱点

「みんなで多数決」って聞くと安心感がありますよね。
でも、ランダムフォレストにも苦手なことがあります。

①何を大事にして判断したのかが分かりにくい

決定木は「血圧が高いから→保健指導をする」というようにシンプルで説明が簡単です。

でもランダムフォレストは「みんなでワイワイ決めました！」方式なので、
「で、結局なぜこの患者さんはリスクありって判定されたの？」と聞かれると、説明が難しいんです。
（例えるなら、職場のカンファレンスで「結論は出ましたが、誰の意見が一番効いたかは分かりません」という状態です。カオス。）

②計算に時間とパワーがかかる

先生1人ならすぐ診断できますが、先生100人で多数決を取ると会議が長引きます。

コンピュータにとっても同じで、「たくさんの木を育てて→多数決をする」という流れがあるので、時間もメモリも多く必要になります。

③シンプルにまとめられない

「森全体の判断基準を一枚の紙にまとめてよ！」と言われても、木が何百本もあるので無理ゲーです。

医療の現場ではどう役立つの？

例として、

ランダムフォレストを使って、医療のニーズが高いかつ医療費が高額になりそうな人を予測する
同じくランダムフォレストで、2型糖尿病のリスクを予測する
ランダムフォレストの改良版で、心臓外科手術後の心血管イベントを予測する

こんなにデータを基にした予測に役立つのです。
割と活躍しているんだなぁ…しみじみ。

まとめ

決定木：わかりやすいけど極端な先生が一人で判断
ランダムフォレスト：森の先生たちの多数決でバランス良い判断

機械学習の世界も、保健指導と同じく「チームの力」が大事なのです。

データ分析の森で迷ったら、木を一本だけ見るより、森全体を見ましょう！！！