今回も「ゆるっと機械学習」のコーナーが始まりました。
テーマは「決定木」と「ランダムフォレスト」です!!
皆さんは「この〜木何の木?」状態だと思いますが、数式を省いてどんなものかだけ説明します。
決定木って?何に役立つの?
決定木とは、一言でいうと「もし○○なら→こうする」という分岐のルールを、木の枝みたいに広げていく方法です。
例:健康相談での会話
「血圧は高めですか?」
→ Yes
→「減塩指導はしましたか?」
→ No
→「喫煙習慣がありますか?」
→…
つまり、保健師の面談をAIにさせたら、こんな感じでルール分岐をしてくれるのが決定木なんです。
構造がシンプルなのです。
決定木に弱点ってあるの?
決定木はシンプルで説明しやすい反面、「たまたまのデータ」に振り回されやすいんです。
たとえば「たまたま昨日健康相談に来た人達が全員ヘビースモーカーだった」なんてことがあると、
「よし、タバコを吸う人は全員心疾患リスクが高いぞ!危険危険!!!」と決めつけてしまうことも。
現場にそんな人がいたら「おいおい、それを決めつけるのは早すぎるでしょ!」って突っ込みたくなりますね。
ランダムフォレスト、登場!!
「決定木」が一人の先生だとしたら、ランダムフォレストは複数の先生の会議制です。
例:
- A先生「血圧が高いからリスクあり!」
- B先生「いやいや、運動習慣を見ないと」
- C先生「ストレスが強いのも要注意やね〜」
このように、いろんな角度から意見を出し合って、多数決で結論を出す。
それがランダムフォレスト。
森の木(決定木)がたくさん集まって「森」になっているイメージです。
ランダムフォレストが持つ強みとしては、
- 「データの偏り」に強い
- 「たくさんの観点」で判断できる
- 精度が高く、現場でも役立ちやすい
つまり、一人の医療スタッフの直感よりも、チームで話し合った方が信頼できるのと同じです。
ランダムフォレストの弱点
「みんなで多数決」って聞くと安心感がありますよね。
でも、ランダムフォレストにも苦手なことがあります。
①何を大事にして判断したのかが分かりにくい
決定木は「血圧が高いから→保健指導をする」というようにシンプルで説明が簡単です。
でもランダムフォレストは「みんなでワイワイ決めました!」方式なので、
「で、結局なぜこの患者さんはリスクありって判定されたの?」と聞かれると、説明が難しいんです。
(例えるなら、職場のカンファレンスで「結論は出ましたが、誰の意見が一番効いたかは分かりません」という状態です。カオス。)
②計算に時間とパワーがかかる
先生1人ならすぐ診断できますが、先生100人で多数決を取ると会議が長引きます。
コンピュータにとっても同じで、「たくさんの木を育てて→多数決をする」という流れがあるので、時間もメモリも多く必要になります。
③シンプルにまとめられない
「森全体の判断基準を一枚の紙にまとめてよ!」と言われても、木が何百本もあるので無理ゲーです。
医療の現場ではどう役立つの?
例として、
- ランダムフォレストを使って、医療のニーズが高いかつ医療費が高額になりそうな人を予測する
- 同じくランダムフォレストで、2型糖尿病のリスクを予測する
- ランダムフォレストの改良版で、心臓外科手術後の心血管イベントを予測する
こんなにデータを基にした予測に役立つのです。
割と活躍しているんだなぁ…しみじみ。
まとめ
- 決定木:わかりやすいけど極端な先生が一人で判断
- ランダムフォレスト:森の先生たちの多数決でバランス良い判断
機械学習の世界も、保健指導と同じく「チームの力」が大事なのです。
データ分析の森で迷ったら、木を一本だけ見るより、森全体を見ましょう!!!
