落ちこぼれナースの統計チャレンジ

元落ちこぼれ看護師(保健師)が、私と同じく統計にドキドキしている看護学生や保健師さんに、簡単な言葉で届けるために始めたブログです。

この〜木何の木? 〜決定木とランダムフォレストを学ぼう〜


今回も「ゆるっと機械学習」のコーナーが始まりました。

テーマは「決定木」と「ランダムフォレスト」です!!

皆さんは「この〜木何の木?」状態だと思いますが、数式を省いてどんなものかだけ説明します。


決定木って?何に役立つの?

決定木とは、一言でいうと「もし○○なら→こうする」という分岐のルールを、木の枝みたいに広げていく方法です。

例:健康相談での会話

「血圧は高めですか?」
→ Yes
→「減塩指導はしましたか?」
→ No
→「喫煙習慣がありますか?」
→…

つまり、保健師の面談をAIにさせたら、こんな感じでルール分岐をしてくれるのが決定木なんです。

構造がシンプルなのです。

決定木に弱点ってあるの?

決定木はシンプルで説明しやすい反面、「たまたまのデータ」に振り回されやすいんです。
たとえば「たまたま昨日健康相談に来た人達が全員ヘビースモーカーだった」なんてことがあると、
「よし、タバコを吸う人は全員心疾患リスクが高いぞ!危険危険!!!」と決めつけてしまうことも。

現場にそんな人がいたら「おいおい、それを決めつけるのは早すぎるでしょ!」って突っ込みたくなりますね。

ランダムフォレスト、登場!!

「決定木」が一人の先生だとしたら、ランダムフォレストは複数の先生の会議制です。

例:

  • A先生「血圧が高いからリスクあり!」
  • B先生「いやいや、運動習慣を見ないと」
  • C先生「ストレスが強いのも要注意やね〜」

このように、いろんな角度から意見を出し合って、多数決で結論を出す
それがランダムフォレスト。
森の木(決定木)がたくさん集まって「森」になっているイメージです。

ランダムフォレストが持つ強みとしては、

  • 「データの偏り」に強い
  • 「たくさんの観点」で判断できる
  • 精度が高く、現場でも役立ちやすい

つまり、一人の医療スタッフの直感よりも、チームで話し合った方が信頼できるのと同じです。

ランダムフォレストの弱点

「みんなで多数決」って聞くと安心感がありますよね。
でも、ランダムフォレストにも苦手なことがあります。

①何を大事にして判断したのかが分かりにくい

決定木は「血圧が高いから→保健指導をする」というようにシンプルで説明が簡単です。

でもランダムフォレストは「みんなでワイワイ決めました!」方式なので、
「で、結局なぜこの患者さんはリスクありって判定されたの?」と聞かれると、説明が難しいんです。
(例えるなら、職場のカンファレンスで「結論は出ましたが、誰の意見が一番効いたかは分かりません」という状態です。カオス。)

②計算に時間とパワーがかかる

先生1人ならすぐ診断できますが、先生100人で多数決を取ると会議が長引きます。

コンピュータにとっても同じで、「たくさんの木を育てて→多数決をする」という流れがあるので、時間もメモリも多く必要になります。

③シンプルにまとめられない

「森全体の判断基準を一枚の紙にまとめてよ!」と言われても、木が何百本もあるので無理ゲーです。

医療の現場ではどう役立つの?

例として、

  • ランダムフォレストを使って、医療のニーズが高いかつ医療費が高額になりそうな人を予測する
  • 同じくランダムフォレストで、2型糖尿病のリスクを予測する
  • ランダムフォレストの改良版で、心臓外科手術後の心血管イベントを予測する

こんなにデータを基にした予測に役立つのです。
割と活躍しているんだなぁ…しみじみ。

まとめ

  • 決定木:わかりやすいけど極端な先生が一人で判断
  • ランダムフォレスト:森の先生たちの多数決でバランス良い判断

機械学習の世界も、保健指導と同じく「チームの力」が大事なのです。

データ分析の森で迷ったら、木を一本だけ見るより、森全体を見ましょう!!!


コメントを残す