落ちこぼれナースの統計チャレンジ

元落ちこぼれ看護師(保健師)が、私と同じく統計にドキドキしている看護学生や保健師さんに、簡単な言葉で届けるために始めたブログです。

2人のkさん!?〜k平均法とk近傍法〜


医療現場で「マッチョな小林さん」と「抹茶が好きな小林さん」が同時に来たときみたいに、名前が似ていてややこしい二人がいることがありますよね。
機械学習界にもそんな小林さんがいます。

その名も、 k平均法(k-means) と k近傍法(k-Nearest Neighbor, k-NN)

でも実は役割が全然違うんです。

k平均法は「教師なし学習」ですが、k近傍法は「教師あり学習」なのです。
では、実際にどう違うのでしょうか?

実際に見てみましょう。レッツゴーーー!!!

「教師あり学習」「教師なし学習」って何だ!?という方は過去記事をご覧ください。


k平均法:教師なし学習

  • やること:正解のないデータを、似た者同士でグループ分けします。
  • イメージ:健康診断データをざーっと見て、「あ、この人たちはメタボ寄りグループ、この人たちはストレス高めグループ」と勝手にクラスタ分けする感じです。
  • キーワード:「正解がない」「勝手に分ける」

つまり、「みんなをなんとなく仲間分けする」係です。
何も教えなくても、勝手に分けてくれます。ありがてえ。

k近傍法:教師あり学習

  • やること:新しい人が来たときに、「この人はどのタイプかな?」を既にある正解データをもとに判断する。
  • イメージ:新しい患者さんを見たときに、「似た症状を持つ人が糖尿病だったから、この人も糖尿病の可能性が高い」と推測する感じです。
  • キーワード:「正解のデータがある」「似た人に合わせる」

つまり、「新しく来た人を、既存の答えを参考にしてラベルづけする」係です。
ハリー・ポッターの組み分け帽子はこっちに近いかもしれませんね。スリザリンは嫌だ…スリザリンは嫌だ

まとめ

  • k平均法:正解なし → グループ分け(クラスタリング)
  • k近傍法:正解あり → 新しいデータにラベルをつける(分類)

同じ「k」がついていても、

  • k平均法は「グループ分け遊び」
  • k近傍法は「相談して決めるタイプの判定」

こう覚えるとスッキリです!

それじゃ、また他の記事でお会いしましょう!!


コメントを残す