医療現場で「マッチョな小林さん」と「抹茶が好きな小林さん」が同時に来たときみたいに、名前が似ていてややこしい二人がいることがありますよね。
機械学習界にもそんな小林さんがいます。
その名も、 k平均法(k-means) と k近傍法(k-Nearest Neighbor, k-NN)。
でも実は役割が全然違うんです。
k平均法は「教師なし学習」ですが、k近傍法は「教師あり学習」なのです。
では、実際にどう違うのでしょうか?
実際に見てみましょう。レッツゴーーー!!!
「教師あり学習」「教師なし学習」って何だ!?という方は過去記事をご覧ください。
k平均法:教師なし学習
- やること:正解のないデータを、似た者同士でグループ分けします。
- イメージ:健康診断データをざーっと見て、「あ、この人たちはメタボ寄りグループ、この人たちはストレス高めグループ」と勝手にクラスタ分けする感じです。
- キーワード:「正解がない」「勝手に分ける」
つまり、「みんなをなんとなく仲間分けする」係です。
何も教えなくても、勝手に分けてくれます。ありがてえ。
k近傍法:教師あり学習
- やること:新しい人が来たときに、「この人はどのタイプかな?」を既にある正解データをもとに判断する。
- イメージ:新しい患者さんを見たときに、「似た症状を持つ人が糖尿病だったから、この人も糖尿病の可能性が高い」と推測する感じです。
- キーワード:「正解のデータがある」「似た人に合わせる」
つまり、「新しく来た人を、既存の答えを参考にしてラベルづけする」係です。
ハリー・ポッターの組み分け帽子はこっちに近いかもしれませんね。スリザリンは嫌だ…スリザリンは嫌だ
まとめ
- k平均法:正解なし → グループ分け(クラスタリング)
- k近傍法:正解あり → 新しいデータにラベルをつける(分類)
同じ「k」がついていても、
- k平均法は「グループ分け遊び」
- k近傍法は「相談して決めるタイプの判定」
こう覚えるとスッキリです!
それじゃ、また他の記事でお会いしましょう!!
