突然ですが……こんな会話、どこかで聞いたことありませんか?
「今回の研究、p=0.049だったから助かった〜!」
「えっ、0.051だった?じゃあこの研究、ゴミです!」
統計学の世界には、「有意差が出るかどうか」だけを基準に研究を進める人が、まぁまぁいます。
でも実は、その考え方には大きな落とし穴があるのです。
間違えやすいからこそ、この落とし穴にはまると怖い。
よーーーし、今回はみんなで落とし穴を避ける手段を覚えていきましょう。
レッツゴーーーー!
突然スタート!統計リテラシー診断!!
早速ですが、以下の質問にYes・Noで答えてください。
10問あります。
Q1:p値が 0.04 なら「この仮説は正しい」と言える。
Q2:p値が 0.06 なら「この研究は失敗」と考えるべきである。
Q3:「p値が小さいほど差は大きい」と理解している。
Q4:t検定で有意差が出なかったら、とりあえず別の検定に切り替えるのは自然な流れだと思う。
Q5:研究の目的や仮説よりも、「有意差が出るかどうか」を一番重視している。
Q6:サンプル数が増えると、有意差は出やすくなることを理解している。
Q7:「有意差がある」=「臨床的に意味のある差がある」とイコールで考えてしまうことがある。
Q8:正規性や分散の等質性など、データの前提条件を確認してから検定方法を選んでいる。
Q9:結果をまとめるとき、p値だけでなく効果量や信頼区間も見ている。
Q10:「探索的に見てみたらこんな傾向があった」という時は、本解析とは分けて説明できている。
お疲れ様でした!!結果発表!!
- Yesが多いと危険な設問:Q1, Q2, Q3, Q4, Q5, Q7
→ これらで「Yes」が多いほど、p値信者・有意差至上主義の傾向あり。 - Yesが望ましい設問:Q6, Q8, Q9, Q10
→ これらで「Yes」が多いほど、統計的に健全な考え方です。
判定:
上記の危険設問で「Yes」と答えた回数で判定します。
- 危険設問のYesが0〜1個 → 合格!青信号
有意差に振り回されず、解析の筋道を意識できている。 - 危険設問のYesが2〜3個 → 黄色信号
部分的に「有意差依存」の傾向あり。記事で紹介した落とし穴にハマりやすい。 - 危険設問のYesが4個以上 → 赤信号
有意差ありきで解析を進める傾向が強い。あなたはp値信者でやんす。意識改革が必要。
なに?今あなたは「あ〜〜〜私、p値信者だったんだ……凹むわ……」とか「Yesが望ましい設問に自信持ってYesと言えんかったわ……..」って気持ちなんだって?
逆に考えるんだ 「私には伸び代がある!!!やったーーーー!!!!!まだ成長期!!!!!」 と考えるんだ
慌てないでも大丈夫です、この記事で解説しますから。私も過去には色々と間違えていました
有意差ありきで進めることの落とし穴
1. pハッキング
「t検定じゃ有意差出なかったから、次はU検定!」「群を分け直して……」と何度も検定をやり直す。
これを繰り返すと、偶然の産物を「真実」と勘違いしてしまいます。
医療でで例えるなら、熱が出た患者さんに片っ端から薬を投与して、たまたま解熱した薬を『正しい治療法』と信じ込むようなものです。
危ないですよね。
2. 有意差=意味のある差、ではない
- 1000人調査すれば、身長1mmの差でも「有意」になる。
- 10人しかいなければ、10cm違っても「有意差なし」。
つまり、有意差の有無だけを見ても、「差の大きさ」や「現実的な意味」がわからないのです。
3. 条件無視
データが正規分布ではないのにANOVAを使ってみたり。
これは、研修を受けていないのにいきなりカテーテル挿入に挑むようなものです。
p値のよくある誤解
誤解①:p<0.05なら正しい結果
実際の意味は「この結果が偶然に見える確率が5%未満」。
「この患者さんが絶対に病気です!」ではなく、「この症状は99回に1回くらいは偶然でも出るかも」くらいの話です。
誤解②:p=0.06なら効果がない
例えば、0.049と0.051の違いは紙一重です。
p値が0.05より高いからって、「最初に立てた仮説は間違っていました!!残念!!!」とはならないのです。
まだ「今回の分析結果は偶然出たかもよ…?」という可能性が残っているだけです。
はっきりと言わないのが、統計の奥ゆかしさです。
誤解③:p値が小さいほど差が大きい
p値はサンプル数にも左右されます。
患者数が多ければ、どんな小さな差でも「有意」になりやすい。
30回中1回の失敗と3000回中100回の失敗。
どちらも失敗の確率は同じですが、ですが、後者のほうが「統計的には強そう」に見えてしまうイリュージョンです。
誤解④:p値が0.05だったので帰無仮説を棄却した、この場合の偽陽性の確率は5%である
帰無仮説(=差がないことを仮定する説)が正しいのにそれを棄却したら、偽陽性(間違って陽性とする確率)は100%です。
正しい分析の仕方をおさらい
①仮説を立てる
例:「この介入でストレス得点が下がるはず」
②データの性質を確認する
- 正規分布しているか?
- カテゴリ変数か?
- サンプルサイズは?
③適切な方法を選ぶ
迷ったら統計占いの記事をご参照ください。
④有意差+効果量+信頼区間で判断する
p値だけでなく、差の大きさや臨床的な意味を一緒に見る。
⑤探索的解析は探索と明記
「いろいろ見ていたらこんな傾向がありました」はアリ。
ただし「これは次の研究のタネですよーーこれってトリビアの種になりませんか?」と位置づけておくことが大切です。
まとめ
「有意差が出るかどうか」だけをゴールにしてしまうと、研究は迷走します。
本当に大事なのは、その差が現実的に意味があるかどうか。
今日からあなたも「p値信者」を卒業して、患者さんに合わせたケアのように、データに合わせた解析を心がけてみませんか?
一緒にデータに合った分析を心がけましょう!!!
突然ですが、「イリュージョン」と聞いて、あなたは何を思い出しますか?
私はポケモンのゾロアークを思い出します。
知らない方のために説明すると、ゾロアークは他のポケモンに化けて戦うキツネのポケモンです。
ゲームのポケモンバトルでも相手を騙せるので強いです。
ゾロアークが主役の「劇場版ポケットモンスター ダイヤモンド&パール 幻影の覇者 ゾロアーク」は泣けるので観たことがない人は観てください。おすすめです。
