統計的に有意なら本当に効くのか?P値だけで判断しない論文の読み方
瀬谷崎コラム
「統計的に有意です」で、話を終わらせない
論文を読むと、P値や統計的有意という言葉がよく出てきます。ただし、それだけで「効果が高い」「臨床で使える」と判断すると、かなり危ない読み方になります。
P値は大事ですが、万能ではありません。統計的に有意かどうかだけでなく、効果の大きさ、信頼区間、患者さんにとって意味のある変化かどうかまで見たいところです。
エビデンスを大切にしようとすると、論文を読む機会が増えます。
そこで必ず出てくるのが、P値です。
「P<0.05で統計的に有意」
この表現を見ると、なんとなく強い結果のように感じます。
逆に、P値が0.05を超えていると、「効果なし」と判断したくなる。
でも、ここが統計の落とし穴です。
統計的に有意という言葉は、効果が大きいことを意味しているわけではありません。

まなぶ先生

瀬谷崎
P値は、何を見ている数字なのか
P値は、かなりざっくり言えば「本当は差がないと仮定した時に、今回のような結果がどれくらい珍しいか」を見る数字です。
たとえば、新しい運動療法と通常の対応を比べた研究があるとします。
まず「本当は両者に差はない」と仮定します。
その上で、今回のような差が偶然で出る確率がどれくらい低いかを見る。
それがP値です。
| よくある誤解 | 実際に見ていること |
|---|---|
| P値が小さいほど効果が大きい | P値は効果の大きさそのものではありません |
| P<0.05なら治療効果が証明された | 偶然では説明しにくい差が出た、という意味に近いです |
| P>0.05なら意味がない | 効果がないと証明されたわけではありません |
つまり、P値は便利ですが、かなり限定された情報です。
論文を読む時にP値だけを見るのは、問診をせず検査ひとつで原因を決めるようなものです。
統計的有意と、臨床的に意味があることは違う
統計的に有意でも、患者さんにとって意味があるとは限りません。
ここが一番大事です。
たとえば、痛みの点数が平均で0.5だけ改善したとします。
大人数の研究なら、それでも統計的に有意になることがあります。
でも、患者さん本人がその変化に気づくでしょうか。
日常生活が変わるでしょうか。
少し辛口に言うと、「統計的に有意でした」だけで患者さんにすすめるのは、数字を読んでいるようで、患者さんを見ていないことがあります。
臨床では、患者さんにとって意味のある変化かどうかを見ます。
痛みが少し変わっただけなのか。
歩ける距離が伸びたのか。
仕事に戻れるようになったのか。
不安が減って、動けるようになったのか。
数字が変わることと、生活が変わることは同じではありません。
効果量を見る
P値の次に見たいのが、効果の大きさです。
どれくらい良くなったのか。
どれくらい差があったのか。
その差は、患者さんにとって意味があるのか。
ここを見ないと、臨床に持ち込めるかどうかは判断しにくいです。
P値で「偶然っぽさ」を見る。効果量で「どれくらい変わったか」を見る。さらに、その変化が患者さんの生活に意味があるかを考える。この順番が大事です。
統計的に有意でも、変化が小さすぎれば臨床では使いにくいことがあります。
逆に、有意差が出ていなくても、効果の方向や大きさ、リスクの少なさから、臨床上の選択肢として考える価値がある場合もあります。
95%信頼区間は、結果のブレを見るために使う
もうひとつ見たいのが、95%信頼区間です。
これは、結果の幅を見るものです。
研究は、同じように見えても毎回ぴったり同じ結果にはなりません。
対象者、測定方法、サンプル数、ばらつき。いろいろな要素で結果は揺れます。
信頼区間は、その揺れを含めて「真の効果がこのあたりにありそう」と示すためのものです。
| 信頼区間の見方 | 臨床での受け取り方 |
|---|---|
| 幅が狭い | 推定が比較的安定していると見やすい |
| 幅が広い | 結果の不確実性が大きく、慎重に読む必要がある |
| 改善にも悪化にもまたがる | 効果の方向がはっきりしにくい |
| 臨床的に意味のある範囲を超えている | P値だけでなく、実際の価値を検討したい |
信頼区間を見ると、「この結果はどれくらい確からしいのか」「どれくらいブレる可能性があるのか」が見えてきます。
P値だけより、ずっと臨床に近い読み方になります。
0.05を境目に、白黒をつけすぎない
P値0.049なら意味がある。
P値0.051なら意味がない。
こういう読み方は、かなり危ういです。
数字としてはほとんど変わらないのに、0.05を境目に扱いがガラッと変わる。
これは現実の臨床感覚ともズレます。

まなぶ先生

瀬谷崎
統計の世界でも、P値や統計的有意に頼りすぎることへの注意は以前から出ています。
P値は便利ですが、臨床判断のすべてを背負わせるには荷が重いです。
論文を臨床に使う時の読み方
セラピストが論文を読む時、まず次のように見ると読み違えにくくなります。
- P値だけで良し悪しを決めていないか
- 実際の効果量はどれくらいか
- 95%信頼区間の幅はどれくらいか
- その変化は患者さんが気づくレベルか
- 痛みだけでなく、生活や機能に意味があるか
- 研究対象と目の前の患者さんは似ているか
- リスクやコストに対して、見合う価値があるか
論文は、臨床判断を助けてくれます。
ただ、論文の数字をそのまま患者さんに貼りつけるわけではありません。
研究の結果を見て、目の前の患者さんにどう使うかを考える。
ここが、エビデンスを読む意味です。
とんとん整骨院が大切にしていること
とんとん整骨院では、エビデンスを大切にしています。
ただし、論文に書かれた数字だけで施術を決めるわけではありません。
患者さんの症状、生活、希望、リスク、通える頻度、過去の経験。
こうした情報と、研究で示された結果を合わせて考えます。
統計的に有意だからやる、ではなく、その人にとって意味があるかどうかまで見る。
ここを大切にしたいと思っています。
数字に強くなることは大事です。でも、数字を読めることと、患者さんを見られることはセットで考えたいですね。
施術者が見直したいこと
- 「有意差あり」を、効果が大きいという意味で使っていないか
- 「有意差なし」を、効果がないという意味で切り捨てていないか
- 効果量と信頼区間を確認しているか
- 患者さんにとって意味のある変化かを考えているか
- 論文の対象者と、自分の患者さんの違いを見ているか
- 統計の言葉で、自分の判断を強く見せすぎていないか
P値は入口であって、結論ではない
P値や統計的有意は、論文を読む上で大切な情報です。
でも、それだけで効果の大きさも、臨床での価値も、患者さんにとっての意味も分かるわけではありません。
効果量を見る。信頼区間を見る。患者さんの生活にとって意味があるかを見る。
その上で、目の前の人にどう使うかを考える。
エビデンスを臨床に使うというのは、たぶんそういう作業です。

瀬谷崎
参考
- Wasserstein RL, Lazar NA. The ASA Statement on p-Values: Context, Process, and Purpose. The American Statistician. 2016.
Taylor & Francis Online - Amrhein V, Greenland S, McShane B. Scientists rise up against statistical significance. Nature. 2019.
Nature - Sullivan GM, Feinn R. Using Effect Size-or Why the P Value Is Not Enough. Journal of Graduate Medical Education. 2012.
PMC - Dworkin RH, et al. Interpreting the Clinical Importance of Treatment Outcomes in Chronic Pain Clinical Trials: IMMPACT Recommendations. Journal of Pain. 2008.
PubMed













