統計学的有意性、知っていますか。 - フリーランス兼業主夫日記

先日のオイコノミアを見て思ったことの続きです。

書きたいことがいくつかあるので、勢いがあるうちに続けて書いてしまいましょう。

nshufu.hatenablog.com

「単位パン」実験。

番組の中で、「単位パンを食べたら成績が上がるか」という実験をやっていました。

「大学でついに"単位"が売られるようになった！」と話題になった、あの「単位パン」です。

クラスを、学籍番号の末尾の数字が偶数か奇数かで2つのグループに分け、片方にテスト前に単位パンを食べてもらう。テスト結果に違いが出るか?

というものでした。

番組では、「2つのグループが十分に大きければ、条件が同じ＝比較可能になる」と説明されていました。

でも実際には、2つのグループが本当に比較可能かどうかを統計学的に調べなければなりません。成績＝テストの点数に関する実験ですから、点数に関係がありそうな属性に2つのグループで最初から差があっては、比較できません。

例えば、授業への出席日数とか、過去のテストの成績とか、そんな属性が考えられるでしょう。各グループの人数は、ざっとみたところ40人ぐらいだったでしょうか。それぐらいの人数がいたとしても、これらの属性が同じかどうかは調べてみなければわかりません。

今回の実験では、そういう条件が2つのグループで同じであったと仮定して行われたものと思います。

そして、テストの成績は。

単位パンを食べた群：17.5点、食べなかった群：16.7点。

この差は、統計学的に有意ではなかったそうです（番組中では、間違って「優位」と表記されていました）。

統計学的検定。

この実験では、「統計学的に有意ではなかった」と結論づけていました。

ところが、例えばよくある普通のテレビ番組だったらどうだったでしょう?

「平均点が0.8点高くなりました！単位パン、効果があるんです！」なんていう、逆の結論が導かれることは普通にありそうです。

実験の結果みられた差が「意味のある差＝有意差」であるかどうかは、比較する2つのデータ群を統計学的に比較しなければわかりません（前述の通り、比較する2つの群の他の条件が同じであることも重要です）。

統計学的に比較するとは。

比較する2つの群の差が意味のある差かどうかを、データの個数と値の分布から、数学的な方法で調べる（検定する）ことです。

（検定方法にはさまざまなものがあるので、その方法の選択が結果判定に影響を及ぼす可能性はあるかもしれません）

例えば、成績が同じ2人の片方だけが単位パンを食べてテストを受けた結果、食べた方が18点、食べなかった方が17点だったとします。これで単位パンに効果があったと言えるでしょうか?

1人ずつだけの結果だし、そうは言えないだろうということは、感覚的に想像できると思います。サイコロを1回振って1の目が出たとき「このサイコロは何回振っても1が出る！」と結論付けるのと同じようなものです。

つまり、そのときにだけ「たまたま」そういう結果になった可能性があるんです。実験には誤差があるので、同じ実験を何回も繰り返したときに（つまり、データをたくさん集めたときに）同じ結果が得られるかどうかを調べる必要があるわけです。

「有意」＝意味があるかどうか。

「たまたま」である可能性を排除するため、統計学的検定では、「高い確率でそのような結果になると言えるかどうか」を、データの個数と値の分布を比較することによって判断します。普通は、95%（または99%）の確率でそうなると言えるかどうかが基準となり、そうなると言える場合に「統計学的に有意」＝「統計学的に意味のある差」ということになります。

テレビ番組などでよく行われている「○○を食べたら○○の値が下がった！」のような実験では、おそらくそういった検証は行われていないでしょう。