内閣支持率はウソの数字!? 統計学が教える「騙されないデータの読み方」
2020年11月05日 公開
“調査もどき”に注意!
Twitterの投票機能を使うなどして「パートナーが浮気したら許せる?」とか「好きな女子アナは?」とか「当社が開発中のゲームの、このキャラの名前はどれがいい?」といった質問に対する回答を受け付ける、言わば“ネット投票”をしばしば目にします。
そのようなネット投票の集計結果には気をつけてください。娯楽として楽しむのであればまだ許せなくもないのですが、間違っても「そうか、これが世間の声か!」といったぐあいに、集計結果を額面どおりに受け取ってはいけません。
いえ、やっぱり、そんないい加減な“調査もどき”を実施したりその集計結果を公表したりすること自体が良識を欠く行為である、そう強く言っておきましょう。
私がそのように否定的に論じるのには理由があります。なぜならネット投票の回答者は、インターネットで投票を受け付けているのをたまたま知った人にすぎないのであり、母集団から無作為に抽出されたわけではないからです。そもそも母集団の定義が不明です。
言いかえると、ネット投票の企画者は、母集団の定義をすることなく、いったい誰の声を集めようというのでしょうか。
もしかすると、こう思った人がいるかもしれません。「でも回答者数が数万人規模とかだったら、そのネット投票の集計結果はそれなりに信用に値するのでは?」と。残念ながら、その判断は誤りです。
たとえばです。「パートナーが浮気したら許せる?」というネット投票で1万人の回答が得られたとします。母集団からの抽出でなくネット投票ゆえ回答者の属性を企画者も知りようがないわけですが、実はその1万人の全員が「1度も結婚したことのない、九州地方に住む40代男性」であったならと想像してください。
その集計結果が「世間の声」であるとは決して言えませんね。そう、「世間の声」の「世間」とは具体的に誰を指すのかまず定義し、それに該当する人々を無作為に抽出して調べないことには、回答者数がどんなに多かったところで、集計結果は信用できないどころでなく無価値なのです。
学術論文も例外ではない
学術論文にも気をつけてください。研究者自身は真摯に取り組んでいるつもりでも第三者から見て非常に不可思議というものがあります。
突然ですが、みなさんに質問します。昨日の朝と昼と晩に、何をどれくらい食べましたか?
スラスラ答えられる人もいるでしょうが、うまく思い出せず、えーっとなんだったっけと悩む人も少なくないはずです。
いまの話を踏まえて想像してください。高齢者の健康についての研究者が、対面なり電話なりで、被験者と次のやりとりをしたとします。
――昨日の晩は何を食べましたか?
「白いごはんをたくさん食べたよ」
――どれくらい食べましたか?
「小さいお茶碗で2杯……あれ、3杯だったかなぁ」
このやりとりから得られたデータについて、どう思いますか。最後の発言に出てきた「小さいお茶碗」の具体的な大きさがわかりませんし、そもそも被験者の記憶が怪しげで、信用できそうにないですね。
ところが、残念ながら、信用できそうにないこういったデータを集計してグラフを描いたりしている学術論文もないとは言えない現実があるのです。
大手製薬会社が新薬開発時にとるようなデータは、不適切だと会社が潰れかねないですから、ちゃんとしているはずです。私が言いたいのは、学術論文というか研究の結果が主要メディアで紹介されていたとしても、ひとまずは疑ってかかったほうがいいということです。