
ビジネスの現場では、2つの事象に関連があるかどうかを判断すべき場面が多々あります。本稿は、ITmedia NEWSの連載「社会人1年生から学ぶ、やさしいデータ分析」の仮説検定編・第7回として、特定のカテゴリ同士が「独立」であるかを調べる手法を解説します。具体的には、Microsoft ExcelやGoogleスプレッドシートを用いて、統計的な裏付けを得るための手順を具体的に見ていきましょう。
今回取り上げるのは「独立性の検定」と呼ばれる手法で、一般にはカイ二乗検定として知られています。筆者は「独立性」という言葉について、「「独立性」という言葉はちょっとつかみどころがなく、具体的な意味が分かりにくいですが、要するに「関係がない」ということです」と述べています。関西人は「うどん」、関東人は「そば」を好むという一般的なイメージが、統計的に有意な差と言えるのかを架空のデータを用いて検証していきます。
分析の核心は、実際に観測された「実測度数」と、関連がないと仮定した場合の「期待度数」を比較することにあります。複雑な数式を自力で計算しなくとも、現代の表計算ソフトには便利な機能が備わっています。筆者は「CHISQ.TEST関数に実測度数と期待度数を指定すれば簡単にP値が求められます」と、専門知識がなくてもツールを使いこなすことで分析が可能である点を強調しました。
実際の検証結果ではP値が0.0351となり、5%有意で「出身地域と麺類の好みは独立ではない」という結論が導き出されました。しかし、データを扱う際には、全体の関係と個々の関係に矛盾が生じる「シンプソンのパラドックス」に留意する必要があります。これは、全体の傾向が個別のグループの傾向と逆転してしまう現象で、分析の精度を高めるためには避けて通れない重要な視点となります。
記事の最後では、検定の信頼性を担保するために必要なサンプルサイズの求め方についても触れています。Pythonによる計算例や便利なツール「G*Power」の活用法も紹介されており、読者のレベルに合わせた学習が可能です。筆者は「肩の力を抜いてぜひとも気楽に読み進めてください」と呼びかけており、次回は相関係数の検定について解説する予定です。
No Comments