【数式なしで見てわかる】標準偏差がどうしてもわからない人へ【卒論・修論執筆者向け】
背景
卒業論文や修士論文で,指導教官や先輩,または投稿論文で査読者から「標準偏差」を報告しなさいと言われたことがある方も多いと思います。
ただ,「標準偏差とはなにか」を理解することは簡単じゃありません(と考えるひともいるようです)。
ここでは,外国語教育を専攻している方を念頭に置いて,標準偏差とはなにか,できるだけわかりやすく解説します。
標準偏差は何の指標?
標準偏差(standard deviation, SD)は,データがもっている散布度(ばらつき)の指標です。散布度とは,データのなかで個々の値が散らばっている(ばらついている)度合いを示します。散らばっているというのは,ざっくりいうと,高い値も低い値もあるということだと考えてもOKです。下のグラフを見てください。横軸が人(1番さんから10番さん),縦軸がテストの点数です。
左のグラフでは,みんなが同じくらいの点数です。一方,右のグラフではけっこう点数が高い人も低い人もいます。なので,右のグラフの方が散布度が大きいといえます。
散布度はどうやって計算する?
このような散布度はどうやったら計算できるでしょうか?散布度を1つの数値であらわすためには,いろいろな方法があります。
ここでは,「距離にもとづく方法」について考えます。
まず,下のグラフの1つ1つのケースをマッチ棒だと思ってください。それぞれのマッチの棒の長さは,「原点(0点)からの距離」だと考えられます。
平均はみなさんご存知ですよね。
ここで,平均の距離をもとめて線を引くとこのようになります。
もちろん,平均とくらべて,平均よりも高いマッチ棒も低いマッチ棒もあります。ここで,それぞれのマッチの長さから平均を引いて,それぞれのマッチの長さを見てみます。
それぞれの値から平均を引いたものを偏差といいます。偏差は,平均からの距離ともいえます。
ばらつきとは,平均的にみて,偏差が大きいか小さいかということなのです。
ただし,偏差の平均値は0になってしまいます。
なので,ここで一工夫します。とりあえず,偏差の絶対値をとってみましょう。絶対値を取ると,負の値がなくなるので打ち消されて平均が0になることはありません。
これで偏差の平均をもとめることができますね。
大体10くらいのようです。この偏差の絶対値の平均を「平均偏差」といいます。平均偏差もばらつきをあらわす指標です。これでようやくばらつきを1つの数字であらわすことができました。
この平均偏差という指標はイメージしやすい,とてもいい指標なのですが,残念ながらあまり使われることはありません。(理由は後で触れます)
さて,絶対値を取る他にも,偏差を2乗するという方法もあります。どんな値も2乗すると正の値を取るようになりますね。ではまず,偏差を2乗してみます。
そこから平均をもとめます。
200弱くらいになりました。この値も散布度を示す1つの指標になります。この値は分散(variance)といいます。分散は偏差2乗の平均値です。または,偏差2乗和を標本サイズで割ったものとも考えられます。
しかしながら,分散は2乗してしまったために値が大きくなり,平均偏差のように直感的に解釈することはできません。
なので,この値の平方根をもとめます。平方根をもとめると,もとのスケール(値の大きさ)に戻ります。こうして,分散を,もとのスケールに戻したものを標準偏差とよびます。やっとでてきました。みなさんが聞いたことがある標準偏差とは,ひとことでいうならば,偏差2乗の平均値の根なのです。
このデータではだいたい13になりました。
標準偏差は何がよいのか
どうして平均偏差ではなく,標準偏差が好まれるのでしょうか。それは標準偏差にはとても望ましい性質があるからです。
もし,データが正規分布(真ん中に近い人が多く,遠い人は少ない)に従っている場合,平均(50)から1標準偏差(±13)まわりに68%くらいの人がいる,というような予測ができます。また,2標準偏差の間にだいたい95%の人が入るくらいだといった予測ができます。*1
このような性質を満たすのが,平均偏差ではなく標準偏差なのです。正規分布とはもともと,平均と標準偏差のみからもとめることができるものです。興味があるひとは正規分布の確率密度関数を見てみてください。
また,標準偏差が大きければ大きいほど,山が大きく(広く)なります。下の図のような感じです。
ちょっとむずかしいですが,平均値は偏差自乗和(と分散,共分散)を最小化する値でもあります。なので,平均とは偏差自乗からみた場合の真ん中なのです。
平均値と標準偏差が正しく報告されている場合,一部の統計的計算は,平均値と標準偏差の報告のみから再現するすることができます。なので,標準偏差はとても便利なのです。
ただし,得られたデータが必ず正規分布するかどうかはわかりません。
不偏標準偏差って?どれを使うの?
厳密にいうと,標準偏差(や分散)には2通りのタイプがあります。ひとつは,母集団(興味のある集団の成員全員を含む集団)の推定値としての標準偏差です。母集団の標準偏差(たとえば日本人全員の体重の標準偏差)は基本的には知ることができません。なので,標本(調査した人)からそれを推測するしかありません。
しかし,標本から推測した標準偏差は,本当の母集団の標準偏差よりもやや小さい値を取ってしまうことが知られています。これを偏りとかバイアスといいます。なので,標本から推測した標準偏差よりも少しだけ大きい値の方が,推測値として適切なのです。具体的には,標準偏差や分散をもとめるときに,偏差自乗和を人数で割ったのですが,その代わりに人数-1で割ります。一人分少ないと仮定して平均をもとめると思っても結構です。そうすると値が少し大きくなって,推定値として好ましいのです。
こうしてもとめる値を不偏標準偏差(分散),明確にすると不偏母標準偏差推定値などといいます*2。通常,推定値を得るためには,こちらを使います。普通,統計では母集団について推測するので,一般に標準偏差といわれているものは,不偏標準偏差をあらわしているときが多いです。
一方,全数調査のときなどはこの不偏標準偏差を使う必要はまったくありません。その場合は,-1をしない標準偏差を使いましょう。これを標本標準偏差という人もいます。標本自体の標準偏差ということです。ただし,母集団として扱っているときには標本ではありませんので,ちょっと混乱しますね。
どうやって求めるの?
標準偏差は上の手順でやれば,手計算でも,電卓でも計算できます。ただし,普通はExcelなどで計算するといいでしょう。Excelには標準偏差用の関数が用意されています。STDEVという関数を使えばいいでしょう。
SPSSやRなどでも計算することができます。
関西大学の水本篤先生が開発なさったlangtest.jpなどといったサイトでも計算できます。
どうやって論文に書くの?
APA(アメリカ心理学会出版マニュアル)では,標準偏差をSDと表記するようにしています。大文字のイタリックですよ。あくまでも例ですが,表は以下のように書きます。
標準偏差の報告が不必要だということはありません。高度だから学位論文では必要ないということもありません。
さらに,標準偏差は教育的価値にも関わることです。平均値が上がる指導法だけが常にいいわけではありません。
標準偏差が下がる指導法は,生徒たちの出来不出来の差を狭める指導です。逆に標準偏差を上げる指導は出来不出来の差を広げます。
教育的にどちらが望ましいかは場合によりますが,そうした関心を持つことはとても重要で,批判されるものではありません。平均だけで考えていいんですか?ということです。
なので,標準偏差はかならず適切に報告しましょう。
いかがでしたか?標準偏差ってそんなに難しいものじゃないでしょう?
*1:この言い方は厳密ではありません。釣り鐘型の曲線を確率密度曲線といいますが,y=0とこの曲線の中の面積がおよそ68%,95%になるということです。たとえば100人のデータを取ったとして,かならず範囲の中に68人,または95人の人がいるということにはなりません。
*2:この不偏標準偏差といった言い方はときに通例的に見られますが正しくはありません。厳密には「不偏分散の根」です。不偏分散の根は,母標準偏差の不偏推定量ではありません。詳しくは,https://bellcurve.jp/statistics/blog/13645.html。 このことは,こちらのサイト様 http://cyclo-commuter.hatenablog.jp/entry/2019/03/18/151737 が私のこの記事のリンクを張っていただき,それを知り,その後私も勉強いたしました。ブログ主さま,ありがとうございました。