草薙の研究ログ

英語の先生をやってます。

部分積率(partial moment)を使った教育的処遇の効果検証

背景:教育的処遇の効果をみるさまざまな方法

(某先生を真似して会話形式で)

教師:ちょっと工夫した指導をして,事前事後のデータとったった。

平均差を見る専門家:おお!10点平均点が伸びてる!これは効果的な指導法だ!

統計的仮説検定をする専門家:ちょっとまてちょっとまてお兄さん,どれどれ…指導法による平均差を0だと仮定したうえで,君のデータの標本サイズと,標準偏差と平均点からみたら,確率的にはちょっと整合性がなさそうな感じ。そうだなー,効果がなかったとはいえないかも。

効果量を解釈する専門家:エー!「効果がなかったとはいえない」って…それだけ?それに,たとえば,単純に標本サイズ多くなれば,どんどん「効果がなかったとはいえなくなる」じゃん。効果量の値を見ようぜ値を。d = .2くらいだから,小ってとこでしょ

リスクを考えるひと:え?たとえ効果量が大きくても,伸びないひととか,逆に下がるひともいるかもしれないじゃん。ばらつきを考えないと。ばらつきを。ばらつきが大きくなる指導法はリスキーだっていえるから,ばらつきが大きくなったかをみないと。ほら,分散比は1.5だから,ばらつき大きくなってんじゃん!たとえば,それって平均的に儲かるかもしれないけど,大損もするかもってことでしょ!そんなのギャンブルといっしょじゃん!

いろいろとうるさいひと:おいおい,お前らそんな計算は全部きれいな正規分布を仮定した計算だぞ。処遇の成果が綺麗に正規分布に従うなんてありそうもなさそうなことだし,そもそもリスクなんて主観的なものなんだ。リスクは全体のばらつきではなくて,主観的な意味で望ましくないことが起こりそうな度合いだろう。「これは望ましくない」っていう実務家の判断を踏まえたものの上で考えないと

みんな:お前何いっているの。

いろいろとうるさいひと:あのね,そもそも…

 

部分積率(partial moment)

部分積率っていう考えかたがある。部分積率は,積率の一部分。でもそもそも積率(moment)というのは,ある変数xのべき乗(1乗,2乗…)の期待値。期待値は平均だとおもっていい。k乗の期待値をk次の積率という。正規分布するデータの1次積率は平均,2次積率は分散,3次積率は歪度,四次積率は尖度。

部分積率は,変数xにおいて,ある参照点(r)以上のデータと以下のデータをわけたとき,それぞれのデータにおける積率

rをあるテストの合格点としたら,上側一次の部分積率は,合格したひとたちにおける平均値(厳密にはそれ引くr)下側二次の部分積率は,不合格のひとたちの分散。しかし,ここでの偏差はそのなかにおける一次部分積率との差ではなくて,合格点との差。

一般に下側二次の部分積率は,下方部分積率(lower patial moment)などとよばれ,金融工学などではリスク指標としてつかわれる。下方リスク(down side risk)などとよばれることもあるのだそう。データの半分のときは半分散(semivariance)という。

 

さて,ここで,

 

上側一次の部分積率/下側二次の部分積率

 

という指標を考える。でも二次の積率は分散なので標準偏差の変換したほうがいい。なので,実際は上側一次の部分積率/√下側二次の部分積率を考える。

この指標は,upside pottential ratioなどともよばれ,下方リスクに占める期待されるリターンの大きさをあらわす。日本語ではどういうのだろう。金融の用語をそのまま使うのもアレなので,…成長期待比?

ちょっとくわしくいうと,この指標は,ある参照点以上における期待値と参照点以下におけるリスクの比率なので,これが高ければ高いほど,ローリスク・ハイリターンといえそう。教育的処遇の成果におけるリターンとは成績の高さ,リスクとはばらつきの多さなので,参照点以下のばらつきが小さく(望ましくない点数をとらない),参照点以上のなかでも期待値が高い(よりよい点をとる)ということ。

さらにこれは,平均差,効果量,VaR(バリューアトリスク)などよりも分布の歪みにちょっと強い

 

計算

計算は簡単。Excelでも簡単にできる。

Rなら,

upr<-function(d,r){
u1m<-mean(d[d>r]-r)
l2m<-mean((d[d<r]-r)^2)
sl2m<-sqrt(l2m)
list("upr"=u1m/sl2m)
}

 

こんな感じで計算してもいい。dはデータのベクトル,rは参照点。rは好きに決める。

upr(rnorm(100,50,10),50)

みたいに。

 

例1:同じ平均,標準偏差,でも歪度が異なる

仮に,統制群を同じくするふたつの指導法の結果が手元にあるとする。青指導法ピンク指導法の結果は,こんな感じ。ともに平均と標準偏差はまったくおなじ。違うのは歪度だけ(約-1と1)。データはフライシュマンのべき乗変換(Fleishman's Power Transformationを使った乱数生成による。

 

f:id:kusanagik:20150601212735p:plain

もちろん,効果量はいっしょ。なので判断がつかない。

でも,部分積率をもちいた方法なら,違う値が出せる。仮にr = 40としたとき(分析者が40点以下の点数を望ましくないと考える),ピンクが20.09青が1.35。断然ピンクのほうがよさそう。つまりピンクのほうが,40点を最低容認レベルと考えたときに,断然ローリスクハイリターンだといえそう。

図をみるとわかるけど,ピンクは40点以下のひとがほとんどいなく,60点を超えるようなひとが青よりも多い。こういうのをまさに評価しているわけ。そしてこれは効果量ではわからない

ちなみ,このデータでは,r = 50のときも60もピンクが優勢。一般に左に重い裾(ファットテール)をもっているほうが,この指標では悪く評価される。なので,仮に効果量などがまったくおなじであっても,この指標の下では,下層を集中的に支援して,ばらつきを減らすような処遇が高く評価されるはず。教育において,成績下層に集中して労力を割くことがあるけど,まあ,それももっともな話。

 

例2:同じ平均,標準偏差,歪度,でも尖度が異なる

次はこんな感じ。尖度が約+1と-1。

f:id:kusanagik:20150601214300p:plain

 

これもr = 40としたとき,ピンクは1.46青は2.39。青のほうがよさそう。つぎに,r = 60としたとき,ピンクは0.42青は0.24。どちらかというと,今度はピンクのほうがちょっとよさそう。このように,参照点次第で,どちらがよいかの結果が変わることになりうる。

なので,分析者がどのレベルをリスクとみなすかが重要だということ。40点以下をリスクとかんがえるのなら,青の処遇がよさそうだけど,60点以下をリスクとかんがえるのなら,ピンクがいいかもしれない。このように,曖昧な状態での意思決定は,意思決定者がリスク自体をどう捉えるかが反映されたほうがいい。特に,教育実践では,集団基準準拠テストのみならず,目標規準準拠テストをつかうときもある。このとき,リスクは目標規準の観点から設定してもいい。

それに繰り返すけど,これは標準化平均差とかの効果量,そしてリスクをみるだけではまったく分からない傾向

 

まとめ

  1. 部分積率をもちいた指標は,効果+リスク,つまりローリスクハイリターンである程度をあらわす
  2. 部分積率をもちいた指標では,研究者や教育者が,処遇における最低容認レベル(この点数以下だったらちょっときつい,とか)を主観的に決めることができる。これは目標規準準拠の評価と非常に相性がいい
  3. 部分積率をもちいた指標は,効果量ではあらわせないさまざまなデータの特性をあらわすことができる