勉強部屋
確率変数 X
※『取りうる値のそれぞれに対し、その値を取る確率が決まっている』変数のこと。
例題)テストがあった。5人の得点は次のようになった。
X:0, 0, 50, 50, 100
P: 2/5 2/5 1/5:1
期待値 E(X), m, Xバー=平均
E(X)=(0×2+50×2+100)/5=40
E(X)=0×2/5+50×2/5+100×1/5=40←Xにそれぞれ確率を掛けても同じ。←どっちか!計算方法ごちゃ混ぜにしない!足して数で割るか、それぞれに確率をかけるか。
※得か損か…期待値を求める!期待値以上が出たらサイコロを振らない
偏差 X-m=平均からどれだけ離れているか
X-m:-40, -40, 10, 10, 60
※偏差の平均はm-m=0→散らばり分からん→マイナス無くそう→2乗しよう→平方偏差
※共分散:(X-mₓ)(Y-my)
→相関係数:Σ(X-mₓ)(Y-my)/√V(X)√V(Y)
平方偏差 (X-m)²=平均からどれだけ離れているかの割合
(X-m)²:1600, 1600, 100, 100, 3600
→これで平均とれる→分散
分散 V(X)=偏差の2乗(平方偏差)の平均
→E(X)と同様に、全部足して割っても、それぞれ確率をかけて足しても同じ。
V(X)=1600×2/5+100×2/5+3600×1/5=1400
V(X)=Σ(x-m)²p
=Σx²p-2Σxp+m²Σp
Σxp=m, Σp=1より、
V(X)=Σx²p-m²←よく使う!!!mが汚い時に便利。(X²の平均-平均の2乗)
→値が2乗→√にしよう→標準偏差
※分散はXの散らばり具合だが、XとYの相関関係を表す共分散と非常に似ている。
共分散=1/n{(x₁-x ̄)(y₁-y ̄)+…+(xₙ-x ̄)(yₙ-y ̄)}
=1/n{(x₁y₁-x₁y ̄-x ̄y₁+x ̄y ̄)+…+(xₙyₙ-xₙy ̄-x ̄yₙ+x ̄y ̄)}
=1/n{(x₁y₁+…+xₙyₙ) -(x₁+…+xₙ)y ̄-(y₁+…+yₙ)x ̄+nx ̄y ̄}
ここで、(x₁+…+xₙ)y ̄=nx ̄y ̄
(y₁+…+yₙ)x ̄=nx ̄y ̄であるから、よって
=1/n{(x₁y₁+…+xₙyₙ) -nx ̄y ̄}
=1/n(x₁y₁+…+xₙyₙ) -x ̄y ̄
→(x×yの平均) - (xの平均)×(yの平均)←平均値が小数で毎回引いてかけるのが大変なときに有効。
→共分散で相関関係がわかるが、値そのものが全体的に大きいと、共分散も大きくなってしまう→値だけで分かるようにしたい→単位が無くなるように打ち消したい→標準偏差×標準偏差で割る(標準化と似ている)
※相関係数=xyの共分散/(xの標準偏差)(yの標準偏差)
←分母にも分子にも×1/nができるのでxyの共分散×n/(xの平方偏差の和の√)(xの平方偏差の和の√)
相関係数の性質…
・片方をk倍しても変わらない。
・外れ値に大きく左右される。
標準偏差 √V(X), σ=分散のルート
√V(X)=σ=√1400=10√14
※m-σ〜m+σの間に全体の68〜69%が入ることが知られている。テストの偏差値60はm+σの値。すなわち平均値から標準偏差1個分離れていれば偏差値60。2個分離れていれば偏差値70。
確率変数の変換公式(覚える)
確率変数Xに対して
Y=aX+bとするとYも確率変数となり
E(Y)=aE(X)+b
V(Y)=a²V(X)
σ(Y)=|a|σ(X)
→物事の根幹、確率から期待値を求め、それをいじれば求めたい値が簡単に出せるようになる。とりあえずY=aX+bを立式するだけで見通しがよくなる。
確率変数の和と期待値
『和の平均』=『平均の和』
E(X+Y)=E(X)+E(Y)
E(aX+bY)=aE(X)+bE(Y)
独立な確率変数XとYについて
『積の平均』=『平均の積』
E(XY)=E(X)E(Y)
『和の分散』=『分散の和』
V(X+Y)=V(X)+V(Y)
※σ(X+Y)=√V(X+Y)=√V(X)+V(Y)=√σ²(X)+σ²(Y)
σ(X+Y)=σ(X)+σ(Y)は成り立たない。分散を経由しよう。
⚠️V(X₁)=V(X₂)であっても、V(X₁+3X₂)=V(4X)=16V(X)としてはいけない!!!!
V(X₁+3X₂)=V(X₁)+V(3X₂)=V(X₁)+9V(X₂)=10V(X)
●P(|X|≦k)⇔P(-k≦X≦k)
⚠️P(|X-m|≦k)=0.95
P(|X-m|/σ≦k/σ)=0.95 ←条件を式変形しても確率は変わらない!!!!!!!!!!!確率まで変形しない!!!!
P(|Z|≦k/σ)=0.95
P(-k/σ≦Z≦k/σ)=0.95
P(0≦Z≦k/σ)=0.95/2=0.475
→正規分布表から、確率0.475のZscoreは1.96
よってk/σ=1.96
この一連の流れよく出る。
二項分布の平均と分散
確率変数Xが二項分布 B(n,p)に従うとき
E(X) = np
V(X) = np(1−p)
σ(X) = √np(1–p)
二項分布に従う…Xに対してその確率が反復試行になる…E(X)=X₁×₃C₀p³(1-p)⁰+…になるような分布。まともに計算してたら大変。
n:回数、p:表が出る確率
例題)3枚の1円玉を投げて表の出たものをもらうことができる。表の出る枚数をXとする。
X: 0 1 2 3
P:₃C₀(1/2)³, ₃C₁(1/2)²(1/2)¹, ₃C₂(1/2)¹(1/2)², ₃C₃(1/2)³
E(X)=Σxpの計算はコンビネーションCが出ては大変なので、それぞれのコインの期待値(分散)を分けて求めて足す。
ベルヌーイ分布(ありを1、なしを0の二者択一で考える)から、
コイン①について
表が出る確率E(X₁)=1×p+0×(1-p)=p=1/2
分散V(X₁)=(1-m)²p+(0-m)²(1-p)=(1-p)²p+p²(1-p)=p-p²
or, 1²p+0²p-m²=p-p²=p(1-p)=1/4
これはコイン②, ③についても同様←計算が楽になるポイント
E(X)=E(X₁+X₂+X₃)=E(X₁)+E(X₂)+E(X₃)=np=3×1/2
V(X)=V(X₁+X₂+X₃)=V(X₁)+V(X₂)+V(X₃)=np(1-p)=3×1/4(X₁, X₂, X₃は独立より)
度数
その階級に何人いるか。和は人数。→言われてもよく分からんなあ…→全体に占める割合を出そう→相対度数
相対度数≒度数分布(ヒストグラム)≒確率密度関数
全体に占める割合すなわち確率を表す。和は1。→ヒストグラムにしても数学的にはあんまり意味ないなあ→自由な場所、範囲の確率が求められるように面積が確率(相対度数)を表すようにしよう!→確率密度
確率密度関数
縦軸が『相対度数/階級の幅』。ヒストグラム(グラフ、関数)の面積が確率。全体の面積は1→連続型確率関数なら求めたい範囲で積分。
身長が完全にぴったり170cmである確率は限りなく0に近い、ということが数学的に示せる。
→その一例が標準正規分布。よくある分布だし、面積が確率になるから便利。正規分布を標準化してここに当てはめたら面積から確率がわかる→Zscoreからすぐに面積すなわち確率がわかるようにしてるのが正規分布表(正規分布と書いてるけど標準正規分布)
確率密度関数の確率と期待値と分散
∫(a〜b)f(x)dx=1において、
✦確率:P(α≦X≦β)=p=∫(α〜β)f(x)dx→1は超えない
✦期待値(平均):E(α≦X≦β)=m=∫(α〜β)xf(x)dx(∫f(x)dxが確率、Xが値)→値(平均)として出てくる
確率密度関数の関数の形を決めて、∫(a〜b)f(x)dx=1と、計測結果のmを用いてm=∫(α〜β)xf(x)dxを連立すれば、確率密度関数を作れる。
✦分散V(α≦X≦β)=σ²=∫(α〜β) (x-m)²f(x)dx(∫f(x)dxが確率、(x-m)²が平方偏差)
※α〜βが全区間のとき、∫(α〜β) (x-m)²f(x)dxを展開すると確率と期待値が出てきて、それぞれ1とmだから、
✦V(X)=∫(α〜β)x²f(x)dx - m²(値の2乗の平均 - 平均の2乗)
✦このとき、Xが値!!
・よって、相対度数のヒストグラムと確率密度関数は似ている。相対度数のヒストグラムから確率密度関数を予測(仮定)する。
…すごさをわかるために点数聞いて平均聞いて標準偏差何個分平均から離れてるか調べるのはめんどくさい!しかも全体の数がでかいと値もでかくなってしまう。
→平均が0になるように全体をずらす
→標準偏差が1になるように圧縮する
標準化:Z=(X-m)/σ
→正規分布表から確率がわかる!
どんな平均であろうとどんな標準偏差であろうと、(正規分布に従うとすると)値ですごさがすぐわかる!
Z=0なら正規分布表が0だから、残りの左半分の面積の0.5、つまり平均だな、適当にやったのかな、Z=2なら標準偏差2個分離れてるから上位2.28%だな、正規分布表を用いればその確率は1-(0.5+0.4772)=0.0228とわかるな、など、Zscoreと正規分布表セットで用いるとすごく便利。
※正規分布表の周りがZscore、中身が面積=確率。混乱しないように。母平均の推定ではこの逆をやる。
※偏差値=50+10Z=50+10×(X-m)/σ、Z=1で偏差値60、Z=2で偏差値70
正規分布 N(m, σ²)を標準化したもの…標準正規分布 N(0,1)!
→いろんなところに使える
正規分布とみなして連続関数に。平均、標準偏差がわかれば、平均ずらして標準偏差で割ることで標準正規分布にすればZscoreさえ聞けば正規分布表からそのすごさ(割合、確率)がすぐわかる!
※正規分布表は右半分の面積を出すのに使う!!
手順
①範囲を変換(正規化)
Xが正規分布N(20, 5²)に従う。
P(20≦X≦30)
20≦X≦30
0≦X-20≦10
0≦(X-20)/5≦2
0≦Z≦2
②P(0≦Z≦2)を求める。
正規分布めっちゃ便利やん。他のにも使いたいなあ…
二項分布B(n,p)は正規分布N(m, σ²)に近似できる!
m=np
σ²=np(1-p)
→N(np, np(1-p))
→え、どんな分布の母集団にも正規分布がつかえる?!→中心極限定理
ーーーーーーーーーーーーーーーーーーーーーー
(中央極限定理の前置き)
✦標本平均を推測する話
母集団・標本
母集団 (平均m, 母分散σ²)
標本1 (X₁,…,Xₙ)
標本平均X ̄=(X₁+…+Xₙ)/n(=m)
標本分散V(X)={(X₁-X ̄)²+…(Xₙ-X ̄)²}/n(=σ²)
標本標準偏差σ(X)=√V(X)(=σ)
※標本「平均」の分散とは違う。母平均、母分散がわからない、そしてnが十分大きいときはこれを母平均、母分散として、標本平均の分散を求めてよい。→母平均の推定にも使える。
標本2 (X₁,…+Xₙ)→標本平均X ̄=(X₁+…+Xₙ)/n(=m) (V(X)=σ²)
︙
標本6 (X₁,…+Xₙ)→標本平均X ̄=(X₁+…+Xₙ)/n(=m)
標本の数…6
標本の大きさ…n
https://examist.jp/mathematics/statistics/hyouhonheikin/
標本平均の期待値(平均)、分散!
「これから」どのような平均、分散になるか。それは標本の数ではなく標本の大きさに依存する。すでにある標本平均の分布を調べているのではなく、予測している。だから標本の大きさで割る。
E(X ̄)
=E((X₁+…+Xₙ)/n)
=1/n{E(X₁)+…+E(Xₙ)}
=(m+…+m)/n
=nm/n
=m
→母集団の平均と一致する。
※それぞれ標本の値が与えられている場合はちゃんと標本平均の平均を求める。
標本平均の分散
V(X ̄) ←定義に従って計算!
=V((X₁+…+Xₙ)/n)
=1/n²{V(X₁)+…+V(Xₙ)}
=(σ²+…+σ²)/n²
=σ²/n
→母分散/n←標本「平均」の分散なので母分散よりも分散が小さくなる。
→標本の大きさnが増えた分、分散は小さくなる。標本の数は使わない。これからの分散を予測するだけで、すでにあるデータの分散を調べるわけではない。
✦標本が10000個あったとしても標本の大きさが2とかだったら分散は大きくなる
∴σ(Xバー)=σ/√n ←標準偏差は分散を経由!
↑すなわち母平均、母分散を予測するために、問題では母平均、母分散が分かっている(あるいは仮定している)状態で計算する。
例題)1個のサイコロを投げるとき、出る目の数をXとするとき、E(X)=7/2, V(X)=35/12 である。←母平均、母分散
1個のサイコロを60回投げるとき、出る目の数の平均Xバーの期待値と標準偏差を求めよ。←標本の大きさが60。標本の数は謎だが計算には影響しない。60回やったときの平均なので、そんなにばらつきはしなさそう→σ(X ̄)=σ/√60
1個のサイコロを1回投げるとき、出る目の数をXとする。
E(X)=(1+2+3+4+5+6)/6=7/2
V(X)=E(X²)-{E(X)}²=35/12
1個のサイコロを1回投げるとき、出る目の数の平均をYとする。
サイコロを6回投げるときの、1回目から6回目までに出る目の数をX₁, X₂, X₃, X₄, X₅, X₆とすると、
Y=(X₁+…+X₆)/6
確率変数X₁+…+X₆は互いに独立であるから
E(Y)=E((X₁+…+X₆)/6)
=1/6{E(X₁)+…+E(X₆)}
=1/6×6E(X)=7/2
V(Y)=V((X₁+…+X₆)/6)
=(1/6)²{V(X₁)+…V(X₆)}
=(1/6)²×6V(X)=1/6×35/12
標準偏差の2乗の総和をT、分散をσ²、データの個数をnとすると、
σ²=T/n
∴σ=√T/n
また、
T=nσ²とすることで、
T'=T+(x-m)²
σ'=√{T+(x-m)²}/(n+1)
x=mのとき、σ'=√T/(n+1)
ーーーーーーーーーーーーーーーーーーーーーー
中心極限定理
『標本の大きさnが十分大きければ、母集団がどんな分布であろうと、その標本平均X ̄の分布は、近似的に正規分布N(m, σ²/n)に従う。』
母集団が正規分布ならnは小さくても成り立つ。
→よってX ̄をZに変換したものも近似的に標準正規分布N(0,1)に従う。→正規分布表の面積から確率がわかる。
母平均の推定
✦今度は標本平均を予測する話ではなく、標本平均のデータが取れた上で母集団を予測する話。
考え方
標本が、母平均(母比率)の周りに95%の範囲に集まる(標本真ん中、母に囲まれた範囲)を立式して、式変形で、母平均(母比率)を真ん中、標本で囲われた形にする。その際、正規分布の95%の範囲を使うために一回標準正規分布に変換する。
母標準偏差σ(母分散)と標本(サンプル)の平均X ̄はわかった、母平均mはわからない状況
(nが大きいときは標本の標準偏差を母標準偏差としてよい)
サンプルの平均E(X ̄)が本当に母平均mといえるのか?
→中心極限定理より、標本の大きさnが十分大きいとき、X ̄は近似的に正規分布N(未知の母平均m, わかってるσ²/n)に従う。
→X ̄の正規分布のうち、95%の部分、すなわち標準正規分布の面積が0.95の部分、つまり片方の確率が0.475となるところを調べるとZ=1.96、これは片方だからZ=±1.96
→Zscoreを元の大きさに戻そう
Zscoreは平均引いて標準偏差で割ったものだから…標準偏差掛けて、平均足そう
ここでX ̄は標本平均だから、
その標準偏差σ(X ̄)=σ/√n
→Z=±1.96を元の大きさに戻すと、
±1.96×σ/√n+m
よって、標本平均X ̄が95%の確率で居る範囲は、
m-1.96×σ/√n≦X ̄≦m+1.96×σ/√n
すなわちmが95%の確率で居る範囲は、
X ̄-1.96×σ/√n≦m≦X ̄+1.96×σ/√n
これが、信頼度95%の母平均の範囲。
99%なら、半分の面積は0.495、Z=±2.58
一般化すると…
標本平均をX ̄とすると、
信頼度95%で
X ̄-1.96×σ/√n≦m≦X ̄+1.96×σ/√n
信頼度99%で
X ̄-2.58×σ/√n≦m≦X ̄+2.58×σ/√n
ちゃんとやると…
よって標本比率Rは近似的に正規分布N(m, σ²)に従う(標本平均は標本平均X ̄付近ではなく、母平均m付近に分布するはずなので、そのように計算する。後で式変形でmを真ん中にすれば良い)
よって、
Z=(X ̄-m)/σとすると、Zも近似的に標準正規分布N(0,1)に従う。
よって標本平均が95%でいる範囲、すなわち確率が0.95となるのは、確率0.475のZscoreを調べて、|Z|≦1.96のとき。
P(|Z|≦1.96)=0.95
よって信頼度95%(P=0.95)で
-1.96≦Z≦1.96
-1.96≦(X ̄-m)/σ≦1.96
-1.96σ≦X ̄-m≦1.96σ
-1.96σ-X ̄≦-m≦1.96σ-X ̄
1.96σ+X ̄≧m≧-1.96σ+X ̄
X ̄-1.96σ≦m≦1.96σ+X ̄
このσは標本平均の標準偏差。標本平均の標準偏差σは母分散σ'を用いて
σ'=σ(X ̄)=σ'/√n
これを代入し、
X ̄-1.96×σ/√n≦m≦X ̄+1.96×σ/√n
これを混乱しないように!!
⚠️Zに使うσは標本平均のσ、それを母標準偏差で表す。
信頼区間の幅は2×1.96×σ/√n ←1.96を忘れないように!!
→信頼区間を1/kにしたい→元の標本数×k²
母比率pの推定
比率っていうのは、赤と白の割合、だから0か1にすればいいよねと
標本比率R=(X₁+X₂+…Xₙ)/n(Xはyesが1、noが0とする)すなわち(X₁+X₂+…Xₙ)は特性Aを持つ要素の個数であり、(X₁+X₂+…Xₙ)/nは(特性を持つ要素の個数)/(全体の個数)となり、ある特性Aを持つ比率となる。
ここで、Xが1となる確率は母比率pに等しく、またXが0となる確率は1-pであるから、
E(X₁)=1×p+0(1-p)=p
V(X₁)=1²×p+0²×p -p²=p(1-p)
よって、
E(R)=E{(X₁+X₂+…Xₙ)/n}=np/n=p
V(R)=V{(X₁+X₂+…Xₙ)/n}=1/n²×nV(X₁)=p(1-p)/n
σ(R)=√V(R)=√{p(1-p)/n}…①
95%の確率で標本比率Rがある範囲は
p-1.96×√p(1-p)/n≦R≦p+1.96×√p(1-p)/n
すなわち95%の確率で母比率pがある範囲は
R-1.96×√p(1-p)/n≦p≦R+1.96×√p(1-p)/n
ここで、近似的に√p(1-p)/n≒√R(1-R)/nとしてよく、
信頼度95%で
R-1.96×√R(1-R)/n≦p≦R+1.96×√R(1-R)/n
信頼度99%で
R-2.58×√R(1-R)/n≦p≦R+2.58×√R(1-R)/n
↑標準偏差をRで表せるため、標準偏差の情報がなくても解けるのが母平均との違い。
①からちゃんとやると…
よって標本比率Rは近似的に正規分布N(p, p(1-p)/n)に従う
よって、
Z=(R-p)/σとすると、Zも近似的に標準正規分布N(0,1)に従う。
ここで、標本比率Rは母平均pに近いとみなしてよく、(標本比率のときの違い)
P=0.95となるのは|Z|≦1.96
P(|Z|≦1.96)=0.95
よって信頼度95%(P=0.95)で
-1.96≦Z≦1.96
-1.96≦(R-p)/σ≦1.96
-1.96σ≦R-p≦1.96σ
-1.96σ-R≦-p≦1.96σ-R
1.96σ+R≧p≧-1.96σ+R
R-1.96σ≦p≦1.96σ+R
よって
R-1.96×√R(1-R)/n≦p≦R+1.96×√R(1-R)/n
(母分散がわからなくても標本比率から近似できるのも標本平均との違い)
⚠️Zに使うσは標本比率の標準偏差。それを本来は母比率pで表すが近似的に標本比率Rを用いてσ=√R(1-R)/nとできる。
✦✦標本平均(比率)の平均(期待値)、分散(標準偏差)を母平均(比率)で表す。
→標準化
標本平均X ̄の平均は母平均mに(→Z=X ̄-m/σ)。標本比率Rのの平均は母比率pに(Z=R-p/σ)。
(σはそれぞれのやり方で求める)
→Zを95%の範囲とかで囲む
→標本が母に囲まれた形になる
→式変形で無理やり母を標本で囲んだ形にする
→95%とかの母平均(比率)の範囲がわかる。
仮説検定
帰無仮説:否定したい仮説 p=0.6
対立仮説:主張したい仮説 p≠0.6
を設定しよう
帰無仮説…無に帰したい仮説。否定されることを期待して立てられる仮説。
対立仮説…帰無仮説に対立する仮説。帰無仮説が棄却された時に採択される、主張したい仮説。
なぜそんなことを?→偶然ではない、≠は数学的に言いにくいので、帰無仮説で=として、それが正しくないことを言う。
仮説検定の手法
ある確率と結果が与えられる。その確率ではないことが示したい(p≠0.6)。まずは帰無仮説でその確率になる(p=0.6)とする。そして二項分布B(n, p)(二者択一)から期待値npと分散np(1-p)を求める。これにより完全にその確率に従うとしたときの分布を調べる。そして正規分布N(m, σ²) に近似し、標準化(Z=(X-m)/σ)してN(0,1) として扱いやすくする。これは帰無仮説(p=0.6)に完全に従うとしたときの分布で、面積が、p=0.6のとにその値(範囲)となる確率を表す。真ん中より下、z≦0は0.5の確率で起こるし、z≧1.96は0.025の確率で起こる。
※対立仮説が≠のときは両側検定。p>0.6を言いたいときは偶然より大きすぎて却下したいので右側検定(というか平均よりも大きい値になるのでZ(X)が右に分布する)。p<0.6を言いたいときは左側検定。片側検定のときは0.5-0.05=0.45の部分から棄却域はz≧1.64(1.65)とわかる。
その下で、データXのとき、それがp=0.6が0.95以上で起こる範囲か(起こりやすいか)、5%以下起こる範囲か(起こりにくいか)を見る。
0.95以上の範囲にあるとき、p=0.6かもしれず、帰無仮説を棄却できない。
0.05以下の範囲にある(棄却域に入っている)とき、p=0.6とは偶然には起こりにくく、p≠0.6であり、棄却され、対立仮説(p≠0.6)が正しいといえる。
ごちゃごちゃしている様だが、実は全部同じ事を言っているようなもの。
有意水準5%…観察結果が偶然に起こる確率が5%以下であることを意味する。すなわち帰無仮説で、事象が偶然に起こったことを言うとき、Z(X)が-1.96≦Z(X)≦1.96の外、つまり棄却域にあるとき、それは5%以下の確率で起こることを意味する。確かにそれは偶然とは言いにくいことになる。このとき、帰無仮説は棄却され、対立仮説、事象は偶然ではない、が正しいことになる。
【要旨】
事象が偶然ではないと言いたい
→偶然であるとしたとき(=帰無仮説)の確率は(有意水準を5%としたとき)5%以下となるので、これは偶然ではない(=棄却域に入っているので棄却される)
→これは偶然ではない(=対立仮説が採択される)
or
5%以上、すなわち棄却域に入っていないとき、それ(p=0.6)は偶然に起こり得るため、対立仮説が正しいとは言えない。
【要旨の要旨】
正規分布の端っこ(棄却域)なら偶然ではないね、真ん中なら偶然だね。
→分布の5%、すなわち標準正規分布の右端の面積0.025の部分。このZscoreは1.96(5%も95%も同じ0.5-0.025=0.95÷2=0.475のところ使う)。調べる値XをZに変換したものが-1.96≦Z≦1.96を超えている場合、それは棄却される。
問題…確率と結果の値が与えられる。帰無仮説でp=確率として、
いいね!