二項分布露分け

ベルヌーイ分布から二項分布を導出する。$n$個の確率変数$X_{1},X_{2},\ldots,X_{n}$は全て独立であり、ベルヌーイ分布に従うとする。その和$S_{n}=X_{1}+X_{2}+\cdots+X_{n}$の確率母関数を求める。先ず独立であることから確率質量関数は \begin{align} f(x_{1},x_{2},\ldots,x_{n})=f(x_{1})f(x_{2})\cdots f(x_{n}) =\prod_{i=1}^{n} f(x_{i}) \notag \end{align} が成り立つとする。このとき$S_{n}$の確率母関数は$X_{1},X_{2},\ldots,X_{n}$の積に分けることができる。 \begin{align} G_{S_{n}}(t) &=\mathrm{E}[t^{S_{n}}] \notag\\ &=\mathrm{E}[t^{X_{1}+X_{2}+\cdots+X_{n}}] \notag\\ &=\mathrm{E}[t^{X_{1}} t^{X_{2}} \cdots t^{X_{n}}] \notag\\ &= \sum_{x_{1}=0}^{1} \sum_{x_{2}=0}^{1} \cdots \sum_{x_{n}=0}^{1} t^{x_{1}} t^{x_{2}} \cdots t^{x_{n}} f(x_{1},x_{2},\ldots,x_{n}) \notag\\ &= \sum_{x_{1}=0}^{1} t^{x_{1}} f(x_{1}) \cdot \sum_{x_{2}=0}^{1} t^{x_{2}} f(x_{2})\cdots \sum_{x_{n}=0}^{1} t^{x_{n}} f(x_{n}) \notag\\ &=\prod_{i=1}^{n} \sum_{x_{i}=0}^{1} t^{x_{i}} f(x_{i}) \notag\\ &=\prod_{i=1}^{n} \mathrm{E}[t^{X_{i}}]\notag\\ &=\prod_{i=1}^{n} G_{X_{i}} (t) .\notag \end{align} ベルヌーイ分布の確率母関数$G_{X_{i}}(t)=(1-p)+pt$を代入し二項定理を用いると \begin{align} G_{S_{n}}(t) &=\prod_{i=1}^{n} G_{X_{i}} (t) \notag\\ &=\left\{(1-p)+pt\right\}^{n} \notag\\ &=\sum_{i=0}^{n} \binom{n}{i} (1-p)^{n-i} p^{i} t^{i} \notag \end{align} となる。$S_{n}$は全ての$x$が零となり、$S_{n}=0+\cdots+0=0$となる場合から$n$個ある全ての$x$が一となり、その和が$S_{n}=1+\cdots+1=n$となる場合まである。そのため期待値の定義より \[ G_{S_{n}}(t) =\mathrm{E}[t^{S_{n}}] =\sum_{S_{n}=0}^{n} f(S_{n}) t^{S_{n}} \] と書ける。二つの式の総和の$t^{s}$の係数を比べることで \[ f(s)=\binom{n}{s} (1-p)^{n-s} p^{s} \] を得る。確率母関数を用いない方法では定義関数を使わなければならない。詳しくは再生性の章に記した。この式は次のように解釈できる。ベルヌーイ分布を$n$回行い、その内の$s$回が成功し$n-s$回が失敗する確率関数は試行が互いに独立であるとき$p^{s}$と$ (1-p)^{n-s}$との積であるが、成功と失敗との順番を考慮し無くてはならない。この順番は$n$個の中から重複を許さずに$s$個を選ぶ組み合わせは二項係数$ \binom{n}{s} $で表せるため \[ f(s)=\binom{n}{s} (1-p)^{n-s} p^{s}=\frac{n!}{s!(n-s)!} (1-p)^{n-s} p^{s} \] である。この分布を二項分布という。これは成功回数$s$を求めるための確率質量関数である。他に確率質量関数を \[ \mathrm{Bin}(s|n,p)=\frac{n!}{s!(n-s)!} p^{s}(1-p)^{n-s} \] とも書く。これはベイズ統計の本を引用した。

確率質量関数の総和は二項定理より \begin{align} \sum_{s=0}^{n} f(s) &=\sum_{s=0}^{n} \binom{n}{s} (1-p)^{n-s} p^{s} \notag\\ &=\left\{(1-p)+p\right\}^{n} \notag\\ &=1 \notag \end{align} となり確率の公理を満たす。

期待値を求める。この確率分布と確率変数との積の総和を取ればいい。この場合の確率変数は成功の回数であり、それは一回も成功しない$s=0$の場合から、全て成功する$s=n$の場合まである。そのため総和は$s=0$から$n$まで取ればいい。よって期待値は \[ \mathrm{E}[S]=\sum_{s=0}^{n} sf(s)=\sum_{s=0}^{n} s\ \binom{n}{s} p^{s} (1-p)^{n-s} \] から求まる。総和から$s=0$の場合を分けると \begin{align} \mathrm{E}[S] &=0\binom{n}{0} p^{0} (1-p)^{n-0} + \sum_{s=1}^{n} s\binom{n}{s} p^{s} (1-p)^{n-s} \notag\\ &=\sum_{s=1}^{n} s\binom{n}{s} p^{s} (1-p)^{n-s} \notag \end{align} となり、二項分布の定義から \begin{align} \mathrm{E}[S] &=\sum_{s=1}^{n} s\frac{n!}{s!(n-s)!} p^{s} (1-p)^{n-s} \notag\\ &=np\sum_{s=1}^{n} \ \frac{(n-1)!}{(s-1)!((n-1)-(s-1))!} p^{s-1} (1-p)^{(n-1)-(s-1)} \notag \end{align} と書ける。ここで$n-1=n',\ s-1=s'$とすると$s=1,2,\cdots,n$は$s'=0,1,\cdots,n-1=0,1,\cdots,n'$となるため \[ \mathrm{E}[S]=np\sum_{s'=0}^{n'} \ \frac{n'!}{s'!(n'-s')!} p^{s'} (1-p)^{n'-s'} \] となる。すでに確かめたように確率関数の総和は$1$であるため \[ 1=\sum_{s=0}^{n} f(s)=\sum_{s=0}^{n} \frac{n!}{s!(n-s)!} p^{s}(1-p)^{n-s} \] であり、この式に充てている文字そのものに意味はないため、別の字に変えても同じである。このことを踏まえると \[ \mathrm{E}[S]=np \] である。

分散を求める。$\Big( s-\mathrm{E}[S] \Big)^{2}=s^{2}-2\mathrm{E}[S] s+\Big( \mathrm{E}[S] \Big)^{2}$であることから \[ \mathrm{Var}[S] =\sum_{s=0}^{n} \Big( s-\mathrm{E}[S] \Big)^{2} f(s) =\sum_{s=0}^{n} s^{2}f(s) -2\mathrm{E}[S] \sum_{s=0}^{n} sf(s) +\Big(\mathrm{E}[S]\Big)^{2}\sum_{s=0}^{n} f(s) \] である。また$s^{2}=s(s-1)+s$であり$\mathrm{E}[S]=\sum_{s=0}^{n} sf(s),\ 1=\sum_{s=0}^{n}f(s)$より \begin{align} \mathrm{Var}[S] &=\sum_{s=0}^{n} (s-\mathrm{E}[S])^{2} f(s)\notag\\ &=\sum_{s=0}^{n} \left(s(s-1) +s \right) f(s)-\left(\mathrm{E}[S]\right)^{2} \notag\\ &=\sum_{s=0}^{n} s(s-1) f(s)+\sum_{s=0}^{n} s f(s)-\left(\mathrm{E}[S]\right)^{2} \notag\\ &=\mathrm{E}[S(S-1)]+\mathrm{E}[S]-\left(\mathrm{E}[S]\right)^{2} \notag \end{align} となる。ここで$\sum_{s=0}^{n} s(s-1) f(s)$は$s=0,1$のとき$0$であるため、$n-2=n'',\ s-2=s''$として計算すれば \begin{align} \mathrm{E}[S(S-1)] &=\sum_{s=0}^{n} s(s-1) f(s) \notag\\ &=0+0+\sum_{s=2}^{n} s(s-1) \frac{n!}{s!(n-s)!} p^{s}(1-p)^{n-s} \notag\\ &=\sum_{s=2}^{n} \frac{n(n-1)(n-2)!}{(s-2)!((n-2)-(s-2))!} p^{s-2+2}(1-p)^{(n-2)-(s-2)} \notag\\ &=n(n-1)p^2 \sum_{s''=0}^{n-2} \frac{n''!}{s''!(n''-s'')!} p^{s''}(1-p)^{n''-s''} \notag\\ &=n(n-1)p^{2} (1-p+p)^{n-2} \notag\\ &=n(n-1)p^2 \notag \end{align} を得る。以上より分散は \[ \mathrm{Var}[S]=n(n-1)p^{2}+np-(np)^{2}=np(1-p) \] である。

別の求め方として確率母関数を用いる。 \[ G(t) =\mathrm{E}[t^{S}] =\sum_{s=0}^{n} \binom{n}{s} (1-p)^{n-s} p^{s} t^{s} =\sum_{s=0}^{n} \frac{n!}{s!(n-s)!} (1-p)^{n-s} (t p)^{s} \] この式は二項定理より$(tp+(1-p))^{n}$の展開式であることが分かる。そのため \[ G(t)=\mathrm{E}[t^{S}]=(1-p+pt)^{n} \] である。この微分は \[ \frac{\mathrm{d}G(t)}{\mathrm{d}t}=\mathrm{E}\left[ S t^{S-1} \right]=np(1-p+pt)^{n-1} \] である。$t=1$とすると \[ \left. \frac{\mathrm{d}G(t)}{\mathrm{d}t} \right|_{t=1} =\mathrm{E}\left[ S \right] =np \] を得る。二階微分は \[ \frac{\mathrm{d}^{2} G(t)}{\mathrm{d}t^{2} } =\mathrm{E}\left[S(S-1) t^{S-2}\right] =p^{2}n(n-1) (1-p+pt)^{n-2} \] である。$t=1$とすると \[ \left. \frac{\mathrm{d}^{2} G(t)}{\mathrm{d}t^{2} }\right|_{t=1}=\mathrm{E}\left[S(S-1)\right] =p^{2}n(n-1) \] となる。この結果から分散は \begin{align} \mathrm{Var}[S] &=\mathrm{E}[S(S-1)]+\mathrm{E}[S]-(\mathrm{E}[S])^{2}\notag\\ &=p^{2}n(n-1)+np-(np)^{2}\notag\\ &=np(1-p)\notag \end{align} である。

他にもベルヌーイ分布に従う独立な確率変数の和からも求まる。期待値は \begin{align} \mathrm{E}[S_{n}] &= \mathrm{E}\left[\sum X_{i}\right] \notag\\ &= \mathrm{E}[X_{1}+X_{2}+\cdots+X_{n}] \notag\\ &= \sum_{x_{1}=0}^{1} \sum_{x_{2}=0}^{1} \cdots \sum_{x_{n}=0}^{1} \left(x_{1} + x_{2} +\cdots + x_{n}\right) f(x_{1},x_{2},\ldots,x_{n}) \notag\\ &= \sum_{x_{1}=0}^{1} x_{1} f(x_{1}) \sum_{x_{2}=0}^{1} f(x_{2}) \cdots \sum_{x_{n}=0}^{1} f(x_{n}) + \sum_{x_{1}=0}^{1} f(x_{1}) \sum_{x_{2}=0}^{1} x_{2} f(x_{2}) \cdots \sum_{x_{n}=0}^{1} f(x_{n}) +\cdots\notag\\ &+ \sum_{x_{1}=0}^{1} f(x_{1}) \sum_{x_{2}=0}^{1} f(x_{2}) \cdots \sum_{x_{n}=0}^{1} x_{n} f(x_{n}) \notag\\ &=\mathrm{E}[X_{1}]+\mathrm{E}[X_{2}]+\cdots+\mathrm{E}[X_{n}] \notag\\ &=\sum_{i=1}^{n} \mathrm{E}[X_{i}] \notag\\ &=np \notag \end{align} となる。この$\mathrm{E}\left[\sum X_{i}\right]=\sum \mathrm{E}[X_{i}]$は期待値の線形性に由来する。一方で分散は二乗の計算が含まれるため線形的な変形はできない。 \begin{align} \mathrm{Var}[S_{n}] &=\mathrm{E}[(S_{n}-\mathrm{E}[S_{n}])^{2}] \notag\\ &=E\left[ \left( (X_{1}-\mathrm{E}[X_{1}])+(X_{2}-\mathrm{E}[X_{2}])+\cdots+(X_{n}-\mathrm{E}[X_{n}]) \right)^{2} \right] \notag\\ &= \mathrm{E}[(X_{1}-\mathrm{E}[X_{1}])^{2}]+\mathrm{E}[(X_{2}-\mathrm{E}[X_{2}])^{2}]+\cdots+\mathrm{E}[(X_{n}-\mathrm{E}[X_{n}])^{2}]\notag\\ &+2\mathrm{E}[(X_{1}-\mathrm{E}[X_{1}])(X_{2}-\mathrm{E}[X_{2}])]+\cdots+2\mathrm{E}[(X_{n-1}-\mathrm{E}[X_{n-1}])(X_{n}-\mathrm{E}[X_{n}])] \notag\\ &= \sum_{i=1}^{n} \mathrm{E}[(X_{i}-\mathrm{E}[X_{i}])^{2}]+2 \sum_{i < j} \mathrm{E}[(X_{i}-\mathrm{E}[X_{i}])(X_{j}-\mathrm{E}[X_{j}])] \notag\\ &= \sum_{i=1}^{n} \mathrm{Var}[X_{i}]+2 \sum_{i < j} \mathrm{Cov}[X_{i},X_{j}]. \notag \end{align} この第二項こそが非線形性である。しかし仮定した独立性から共分散 \[ \mathrm{Cov}[X_{i},X_{j}]=\mathrm{E}[(X_{i}-\mathrm{E}[X_{i}])(X_{j}-\mathrm{E}[X_{j}])] \] は零である。既に求めたベルヌーイ分布の分散$\mathrm{Var}[X]=p(1-p)$より \begin{align} \mathrm{Var}[S_{n}] &=\sum_{i=1}^{n} \mathrm{Var}[X_{i}]+0 \notag\\ &=np(1-p) \notag \end{align} である。