幾何分布露分け

ここまでは試行回数$n$を定数とした確率分布を見てきた。この試行の終了条件は指定された$n$回試行を行うことである。続いては終了条件を成功回数$s$とする確率分布を見る。まず一回成功すること、つまり$s=1$をもって終了する場合から考える。これは全$n$回の試行の内、$n-1$回目まで全て失敗し、$n$回目で始めて成功する試行である。二項分布とは異なり、順番は$n-1$回の失敗の後に一回の成功で順番は固定されているため、一回当たりの成功確率を$p$とすると確率質量関数は \begin{equation} f_{N}(n)=(1-p)^{n-1}p^{1} \label{eq:g1} \end{equation} である。更に失敗の確率$1-p$を$q$とすると \begin{equation} f_{N}(n)=q^{n-1}p^{1} \notag \end{equation} と書ける。

この期待値は確率質量関数と$n=1$から$n=\infty$までの場合での積の総和を取ればよい。ただし計算の都合により上限を$n=n'$と仮置きし、後ほど極限をとる。 \[ \mathrm{E}[N]=\sum_{n=1}^{n'} nf_{N}(n) =\sum_{n=1}^{n'} n q^{n-1}p \] この式で、$q$を掛けたもので引くと \[ \mathrm{E}[N]-q\mathrm{E}[N] = p\left( q^{0}+q^{1}+\cdots+q^{n'-1}\right) - n' pq^{n'} \] となる。$1-q=p$であるため、この両辺を$p$で割ると \[ \mathrm{E}[N] =\sum_{i=0}^{n'-1} q^{i}-n' q^{n'} =\frac{1-q^{n'}}{1-q}-n' q^{n'} \] となる。$q = 1$であれば如何なる試行においても必ず失敗する。これでは終了条件の$s$回の成功は永遠に訪れない。そのため$q \lt 1$とする。$q = 1-p \lt 1$であることから、$n'$を無限大にする極限では$q^{\infty}=0$より \[ \mathrm{E}[N]=\frac{1-0}{1-q} - 0=\frac{1}{p} \] となる。

分散を計算する。便宜上、先程の期待値は$\mu_{N}$とする。分散の定義より \[ \mathrm{Var}[N] =\sum_{n=1}^{n'} (n-\mu_{N})^{2} f_{N}(n) =\sum_{n=1}^{n'}n^{2} q^{n-1}p -2\mu_{N}\sum_{n=1}^{n'}n q^{n-1}p +\mu_{N}^{2} \sum_{n=1}^{n'} q^{n-1}p \] と分解できる。第一項を$A$とし、これと$1-p$を掛けてものとの差を取ると \[ A-qA=\sum_{n=1}^{n'} (n^{2}-(n-1)^{2}) q^{n-1}p-n'^{2} q^{n'} p \] となり、これを$p$で割ると \[ A=2\sum_{n=1}^{n'} n q^{n-1}-\sum_{n=1}^{n'} q^{n-1}-n'^{2} q^{n'} \] となる。$A$の第一項は先程の期待値の計算を利用し$2/p^{2}$となる。第二項は確率質量関数の総和$1=\sum_{n=1}^{n'} q^{n-1}p$の両辺を割ったものと等しいことから$-1/p$である。第三項は$n'$が無限大になるとき零になる。以上より \[ A=\frac{2}{p^{2}}-\frac{1}{p}-0 \] と分かる。分散の第二項は期待値の計算より$-2/p^{2}$となる。第三項は先程の総和の式$1=\sum_{n=1}^{n'} (1-p)^{n-1}p$より$1/p^{2}$である。以上より分散の式は \begin{align} \mathrm{Var}[N] &=\sum_{n=1}^{n'} (n-\mu_{N})^{2} f_{N}(n)\notag\\ &=\frac{2}{p^{2}}-\frac{1}{p} -2\frac{1}{p^{2}}+\frac{1}{p^{2}} \notag\\ &=\frac{1}{p^{2}}-\frac{1}{p}\notag\\ &=\frac{q}{p^{2}} \notag \end{align} となる。

ここまでの計算は終了条件$s=1$を満たすまでの試行回数$n$を求めるための確率質量関数が基になっている。ここから論じるのは一回目の成功までの失敗の回数$l$を求めるための確率質量関数である。この場合の確率質量関数は$l$回失敗して一回成功する場合であるため \[ f_{L}(l)=(1-p)^{l} p^{1} \] である。また$n=l+1$を一番上の確率質量関数$f_{N}(n)$に代入すると上式になる。そのため \[ f_{N}(n)=f_{L}(l) \] である。

試行回数$n$の場合との相違点として試行回数は最低でも一回はしなくではならないが、失敗回数の場合は最初の一回で成功する失敗回数$l$が無い場合があることである。そのためこの期待値は失敗回数の下限は零である。或いは$n=l+1$よりも下限が求まる。このことを踏まえて計算すると \[ \mathrm{E}[L]=\sum_{l=0}^{l'} l f_{L}(l) = \sum_{l=0}^{l'} l q^{l} p \] で$l'$の極限をとることで求まる。これは変数変換$l+1=n$とすれば、試行回数での計算を利用することができ \[ \sum_{n=1}^{l'+1} (n-1) q^{n-1} p =\sum_{n=1}^{l'+1} n q^{n-1} p - \sum_{n=1}^{l'+1} q^{n-1} p =\mu_{N}-1 \] となるため \[ \mathrm{E}[L] =\frac{1}{p}-1 =\frac{1-p}{p} =\frac{q}{p} \] であることが分かる。これは試行回数の期待値$\mathrm{E}[N]=1/p=\mu_{N}$と \begin{equation} \mathrm{E}[N]=\mathrm{E}[L]+1 \label{eq:g2} \end{equation} の関係にあることを示している。幾何分布の試行回数は一回の成功回数と失敗回数の和であるため$n=l+1$の期待値の直接計算することでも求まる。分散も変数変換を使うことで先程の計算を再利用できる。 \begin{align} \mathrm{Var}[L] &=\sum_{l=0}^{l'} (l-\mu_{L})^{2} f_{L}(l)\notag\\ &=\sum_{n=1}^{l'+1} \Big(n-1-(\mu_{N}-1)\Big)^{2} q^{n-1} p^{1}\notag\\ &=\sum_{n=1}^{l'+1} (n-\mu_{N})^{2} q^{n-1} p^{1}\notag\\ &=\mathrm{Var}[N]\notag\\ &=\frac{1-p}{p^{2}}. \notag \end{align}

試行回数の確率母関数は \begin{align} G_{N}(t) &=\mathrm{E}[t^{N}] \notag\\ &=\sum_{n=1}^{\infty} t^{n} q^{n-1}p \notag\\ &=\sum_{n=1}^{\infty} \left( qt \right)^{n-1} (pt)^{1} \notag\\ &=pt \sum_{n'=0}^{\infty} \left( qt \right)^{n'} \notag\\ &=\frac{pt}{1-qt}\notag \end{align} である。この一階微分は \begin{align} \frac{\mathrm{d}}{\mathrm{d}t}G_{N}(t) &=\mathrm{E}[N t^{N-1}] \notag\\ &=\frac{p(1-qt)-pt(-q)}{(1-qt)^{2}} \notag\\ &= \frac{p}{(1-qt)^{2}}\notag \end{align} となるため$t=1$で \begin{align} \left. \frac{\mathrm{d}}{\mathrm{d}t} G_{N}(t)\right|_{t=1} &=\mathrm{E}[N] \notag\\ &= \frac{p}{(1-q)^{2}}\notag\\ &=\frac{1}{p}\notag \end{align} となる。二階微分は \begin{align} \frac{\mathrm{d}^{2} }{\mathrm{d}t^{2}} G_{N}(t) &=\mathrm{E}[N(N-1)t^{N-2}] \notag\\ &= \frac{2pq}{(1-qt)^{3}}\notag \end{align} となり、$t=1$で \begin{align} \left.\frac{\mathrm{d}^{2} }{\mathrm{d}t^{2}} G_{N}(t) \right|_{t=1} &=\mathrm{E}[N(N-1)] \notag\\ &= \frac{2pq}{(1-q)^{3}}\notag\\ &=\frac{2(1-p)}{p^{2}} \notag \end{align} となる。そのため分散は \begin{align} \mathrm{Var}[N] &=\mathrm{E}[(N-\mu_{N})^{2}] \notag\\ &=\mathrm{E}[N(N-1)]+\mathrm{E}[N]-(\mathrm{E}[N])^{2} \notag\\ &= \left.\frac{\mathrm{d}^{2} }{\mathrm{d}t^{2}} G_{N}(t) \right|_{t=1} + \left. \frac{\mathrm{d} }{\mathrm{d}t} G_{N}(t) \right|_{t=1} - \left( \left.\frac{\mathrm{d} }{\mathrm{d}t} G_{N}(t) \right|_{t=1}\right)^{2} \notag\\ &=\frac{2(1-p)}{p^{2}}+\frac{1}{p}-\frac{1}{p^{2}} \notag\\ &=\frac{1-p}{p^{2}} \notag \end{align} となる。

次は失敗の場合の確率母関数を求める。これは \begin{align} G_{L}(t) &=\mathrm{E}[t^{L}] \notag\\ &=\sum_{l=0}^{\infty} t^{l} (1-p)^{l}p \notag\\ &=p \sum_{l=0}^{\infty} \left( qt \right)^{l} \notag\\ &=p \frac{1}{1-qt} \notag \end{align} であり、一階微分は \begin{align} \frac{\mathrm{d} }{\mathrm{d}t}G_{L}(t) &=\mathrm{E}[Lt^{L-1}] \notag\\ &= p(-q)(-1) \frac{1}{(1-qt)^{2}} \notag\\ &= \frac{pq}{(1-qt)^{2}}\notag \end{align} であるため期待値は \begin{align} \left. \frac{\mathrm{d} }{\mathrm{d}t} G_{L}(t) \right|_{t=1} &=\mathrm{E}[L] \notag\\ &= \frac{pq}{(1-q)^{2}}\notag\\ &=\frac{1}{p}-1\notag \end{align} 二階微分は \begin{align} \frac{\mathrm{d}^{2}}{\mathrm{d}t^{2}} G_{L}(t) &=\mathrm{E}[L(L-1)t^{L-2}] \notag\\ &= \frac{2pq^{2}}{(1-qt)^{3}}\notag \end{align} となり、$t=1$で \begin{align} \left. \frac{\mathrm{d}^{2}}{\mathrm{d}t^{2}} G_{L}(t) \right|_{t=1} &=\mathrm{E}[L(L-1)] \notag\\ &= \frac{2pq^{2}}{(1-q)^{3}}\notag\\ &=\frac{2q^{2}}{p^{2}} \notag \end{align} となる。分散は \begin{align} \mathrm{Var}[L] &= \mathrm{E}[(L-\mu_{L})^{2}] \notag\\ &=\mathrm{E}[L(L-1)]+\mathrm{E}[L]-(\mathrm{E}[L])^{2} \notag\\ &= \left. \frac{\mathrm{d}^{2}}{\mathrm{d}t^{2}} G_{L}(t) \right|_{t=1} +\left. \frac{\mathrm{d}}{\mathrm{d}t} G_{L}(t) \right|_{t=1} - \left( \left. \frac{\mathrm{d} }{\mathrm{d}t} G_{L}(t)\right|_{t=1} \right)^{2} \notag\\ &=\frac{2q^{2}}{p^{2}}+\frac{q}{p}-\frac{q^{2}}{p^{2}} \notag\\ &=\frac{q^{2}+pq}{p^{2}} \notag\\ &=\frac{1-p}{p^{2}} \notag \end{align} となる。この計算方法でも分散は一致することが確かめられた。