ここまで多項分布、負の多項分布そのもの及びその特別な場合を見た。共通する特徴は成功する確率が試行回数に依らないことである。これは籤引きで引いた後の籤を元の容器に戻すことに当たる。次に見る超幾何分布は籤を戻さないような、試行ごとに成功確率が異なる確率分布である。このような引く前と後で状況が戻らないような引きを非復元抽出という。一個を引き、戻すを$n$回を繰り返すのが二項分布であり、一個を引き、戻さないを$n$回を繰り返すのが超幾何分布である。これは$n$個を一回引くのと変わらない。
容器の中には全部で$N$個の籤があり、そのうちの$S$個が当たりとする。$N$個の中から$n$個取り出すとき当たりが$s$個であり、外れが$l$個となる組み合わせは、どの当たりを引くかの組み合わせ$\binom{S}{s}$と、どの外れを引くかの組み合わせ$\binom{L}{l}$との積である。これを全ての組み合わせ$\binom{N}{n}$で割ると確率質量関数が得られる。 \[ f(s)= \frac{ \binom{S}{s} \binom{L}{l} }{ \binom{N}{n} }. \] この確率質量関数は覚えやすいが、この分布では成功回数$s$が確率変数であるため$L=N-S,\ l=n-s$で成功回数$s$を陽にしなければならない。この場合は \[ f(s)= \frac{ \binom{S}{s} \binom{N-S}{n-s} }{ \binom{N}{n} } \] となる。上の式を覚えておき、下の式に書き換えるといいかもしれない。これを$\mathrm{HG}(s|S,N,n)$とも書くことにする。この期待値を求める前に、この総和が一であることを確かめる。そのために二項定理による展開式の係数を計算する。先ず \begin{align} (1+x)^{N} &=\sum_{k=0}^{N} \binom{N}{k} 1^{N-k} x^{k}\notag\\ &=\binom{N}{0} x^{0}+\binom{N}{1}x^{1}+\cdots+\binom{N}{n}x^{n}+\cdots+\binom{N}{N} x^{N}\notag \end{align} より$(1+x)^{N}$の展開式の$x^{n}$での係数は$\binom{N}{n} x^{n}$と分かる。次に $(1+x)^{N}$を$(1+x)^{S}\cdot(1+x)^{N-S}$と分解したうえで展開すると \begin{align} &(1+x)^{S}\cdot(1+x)^{N-S}= \sum_{i=0}^{S} \binom{S}{i} x^{i} \cdot \sum_{j=0}^{N-S} \binom{N-S}{j} x^{j} \notag\\ &= \left\{\binom{S}{0} x^{0}+\binom{S}{1}x^{1}+\cdots+\binom{S}{n}x^{n}+\cdots+\binom{S}{S} x^{S} \right\}\notag\\ &\times \left\{\binom{N-S}{0} x^{0}+\binom{N-S}{1}x^{1}+\cdots+\binom{N-S}{n}x^{n}+\cdots+\binom{N-S}{N-S} x^{N-S} \right\}\notag\\ &= \left\{\binom{S}{0}\cdot\binom{N-S}{0}\right\}x^{0}+ \left\{\binom{S}{0}\cdot\binom{N-S}{1} +\binom{S}{1}\cdot\binom{N-S}{0} \right\}x^{1}+ \cdots \notag\\ &+ \left\{ \binom{S}{0}\cdot \binom{N-S}{n}+ \binom{S}{1}\cdot \binom{N-S}{n-1}+\cdots+ \binom{S}{n-1}\cdot \binom{N-S}{1}+ \binom{S}{n}\cdot \binom{N-S}{0}\right\}x^{n}+ \cdots \notag\\ &= \sum_{s=0}^{0} \binom{S}{s} \cdot \binom{N-S}{0-s} x^{0}+ \sum_{s=0}^{1} \binom{S}{s} \cdot \binom{N-S}{1-s}x^{1}+\cdots+ \sum_{s=0}^{n} \binom{S}{s}\cdot \binom{N-S}{n-s} x^{n} +\cdots\notag \end{align} となり、この$x^{n}$の係数を比べると \[ \binom{N}{n}= \sum_{s=0}^{n} \binom{S}{s}\cdot \binom{N-S}{n-s} \] を得る。これはヴァンデルモンドの式と呼ばれる。この式を用いると \begin{align} \sum_{s=0}^{n} \mathrm{HG}(s|S,N,n) &=\sum_{s=0}^{n}\frac{ \binom{S}{s} \cdot \binom{N-S}{n-s} }{ \binom{N}{n} }\notag\\ &=\frac{\sum_{s=0}^{n} \binom{S}{s} \cdot \binom{N-S}{n-s} }{ \binom{N}{n} }\notag\\ &=\frac{\binom{N}{n} }{ \binom{N}{n} }\notag\\ &=1\notag \end{align} と、総和が一となることが確かめられた。このことから、当たりの総数は一個も引けない場合$s=0$が下限であり、全てが当たりである場合$s=n$が上限であると考えられる。この下限は$0\le s \le S$からも求まる。上限は別の方法で求めることができる。外れ$l$は当然$0 \le l \le L$を満たす。これを$s$を陽に書き換えた$0\le n-s\le N-S$がある。この不等号を書き換えると$ n-N+S \le s \le n$となる。他に引く当たりの数$s$は$0\le s \le S$という条件が成り立つ。つまり下限の満たすべき条件は$0$と$ n-N+S $とがある。同時に二つとも満たさなければならないため、$s$は二つ下限のうちの大きいほう$\mathrm{max}(0,n-(N-S)) $以上の値でなければならない。これは数式にすると $\mathrm{max} (0,n-(N-S)) \le s $となる。上限は$n$と$S$とがあり、この二つのうちの小さいほう $\mathrm{min}(n,S)$に対し、これ以下でなければならないため $s \le \mathrm{min}(n,S)$ を条件とする。 これまでの不等式を一つにし、 \[ \mathrm{max} (0,n-(N-S)) \le s \le \mathrm{min}(n,S) \] を満たすべき条件とする。複雑なようだが \begin{align} \begin{cases} & 0 \le s \le S \notag\\ & 0 \le l \le L \notag\\ & n=s+l\notag\\ & N=S+L\notag \end{cases} \end{align} から導ける。別の方法として漸化式から導く。確率質量関数に$s-1$を代入すると \[ f(s-1) =\frac{ \binom{S}{s-1} \binom{N-S}{n-s+1} }{ \binom{N}{n} } =\frac{ \frac{s}{S-s+1} \binom{S}{s} \frac{N-S-n+s}{n-s+1} \binom{N-S}{n-s} }{ \binom{N}{n} } \] と書けるため漸化式は \[ f(s)= \frac{(S-s+1)(n-s+1)}{s(N-S-n+s)} f(s-1) \] と書ける。同様に計算し \[ f(s-1) = \frac{(S-s+2)(n-s+2)}{(s-1)(N-S-n+s-1)} f(s-2) \] を得る。よって \begin{align} f(s) &= \frac{(S-s+1)(S-s+2)\times (n-s+1)(n-s+2) } {s(s-1) \times (N-S-n+s)(N-S-n+s-1)} f(s-2) \notag \end{align} である。このことから \begin{align} f(s) &= \frac{(S-s+1)(S-s+2)\cdots (S-s+t)\times (n-s+1)(n-s+2) \cdots(n-s+t)} {s(s-1)\cdots(s+t-1) \times (N-S-n+s)(N-S-n+s-1)\cdots(N-S-n+s-t+1)} f(s-t) \notag\\ &= \frac{(S-s+t)\cdots(S-s+2)(S-s+1) \times (n-s+t) \cdots (n-s+2) (n-s+1) } {s(s-1)\cdots(s+t-1) \times (N-S-n+s)(N-S-n+s-1)\cdots(N-S-n+s-t+1)} f(s-t) \notag\\ &= \frac {(S-s+t)^{\underline{t}}(n-s+t)^{\underline{t}} } {s^{\underline{t}} (N-S-n+s)^{\underline{t}} } f(s-t) \notag\\ &= g(t) f(s-t) \notag \end{align} であるとする。この式から当たりの数が$s-t$個であれば $g(t)$倍すれば当たりを$t$個増やせると分かる。$s=0$のとき確率質量関数は \[ f(0) = \mathrm{HG}(0|S,N,n) = \frac{ \binom{N-S}{n} }{ \binom{N}{n} } \] となり、 \[ g(t) = \frac {(S-s+t)^{\underline{t}}(n-s+t)^{\underline{t}} } {s^{\underline{t}} (N-S-n+s)^{\underline{t}} } = \frac{ \binom{S-s+t}{t} \binom{n-s+t}{t} }{ \binom{s}{t} \binom{N-S-n+s}{t} } \] で$t=s$とすると \[ g(s) = \frac{ \binom{S}{s} \binom{n}{s} }{ \binom{N-S-n+s}{s} } \] となることから漸化式が$t=s$のとき \[ \mathrm{HG}(s|S,N,n) = g(s) \mathrm{HG}(0|S,N,n) = \frac{ \binom{S}{s} \binom{n}{s} }{1 \binom{N-S-n+s}{s} } \frac{ \binom{N-S}{n} }{ \binom{N}{n} } \] となる。二項係数の性質$\binom{a}{b}=0,\ (a \lt b)$よりこの確率質量関数が明らかに非零となるのは \[ \max\{0,\ n-(N-S)\} \le s \le \min\{S,\ n\} \] である。$\mathrm{HG}(s|S,N,n) = g(s) \mathrm{HG}(0|S,N,n)$の解釈を考える。まず全て外れの場合の$\mathrm{HG}(0|S,N,n)$については分子で全ての外れ籤$N-S=L$の中から引く籤$n$を選ぶ組み合わせを全ての籤$N$の中から引く籤$n$を選ぶ組み合わせで正規化したものと考えられる。$g(t)$の解釈については後日加筆する。
期待値を求める。期待値の定義より \[ \mathrm{E}[\mathcal{S}] =\sum_{s=0}^{n} s\ \mathrm{HG}(s|S,N,n) \] とする。ややこしいが$\mathrm{E}[\mathcal{S}]$の$\mathcal{S}$は当たり籤の総数$S$ではなく引いた当たり籤$s$である。通常は期待値の対象を大文字で表すが、混同を避けるため対象の確率変数を筆記体の大文字で記す。また分散なども筆記体の大文字で表す。これは \begin{align} \mathrm{E}[\mathcal{S}] &=0+\sum_{s=1}^{n} \frac{ s\binom{S}{s} \cdot \binom{N-S}{n-s} }{ \binom{N}{n} }\notag\\ &=\sum_{s=1}^{n} \frac{ s\frac{S!}{s!(S-s)!} \cdot \frac{(N-S)!}{(n-s)!(N-S-(n-s))!} }{ \frac{N!}{n!(N-n)!}}\notag\\ &=\sum_{s=1}^{n} \frac{ S \frac{(S-1)!}{(s-1)!((S-1)-(s-1))!} \cdot \frac{((N-1)-(S-1))!}{((n-1)-(s-1))!((N-1)-(S-1)-((n-1)-(s-1)))!} }{ \frac{N}{n}\frac{(N-1)!}{(n-1)!((N-1)-(n-1))!} }\notag\\ &=\frac{S}{\frac{N}{n}} \sum_{s=1}^{n} \frac{ \binom{S-1}{s-1} \cdot \binom{(N-1)-(S-1)}{(n-1)-(s-1)} }{ \binom{N-1}{n-1} }\notag \end{align} と書き換えられ、$N-1,n-1,S-1,s-1$を$N',n',S',s'$とすると \[ \mathrm{E}[\mathcal{S}] =n\frac{S}{N} \sum_{s'=0}^{n'} \frac{ \binom{S'}{s'} \cdot \binom{N'-S'}{n'-s'} }{ \binom{N'}{n'} } \] となり、この総和の部分は一であるため \[ \mathrm{E}[\mathcal{S}]=n\frac{S}{N} \] である。
分散を求めるために分解する。 \begin{align} \mathrm{Var}[\mathcal{S}] &=\sum_{s=0}^{n} \left(s-\mathrm{E}[\mathcal{S}] \right)^{2} \ \mathrm{HG}(s|S,N,n)\notag\\ &=\mathrm{E}[\mathcal{S}^{2}]-\left(\mathrm{E}[\mathcal{S}]\right)^{2} \notag\\ &=\mathrm{E}[\mathcal{S}(\mathcal{S}-1)]+ \mathrm{E}[\mathcal{S}] -\left(\mathrm{E}[\mathcal{S}]\right)^{2} .\notag \end{align} 第一項の階乗積率は$s''=s-2,n''=n-2$とすると \begin{align} \mathrm{E}[\mathcal{S}(\mathcal{S}-1)] &=\sum_{s=0}^{n} s(s-1)\frac{\binom{S}{s} \binom{N-S}{n-s}}{\binom{N}{n}} \notag\\ &=0+0+\sum_{s=2}^{n} S(S-1)\frac{\binom{S-2}{s-2} \binom{N-S}{n-s}}{\binom{N}{n}} \notag\\ &=S(S-1) \frac{ \sum_{s''=0}^{n''} \binom{S-2}{s''} \binom{N-S}{n''-s''} }{\binom{N}{n}} \notag\\ &= S(S-1) \frac {\binom{(S-2)+(N-S)}{s''+(n''-s'')}}{\binom{N}{n}} \notag\\ &= S(S-1) \frac{ \frac{(N-2)!}{(n-2)!(N-n)!} }{ \frac{N!}{n!(N-n)!} } \notag\\ &= S(S-1) \frac{n(n-1)}{N(N-1)} \notag \end{align} となる。よって \begin{align} \mathrm{Var}[\mathcal{S}] &=\mathrm{E}[\mathcal{S}(\mathcal{S}-1)]+ \mathrm{E}[\mathcal{S}] -\left(\mathrm{E}[\mathcal{S}]\right)^{2} \notag\\ &= S(S-1) \frac{n(n-1)}{N(N-1)}+ n\frac{S}{N} -\left( n\frac{S}{N} \right)^{2} \notag\\ &=n\frac{S}{N} \left\{ \frac{(n-1)(S-1)}{N-1}+1-n\frac{S}{N} \right\}\notag\\ &=n\frac{S}{N} \left\{ \frac{N(nS-n-S+1)+N(N-1)-(N-1)nS}{N(N-1)} \right\}\notag\\ &=n\frac{S}{N} \left\{ \frac{(N-S)(N-n)}{N(N-1)} \right\} \notag\\ &= \frac{N-n}{N-1} n\frac{S}{N} \frac{L}{N} \notag \end{align} となる。
以上は当たり$S$個、外れ$L$個の計$S+L=N$個の中から$n$個を一度に引くときの当たりの個数$s$の確率分布を考えた。これは別の求め方として戻すことなく一個引くことを$n$回繰り返しても同じである。以下ではこの方法を用いても同じ結果となることを示す。確率変数$X_{i}$を導入する。この$i$は引く回数$n$に対応し$1,2\cdots,n$を取り$X_{i}$が当たりを引いたとき$X_{i}=1$となり外れである場合を$X_{i}=0$となる。このような関数を定義関数という。定義関数の和$Y=X_{1}+X_{2}+\cdots+X_{n}$は$0 \le Y \le n$の範囲の整数である。後ほど$Y$の期待値と分散とが$n$個を一度に引いた場合の確率分布のに一致することを見る。その準備として$X_{i}$の性質を調べる。$X_{1}$の確率質量関数は$i=1$のとき \begin{align} &P(X_{1}=0)=\frac{L}{N}=\frac{N-S}{N}\notag\\ &P(X_{1}=1)=\frac{S}{N}\notag \end{align} である。この総和は \[ \sum_{x=0}^{1} P(X_{1}=x)= P(X_{1}=0)+ P(X_{1}=1) =\frac{L}{N}+\frac{S}{N}=\frac{N}{N}=1 \] である。 続いてこの期待値と分散とを求める。まず期待値は \[ \mathrm{E}[X_{1}]=\sum_{x=0}^{1} x P(X_{1}=x)= 0\cdot P(X_{1}=0)+ 1\cdot P(X_{1}=1)= \frac{S}{N} \] である。分散は、確率変数の二乗の期待値が \[ \mathrm{E}[X_{1}^2]= \sum_{x=0}^{1} x^2 P(X_{1}=x)= 0^2\cdot P(X_{1}=0)+ 1^2\cdot P(X_{1}=1)= \frac{S}{N} \] であることから \[ \mathrm{Var}[X_{1}]=\mathrm{E}[X_{1}^2]-\left(\mathrm{E}[X_{1}]\right)^2= \frac{S}{N}-\left(\frac{S}{N}\right)^2 =\frac{S}{N}\left(1-\frac{S}{N}\right) =\frac{S}{N}\frac{L}{N} \] である。これはベルヌーイ分布と同等である。
次に二回引くときを考える。非復元抽出であることから或る試行はその前の試行の影響を受ける。 二回目の試行で分子は$N-1$となり、$X_{1}=0$の場合は外れの総数は$N-S-1$となり、当たりは$S$のままである。そのため \begin{align} &P(X_{2}=0\cap X_{1}=0)=\frac{N-S-1}{N-1}\frac{N-S}{N}\notag\\ &P(X_{2}=1\cap X_{1}=0)=\frac{S}{N-1}\frac{N-S}{N}\notag \end{align} である。一方で$X_{1}=1$の場合は当たりの総数は$S-1$となり、外れは$N-S$のままである。そのため \begin{align} &P(X_{2}=0\cap X_{1}=1)=\frac{N-S}{N-1}\frac{S}{N}\notag\\ &P(X_{2}=1\cap X_{1}=1)=\frac{S-1}{N-1}\frac{S}{N}\notag \end{align} である。また$P(X_{2}=1\cap X_{1}=0)=P(X_{2}=0\cap X_{1}=1)$が分かる。加えて \begin{align} P(X_{2}=1\cap X_{1}=1)+P(X_{2}=1\cap X_{1}=0) &=\frac{S-1}{N-1}\frac{S}{N}+\frac{S}{N-1}\frac{N-S}{N}\notag\\ &=\frac{S^2-S+SN-S^{2}}{(N-1)N}\notag\\ &=\frac{S(N-1)}{(N-1)N}\notag\\ &=\frac{S}{N}\notag \end{align} であり \[ P(X_{2}=0\cap X_{1}=1)+P(X_{2}=0\cap X_{1}=0)=\frac{L}{N}=\frac{N-S}{N} \] である。 \[ P(X_{2}=x_{2})=\sum_{x_{1}=0}^{1}P(X_{2}=x_{2}\cap X_{1}=x_{1})=P(X_{2}=x_{2}\cap X_{1}=1)+P(X_{2}=x_{2}\cap X_{1}=0) \] とすると \begin{align} &P(X_{2}=0)=P(X_{1}=0)=\frac{L}{N}=\frac{N-S}{N}\notag\\ &P(X_{2}=1)=P(X_{1}=1)=\frac{S}{N}\notag \end{align} と分かる。このことから$X_{2}$の期待値と分散とは$X_{1}$と等しい。この総和は \begin{align} &\sum_{x_{1},x_{2}}P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &=P(X_{1}=0\cap X_{2}=0)+P(X_{1}=1\cap X_{2}=0)+P(X_{1}=0\cap X_{2}=1)+P(X_{1}=1\cap X_{2}=1)\notag\\ &=\frac{N-S-1}{N-1}\frac{N-S}{N}+\frac{S}{N-1}\frac{N-S}{N}+\frac{N-S}{N-1}\frac{S}{N}+\frac{S-1}{N-1}\frac{S}{N}\notag\\ &=\frac{S}{N}+\frac{N-S}{N}\notag\\ &=1\notag \end{align} である。ここまでの結果を用いて$n=2$の場合の$Y$の期待値と分散とを求める。これは期待値の線形性から \begin{align} \mathrm{E}[Y] &=\mathrm{E}[X_{1}+X_{2}]\notag\\ &=\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1}(x_{1}+x_{2})P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &= \sum_{x_{1}=0}^{1}x_{1}\sum_{x_{2}=0}^{1}P(X_{1}=x_{1}\cap X_{2}=x_{2})+ \sum_{x_{2}=0}^{1}x_{2}\sum_{x_{1}=0}^{1}P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &= \sum_{x_{1}=0}^{1}x_{1}P(X_{1}=x_{1})+ \sum_{x_{2}=0}^{1}x_{2}P(X_{2}=x_{2})\notag\\ &=\mathrm{E}[X_{1}]+\mathrm{E}[X_{2}]\notag\\ &=2\frac{S}{N}\notag \end{align} である。一方で分散の線形性は独立な場合のみ成り立つ。計算してみると \begin{align} \mathrm{Var}[Y] &=\mathrm{Var}[X_{1}+X_{2}]\notag\\ &=\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1} \left(x_{1}+x_{2}-E\left[X_{1}+X_{2}\right] \right)^2 P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &=\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1} \left( (x_{1}-\mathrm{E}[X_{1}])^2+2(x_{1}-\mathrm{E}[X_{1}])(x_{2}-\mathrm{E}[X_{2}])+(x_{2}-\mathrm{E}[X_{2}])^2 \right) P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &= \sum_{x_{1}=0}^{1}(x_{1}-\mathrm{E}[X_{1}])^2 P(X_{1}=x_{1})+ \sum_{x_{2}=0}^{1}(x_{2}-\mathrm{E}[X_{2}])^2 P(X_{2}=x_{2})+\notag\\&\ \ \ \ 2 \sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1}(x_{1}-\mathrm{E}[X_{1}])(x_{2}-\mathrm{E}[X_{2}])P(X_{1}=x_{1}\cap X_{2}=x_{2}) \notag\\ &=\mathrm{Var}[X_{1}]+\mathrm{Var}[X_{2}]+2\mathrm{Cov}[X_{1},X_{2}]\notag \end{align} 共分散$\mathrm{Cov}[X_{1},X_{2}]$が現れる。分解すると \begin{align} \mathrm{Cov}[X_{1},X_{2}] &=\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1}(x_{1}-\mathrm{E}[X_{1}])(x_{2}-\mathrm{E}[X_{2}])P(X_{1}=x_{1}\cap X_{2}=x_{2}) \notag\\ & =\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1}x_{1}x_{2} P(X_{1}=x_{1}\cap X_{2}=x_{2}) -\sum_{x_{1}=0}^{1}x_{1}\mathrm{E}[X_{1}]\sum_{x_{2}=0}^{1} P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &-\sum_{x_{2}=0}^{1}x_{2}\mathrm{E}[X_{2}]\sum_{x_{1}=0}^{1} P(X_{1}=x_{1}\cap X_{2}=x_{2}) +\mathrm{E}[X_{1}]\mathrm{E}[X_{2}] \sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1} P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &=\mathrm{E}[X_{1}X_{2}]-\mathrm{E}[X_{1}]\mathrm{E}[X_{2}]\notag \end{align} となり、第一項は \begin{align} \mathrm{E}[X_{1}X_{2}] &=\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1}x_{1}x_{2} P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &=1\cdot1 P(X_{1}=1\cap X_{2}=1)+1\cdot0 P(X_{1}=1\cap X_{2}=0) +0\cdot1 P(X_{1}=0\cap X_{2}=1)+0\cdot0 P(X_{1}=0\cap X_{2}=0)\notag\\ &=\frac{(S-1)S}{(N-1)N}\notag \end{align} である。この結果から \begin{align} \mathrm{Var}[Y] &=\mathrm{Var}[X_{1}]+\mathrm{Var}[X_{2}]+2\mathrm{Cov}[X_{1},X_{2}]\notag\\ &=2 \frac{S}{N}\frac{L}{N}+2\left( \frac{(S-1)S}{(N-1)N}-\left(\frac{S}{N} \right)^2 \right)\notag\\ &=2 \frac{SL(N-1)}{N^2(N-1)}+2\frac{(S-1)SN}{(N-1)N^2}-2\frac{S^2(N-1)}{N^2(N-1)}\notag\\ &=2\frac{SL(N-1)+S^2 N-SN-S^2N+S^2}{N^2(N-1)}\notag\\ &=2\frac{S}{N}\frac{L}{N}\frac{N-2}{N-1}\notag \end{align} が求まった。これは既に求めた \[ \mathrm{Var}[S]=n\frac{S}{N} \frac{L}{N} \frac{N-n}{N-1} \] で$n=2$としたものと同じである。 ここまでの結果から任意の$X_{i}=x_{i}$で \begin{align} P(X_{i}=x_{i})= \left\{ \begin{matrix} \frac{L}{N}\ \ \ (x_{i}=0)\\ \frac{S}{N}\ \ \ (x_{i}=1) \end{matrix} \right.\notag \end{align} 成立すると考える。これは当たりの間に差はなく、一回も引いていない状態から考えると、$X_{i}$回で当たりを引くのは当たりの総数$S$を籤の総数$N$で割ったものであり、外れについては、外れの総数$L$を割ったものであるため、このような確率となる。$X_{i}-1$回目の状態から考える確率は条件付き確率である。この求め方は下記に記した。
全確率の法則より$P(X_{k}=1)$は \begin{align} P(X_{k}=1) &=\sum_{t} P(X_{k}=1 | T_{k-1}=t) P(T_{k-1} = t) \notag \end{align} である。最初の$k-1$回で$t$回当たる確率$P(T_{k-1} = t)$は当たりが$S$個の内の$t$個、総数は$N$個で引いたのが$k-1$個、外れの総数が$N-S$で引いたはずれが$k-1-t$個であることから$P(T_{k-1} = t)$は \[ P(T_{k-1} = t) =\frac{ \binom{S}{t} \binom{N-S}{k-1-t} }{ \binom{N}{k-1} } \] であり、条件付き確率$P(X_{k}=1 | T_{k-1}=t)$は \[ P(X_{k}=1 | T_{k-1}=t)=\frac{S-t}{N-(k-1)} \] である。また総和の下限を考える。先ず一個も当たらない可能性から$0 \le t$である。他に$N-S$個の全て外れの内引くのは$k-1-t$個の外れであり、これは \[ k-1-t \le N-S \] である。この両辺に$t$を足すと \[ t+k-1-t \le t + N - S \] であり、これを整理すると \[ k-1 - (N-S) \le t \] となる。そのため総和の下限は$\max\left\{0,k-1 - (N-S)\right\}$である。上限は当たりの総数$S$を引いた当たりの数$t$を超えることは無いため$t \le S$である。また引いた結果の上限$t$は引いた籤の総数$k-1$を超えないため$t \le k-1$である。つまり上限は$t \le \min\left\{S, k-1 \right\}$である。以上より \begin{align} P(X_{k}=1) &=\sum_{t} P(X_{k}=1 | T_{k-1}=t) P(T_{k-1} = t) \notag\\ &=\sum_{t=\max\left\{0,k-1 - (N-S)\right\}}^{\min\left\{S, k-1 \right\}} \frac{ \binom{S}{t} \binom{N-S}{k-1-t} }{ \binom{N}{k-1} } \frac{S-t}{N-(k-1)} \notag\\ &= \frac{ \sum_{t=\max\left\{0,k-1 - (N-S)\right\}}^{\min\left\{S, k-1 \right\}} \binom{S}{t} \binom{N-S}{k-1-t}\left(S-t\right) }{\binom{N}{k-1} \left(N-(k-1)\right)} \notag \end{align} となる。この分子については \[ t \binom{S}{t} =t\frac{S!}{t!(S-t)!} =S\binom{S-1}{t-1} \] より \begin{align} \text{分子} &= \sum_{t=\max\left\{0,k-1 - (N-S)\right\}}^{\min\left\{S, k-1 \right\}} \binom{S}{t} \binom{N-S}{k-1-t}\left(S-t\right)\notag\\ &= \sum_{t=\max\left\{0,k-1 - (N-S)\right\}}^{\min\left\{S, k-1 \right\}} S \left\{ \binom{S}{t} - \binom{S-1}{t-1} \right\} \binom{N-S}{k-1-t} \notag\\ &= S \sum_{t=\max\left\{0,k-1 - (N-S)\right\}}^{\min\left\{S, k-1 \right\}} \binom{S-1}{t} \binom{N-S}{k-1-t} \notag \end{align} となる。一番下の等号はパスカルの法則による。この式では一般化二項係数を用いているため下限が$k-1-N+S$の値が負のとき一番目の二項係数は零になるため、$t$の下限は零である。上限が$S$のときを考える。$(1+x)^{N-1}$の展開式は$N-1=S-1+(N-S)$と分解することで \begin{align} (1+x)^{N-1} &=(1+x)^{S-1} (1+x)^{N-S} \notag\\ &= \binom{S-1}{0} \binom{N-S}{0} x^{0} + \left\{\binom{S-1}{0} \binom{N-S}{1}+\binom{S-1}{1}\binom{N-S}{0}\right\}x^{1}+ \cdots \notag\\ &+ \left\{\binom{S-1}{0} \binom{N-S}{k-1}+\binom{S-1}{1}\binom{N-S}{k-2}+\cdots +\binom{S-1}{k-1}\binom{N-S}{0}\right\}x^{k-1}+ \cdots\notag \end{align} $x^{k-1}$の係数は \[ \sum_{t=0}^{k-1} \binom{S-1}{t} \binom{N-S}{k-1-t} \] である。一方で二項係数より$x^{k-1}$の係数の別の式として \[ \binom{N-1}{k-1} \] を得る。このため \[ \sum_{t=0}^{k-1} \binom{S-1}{t} \binom{N-S}{k-1-t}=\binom{N-1}{k-1} \] である。これもヴァンデルモンドの式である。一方で上限が$k-1$のときについては、上限が$S$のときの計算過程から上限に依存しないことが分かる。そのため上限が何方であれ \[ \text{分子}=S\binom{N-1}{k-1} \] である。そのため元の全確率の式は \begin{align} P(X_{k}=1) &=\sum_{t} P(X_{k}=1 | T_{k-1}=t) P(T_{k-1} = t) \notag\\ &= \frac{ \sum_{t=\max\left\{0,k-1 - (N-S)\right\}}^{\min\left\{S, k-1 \right\}} \binom{S}{t} \binom{N-S}{k-1-t}\left(S-t\right) }{\binom{N}{k-1} \left(N-(k-1)\right)} \notag\\ &= \frac{S \binom{N-1}{k-1} }{\binom{N}{k-1} \left(N-(k-1)\right)} \notag\\ &= \frac{S}{N} \notag \end{align} となる。
一般の$Y$の期待値は \begin{align} \mathrm{E}[Y] &=\mathrm{E}[X_{1}+X_{2}+\cdots+X_{n}]\notag\\ &=\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1}\cdots \sum_{x_{n}=0}^{1} (x_{1}+x_{2}+\cdots+x_{n}) P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\ &= \sum_{x_{1}=0}^{1}x_{1}\sum_{x_{2}=0}^{1}\cdots \sum_{x_{n}=0}^{1} P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\&+ \sum_{x_{2}=0}^{1}x_{2}\sum_{x_{1}=0}^{1}\cdots \sum_{x_{n}=0}^{1} P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\&+\cdots\notag\\&+ \sum_{x_{n}=0}^{1}x_{n}\sum_{x_{1}=0}^{1}\cdots \sum_{x_{n}=0}^{1} P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\ &= \sum_{x_{1}=0}^{1}x_{1}P(X_{1}=x_{1})+ \sum_{x_{2}=0}^{1}x_{2}P(X_{2}=x_{2})+\cdots+ \sum_{x_{n}=0}^{1}x_{n}P(X_{n}=x_{n})\notag\\ &=\mathrm{E}[X_{1}]+\mathrm{E}[X_{2}]+\cdots+\mathrm{E}[X_{n}]\notag\\ &=n\frac{S}{N}\notag \end{align} である。分散は \begin{align} \mathrm{Var}[Y] &=\mathrm{Var}[X_{1}+X_{2}+\cdots+X_{n}]\notag\\ &=\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1}\cdots \sum_{x_{n}=0}^{1} (x_{1}+x_{2}+\cdots+x_{n}-\mathrm{E}[X_{1}+X_{2}+\cdots+X_{n}])^2 P(X_{1}=x_{1}\cap \cdots \cap X_{n}=x_{n})\notag\\ &=\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1}\cdots \sum_{x_{n}=0}^{1} (x_{1}-\mathrm{E}[X_{1}])+(x_{2}-\mathrm{E}[X_{2}])+\cdots+(x_{n}-\mathrm{E}[X_{n}]))^2 P(X_{1}=x_{1}\cap \cdots \cap X_{n}=x_{n})\notag\\ &= \sum_{x_{1}=0}^{1} (x_{1}-\mathrm{E}[X_{1}])^2 \sum_{x_{2}=0}^{1}\cdots \sum_{x_{n}=0}^{1} P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\ &+\sum_{x_{2}=0}^{1} (x_{2}-\mathrm{E}[X_{2}])^2\sum_{x_{1}=0}^{1}\cdots \sum_{x_{n}=0}^{1}P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\ &+\cdots\notag\\ &+\sum_{x_{n}=0}^{1} (x_{n}-\mathrm{E}[X_{n}])^2 \sum_{x_{1}=0}^{1}\cdots \sum_{x_{n}=0}^{1}P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\ &+2\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1} (x_{1}-\mathrm{E}[X_{1}])(x_{2}-\mathrm{E}[X_{2}])\sum_{x_{3}=0}^{1}\cdots \sum_{x_{n}=0}^{1}P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\ &+2\sum_{x_{1}=0}^{1}\sum_{x_{3}=0}^{1} (x_{1}-\mathrm{E}[X_{1}])(x_{3}-\mathrm{E}[X_{3}])\sum_{x_{1}=0}^{1}\cdots \sum_{x_{n}=0}^{1}P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\ &+\cdots\notag\\ &+2\sum_{x_{n-1}=0}^{1}\sum_{x_{n}=0}^{1} (x_{n-1}-\mathrm{E}[X_{n-1}])(x_{n}-\mathrm{E}[X_{n}])\sum_{x_{1}=0}^{1}\cdots \sum_{x_{n-2}=0}^{1}P(X_{1}=x_{1}\cap X_{2}=x_{2}\cap \cdots \cap X_{n}=x_{n})\notag\\ &= \sum_{x_{1}=0}^{1} (x_{1}-\mathrm{E}[X_{1}])^2 P(X_{1}=x_{1})\notag\\ &+\sum_{x_{2}=0}^{1} (x_{2}-\mathrm{E}[X_{2}])^2 P(X_{2}=x_{2})\notag\\ &+\cdots\notag\\ &+\sum_{x_{n}=0}^{1} (x_{n}-\mathrm{E}[X_{n}])^2 P(X_{n}=x_{n})\notag\\ &+2\sum_{x_{1}=0}^{1}\sum_{x_{2}=0}^{1} (x_{1}-\mathrm{E}[X_{1}])(x_{2}-\mathrm{E}[X_{2}]) P(X_{1}=x_{1}\cap X_{2}=x_{2})\notag\\ &+2\sum_{x_{1}=0}^{1}\sum_{x_{3}=0}^{1} (x_{1}-\mathrm{E}[X_{1}])(x_{3}-\mathrm{E}[X_{3}]) P(X_{2}=x_{2}\cap X_{3}=x_{3})\notag\\ &+\cdots\notag\\ &+2\sum_{x_{n-1}=0}^{1}\sum_{x_{n}=0}^{1} (x_{n-1}-\mathrm{E}[X_{n-1}])(x_{n}-\mathrm{E}[X_{n}]) P(X_{n-1}=x_{n-1}\cap X_{n}=x_{n})\notag\\ &= \mathrm{Var}[X_{1}]+\mathrm{Var}[X_{2}]+\cdots+\mathrm{Var}[X_{n}]+2(\mathrm{Cov}[X_{1},X_{2}]+\mathrm{Cov}[X_{1},X_{3}]+\cdots+\mathrm{Cov}[X_{n-1},X_{n}])\notag \end{align} である。この共分散の項数は二乗で生じた$n^2$項から分散の項数$n$を引き、$\mathrm{Cov}[X_{1},X_{2}]=\mathrm{Cov}[X_{2},X_{1}]$としたことから二倍になっていることを考慮し二で割る。つまり$n(n-1)/2$項ある。また先程のような数値の反転のみならず、数値の入れ替えでも等号は成り立つ。そのため \[ 2(\mathrm{Cov}[X_{1},X_{2}]+\mathrm{Cov}[X_{1},X_{3}]+\cdots+\mathrm{Cov}[X_{n-1},X_{n}])=2\frac{n(n-1)}{2}\mathrm{Cov}[X_{1},X_{2}] \] である。この$\mathrm{Cov}[X_{1},X_{2}]$は \begin{align} \mathrm{Cov}[X_{1},X_{2}] &=\frac{(S-1)S}{(N-1)N}-\frac{S^2}{N^2}\notag\\ &=\frac{S^2 N-SN-S^2N+S^2}{(N-1)N^2}\notag\\ &=\frac{(S-N)S}{(N-1)N^2}\notag\\ &=-\frac{LS}{(N-1)N^2}\notag \end{align} となるため \begin{align} \mathrm{Var}[Y] &= n\frac{S}{N}\frac{L}{N}-n(n-1)\frac{S}{N-1}\frac{L}{N^2}\notag\\ &=n\frac{S}{N}\frac{L}{N}\left(1-\frac{n-1}{N-1}\right)\notag\\ &=n\frac{S}{N}\frac{L}{N}\frac{N-n}{N-1}\notag \end{align} を得る。これは既に求めた \[ \mathrm{Var}[S]=n\frac{S}{N} \frac{L}{N} \frac{N-n}{N-1} \] と一致する。
続いて統計検定準一級のワークブックに記載されている方法を求める。$i$番目が当たりである確率は当たりの中から一つを選ぶ${}_{S}\mathrm{P}_{1}$と、残りの$N-1$個から$n-1$個を引く順番を${}_{N-1}\mathrm{P}_{n-1}$との積を、全て引く順列${}_{N}\mathrm{P}_{n}$で割ったものである。これは \[ P(X_{i}=x_{i})=\frac{ {}_{S}\mathrm{P}_{1} \cdot {}_{N-1}\mathrm{P}_{n-1} }{ {}_{N}\mathrm{P}_{n} } \] である。これは${}_{S}\mathrm{P}_{1} =S$であり \[ \frac{ {}_{N-1}\mathrm{P}_{n-1}} { {}_{N}\mathrm{P}_{n} } =\frac{ \frac{(N-1)!}{((N-1)-(n-1))!} }{ \frac{N!}{(N-n)!} } = \frac{1}{N} \] であることから \[ P(X_{i}=x_{i})=\frac{S}{N} \] である。また同時確率は$i$番目$j$番目が当たりである確率は当たりの中から二つを選ぶ ${}_{S}\mathrm{P}_{2}$と、残りの$N-2$個から$n-2$個を引く順番を${}_{N-2}\mathrm{P} _{n-2}$との積を、全ての順列${}_{N}\mathrm{P}_{n}$で割ったものである。これは \[ P(X_{i}=1\cap X_{j}=1) =\frac{ {}_{S} \mathrm{P}_{2} \cdot {}_{N-2} \mathrm{P} _{n-2}} { {}_{N} \mathrm{P} _{n} } \] である。この分子の${}_{S} \mathrm{P}_{2}$は$S(S-1)$と計算できる。また \[ \frac{ {}_{N-k} \mathrm{P}_{n-k}} { {}_{N} \mathrm{P}_{n} } =\frac{1}{N(N-1)\cdots(N-k+1)}=\frac{1}{ {}_{N} \mathrm{P}_{k} } \] という性質から \[ P(X_{i}=1\cap X_{j}=1) =\frac{S(S-1)}{N(N-1)} \] である。以上はすでに別の方法で求めた確率関数と一致する。期待値、分散の導出は省略する。
$n,s$に比べ$N,S$が極めて大きいとき超幾何分布を二項分布に近似できることを見る。まず$N$が$n$より極めて大きいため$N-1,\cdots,N-n+1$を全て$ N$と見做すことができるとする。同じように $S-1,\cdots,S-s+1$を$S$とし$N-S-1,\cdots,N-S-(n-s)+1$を$N-S$とすると \begin{align} f_{S}(s) &=\frac{ \binom{S}{s} \cdot \binom{N-S}{n-s} }{ \binom{N}{n} }\notag\\ &=\frac{ \frac{S(S-1)\cdots(S-s+1)}{s!} \cdot \frac{(N-S)(N-S-1)\cdots(N-S-(n-s)+1)}{(n-s)!} }{ \frac{N(N-1)\cdots(N-n+1)}{n!} }\notag\\ &\simeq \frac{n!}{s!(n-s)!} \frac{S\cdot S \cdots S (N-S)(N-S)\cdots(N-S)}{N\cdot N\cdots N}\notag \end{align} と近似できる。$N(N-1)\cdots(N-(n-1))$の項は$\binom{N}{n}$が$N$個の中から$n$個を選ぶ組み合わせであることに由来することから、この近似式の$N$の個数は$n$個であり、同じように考え$S$の個数は$s$個であり、$N-S$の個数は$n-s$個である。そのため \begin{align} f_{S}(s) &\simeq \frac{n!}{s!(n-s)!} \frac{S^{s} (N-S)^{n-s} }{N^{n}}\notag\\ &= \binom{n} {s} \frac{S^{s} (N-S)^{n-s} }{N^{s+n-s}}\notag\\ &=\binom{n} {s} \left( \frac{S}{N}\right)^{s} \cdot \left( \frac{N-S}{N} \right)^{n-s} \notag \end{align} となる。$N,S$が無限大になるとき$S/N \to p$となるならば \begin{align} \lim_{\substack{N \to \infty \\ S \to \infty}} \frac{ \binom{S}{s} \cdot \binom{N-S}{n-s} }{ \binom{N}{n} } = \binom{n}{s} p^{s}(1-p)^{n-s} \notag \end{align} となる。同じように極大をとると期待値は \[ \mathrm{E}[\mathcal{S}]=n\frac{S}{N}\to np \] であり、分散は \[ \mathrm{Var}[\mathcal{S}] = \frac{N-n}{N-1} n\frac{S}{N} \left( 1-\frac{S}{N} \right) \to np\left( 1-p\right) \] である。分散の$(N-n)/(N-1)$は有限母集団修正とよばれ$N$が極大になるとき一となる。
超幾何分布の確率母関数を求める。これは確率母関数の定義から \[ G(t)=\mathrm{E}[t^{\mathcal{S}}]=\sum_{s=\max\left\{0,n-(N-S)\right\}}^{\min\left\{n,S\right\}} t^{s} f(s) \] である。慣例により確率母関数の変数は$s$とすることが多いが確率質量関数 \[ f(s) =\frac{\binom{S}{s} \binom{L}{l}}{\binom{N}{n}} =\frac{\binom{S}{s} \binom{N-S}{n-s}}{\binom{N}{n}} \] の変数$s$と重なるため、ここでは$t$とした。 \[ G(t)=\mathrm{E}[t^{\mathcal{S}}]= \frac{1}{\binom{N}{n}}\sum_{s=\max\left\{0,n-(N-S)\right\}}^{\min\left\{n,S\right\}} t^{s} \binom{S}{s} \binom{N-S}{n-s} \] ここまでの計算からヴァンデルモンドの式が利用可能であると予想できる。準備として成功$S$、失敗$L$の回数で冪乗したものを二項展開する。 \begin{align} (1+x)^{S}=\sum_{i=0}^{S} \binom{S}{i} x^{i} \notag\\ (1+x)^{L}=\sum_{j=0}^{L} \binom{L}{j} x^{j}. \notag \end{align} ヴァンデルモンドの式はこの二式の積をとることで得られる。しかし今回は$t^{s}$があるため、このまま積をとっても必要な式が得られない。そこで上式については$x$を$tx$に 書き換えると \begin{align} &(1+tx)^{S}=\sum_{i=0}^{S} \binom{S}{i} t^{i} x^{i} \notag \end{align} となる。二式の積をとると \begin{align} \text{右辺} &= \sum_{i=0}^{S} \binom{S}{i} t^{i} x^{i} \sum_{j=0}^{L} \binom{L}{j} x^{j} \notag\\ &= \left\{ \binom{S}{0} t^{0}x^{0}+\binom{S}{1} t^{1}x^{1}+\cdots+\binom{S}{S-1} t^{S-1}x^{S-1}+\binom{S}{S} t^{S}x^{S} \right\} \notag\\ &\times \left\{ \binom{L}{0}x^{0}+\binom{L}{1} x^{1}+\cdots+\binom{L}{L-1} x^{L-1}+\binom{L}{L} x^{L} \right\} \notag\\ &= \binom{S}{0}\binom{L}{0}t^{0} x^{0}+ \left\{ \binom{S}{0}\binom{L}{1}t^{0}+\binom{S}{1} \binom{L}{0} t^{1} \right\}x^{1} +\cdots \notag\\ &+ \left\{ \binom{S}{0}\binom{L}{n}t^{0}+\binom{S}{1} \binom{L}{n-1} t^{1}+\cdots+ \binom{S}{n-1}\binom{L}{1}t^{n-1}+\binom{S}{n}\binom{L}{0}t^{n} \right\}x^{n} +\cdots \notag \end{align} となる。$x^{n}$の係数は総和記号と、$L=N-S, l=n-s$とより \[ \sum_{s=0}^{n} \binom{S}{s}\binom{N-S}{n-s} t^{s} \] と表せる。総和の引数の下限について$n-s>N-S$のとき二番目の二項係数が零になるため$ \max\left\{0,n-(N-S)\right\}$してよい。また上限については$n \gt S$のとき一番目の二項係数が零になるため$\min\left\{n,S\right\}$としてよい。そのため \[ \sum_{s=\max\left\{0,n-(N-S)\right\}}^{\min\left\{n,S\right\}} \binom{S}{s}\binom{N-S}{n-s} t^{s} \] とも書ける。左辺については \begin{align} \text{左辺}=(1+tx)^{S}(1+x)^{N-S} \notag \end{align} となり、これまでのヴァンデルモンドの式の計算で利用した \begin{align} \text{左辺} &=(1+x)^{S}(1+x)^{N-S}\notag\\ &= (1+x)^{N} \notag\\ &=\binom{N}{0}x^{0}+\binom{N}{1}x^{1}+ \cdots+\binom{N}{n} x^{n}+\cdots\notag \end{align} から$x^{n}$の係数を$\binom{N}{n}$として \[ \binom{N}{n} = \sum_{s=\max\left\{0,n-(N-S)\right\}}^{\min\left\{n,S\right\}} \binom{S}{s}\binom{N-S}{n-s} t^{s} \] とする手法は用いえない。二つの表現法がある。
まず一つ目に係数抽出記号 coefficient extraction operator を用いる表現である。これは下の例のように係数を取り出す記号である。 \[ \left[x^{n}\right](1+tx)^{S}(1+x)^{N-S}=\sum_{s=\max\left\{0,n-(N-S)\right\}}^{\min\left\{n,S\right\}} \binom{S}{s}\binom{N-S}{n-s} t^{s} \] これを用いると \[ G(t) = \mathrm{E}[t^{\mathcal{S}}] =\frac{1}{\binom{N}{n}} \left[x^{n}\right](1+tx)^{S}(1+x)^{N-S} \] となり、微分すると \[ \frac{\mathrm{d}}{\mathrm{d}t} G(t)= \mathrm{E}[\mathcal{S} t^{\mathcal{S}-1}] = \frac{1}{\binom{N}{n}} \left[x^{n}\right] xS(1+tx)^{S-1}(1+x)^{N-S} \] となる。$t=1$を代入すると \begin{align} \left. \frac{\mathrm{d}}{\mathrm{d}t} G(t) \right|_{t=1} &=\mathrm{E}[\mathcal{S}] \notag\\ &= \frac{1}{\binom{N}{n}} \left[x^{n}\right] xS(1+x)^{N-1} \notag\\ &= \frac{1}{\binom{N}{n}} \left[x^{n}\right] xS \left\{ x^{0}+\cdots+\binom{N-1}{n-1} x^{n-1}+\cdots \right\} \notag\\ &= \frac{1}{\binom{N}{n}} S\binom{N-1}{n-1} \notag\\ &=n \frac{S}{N} \notag \end{align} となる。これは既に求めた期待値と等しい。二階微分では \[ \frac{\mathrm{d}^{2}}{\mathrm{d}t^{2}} G(t)= \mathrm{E}[\mathcal{S}(\mathcal{S}-1) t^{S-2}] = \frac{1}{\binom{N}{n}} \left[x^{n}\right] x^2 S(S-1)(1+tx)^{S-2}(1+x)^{N-S} \] となり、$t=1$を代入すると \begin{align} \left. \frac{\mathrm{d}^{2}}{\mathrm{d}t^{2}} G(t) \right|_{t=1} &=\mathrm{E}[\mathcal{S}(\mathcal{S}-1)] \notag\\ &= \frac{1}{\binom{N}{n}} \left[x^{n}\right] x^{2} S(S-1)(1+x)^{N-2} \notag\\ &= \frac{1}{\binom{N}{n}} \left[x^{n}\right] x^{2} S(S-1) \left\{ x^{0}+\cdots+\binom{N-2}{n-2} x^{n-2}+\cdots \right\} \notag\\ &= \frac{1}{\binom{N}{n}} S(S-1)\binom{N-2}{n-2} \notag\\ &=n(n-1) \frac{S(S-1)}{N(N-1)} \notag \end{align} となる。これより成立することが確かめられた。また超幾何分布の階乗積率は下降階乗記号を用いて \begin{align} \left. \frac{\mathrm{d}^{k}}{\mathrm{d}t^{k}} G(t) \right|_{t=1} =E\left[\mathcal{S}^{\underline{k}}\right] =n^{\underline{k}} \frac{S^{\underline{k}}}{N^{\underline{k}}} \notag \end{align} と書けることが予想される。これは超幾何関数の微分を用いて証明する。
もう一つの方法は超幾何関数を用いた表現である。 \[ G(t)=\mathrm{E}[t^{\mathcal{S}}]= \frac{1}{\binom{N}{n}}\sum_{s=\max\left\{0,n-(N-S)\right\}}^{\min\left\{n,S\right\}} \binom{S}{s} \binom{N-S}{n-s} t^{s} \] 総和の引数の下限が$n-(N-S)$のとき二項係数より零になるため無視できる。そのため下限を零とする。上限については$S \lt s$のとき零となることから、上限を無限にしても同じである。そのため上限を無限とする。
次に下降階乗記号と対になる上昇階乗記号を定義する。 \[ a^{\overline{b}}:=a(a+1)\cdots(a+b-1) \] こちらを用いると一番目の二項係数は \begin{align} \binom{S}{s} &=\frac{S(S-1)\cdots(S-s+1)}{s!} \notag\\ &=\frac{(-1)^{s-1-0+1} (-S)(-S+1)\cdots(-S+s-1)}{s!} \notag\\ &=\frac{(-1)^{s} (-S)^{\overline{s}}}{s!} \notag \end{align} と書ける。これは$S$が$s$より小さいとき \[ (-S)^{\overline{s}}=(-S)(-S+1)\cdots (-1) \cdot 0 \cdot 1 \cdot 2 \cdots=0 \] となり、二項係数の性質を引き継いでいる。二番目の二項係数から$s$を取り出す。 \begin{align} \binom{N-S}{n-s} &=\frac{(N-S)(N-S-1)\cdots(N-S-(n-s)+1)}{(n-s)!} \notag\\ &=\frac{(N-S)!}{(N-S-(n-s))!(n-s)!} \cdot \frac{n!}{n!} \cdot \frac{(N-S-n)!}{(N-S-n)!} \notag\\ &=\frac{(N-S)!}{n!(N-S-n)!} \cdot \frac{n!}{(n-s)!} \cdot \frac{(N-S-n)!}{(N-S-n+s)!} \notag \end{align} ここで \begin{align} \frac{n!}{(n-s)!} &=n(n-1)\cdots(n-s+1) \notag\\ &=(-n)(-n+1)\cdots(-n+s-1) \notag\\ &=(-1)^{s} (-n)^{\overline{s}} \notag \end{align} と計算でき、 \begin{align} \frac{(N-S-n)!}{(N-S-n+s)!} &=\frac{(N-S-n)!}{(N-S-n+s)(N-S-n+s-1)\cdots(N-S-n+1) \cdot (N-S-n)!} \notag\\ &=\frac{1}{(N-S-n+1)^{\overline{s}}} \notag \end{align} と計算できることから \begin{align} \binom{N-S}{n-s} =\binom{N-S}{n} (-1)^{s} (-n)^{\overline{s}} \frac{1}{(N-S-n+1)^{\overline{s}}} \notag \end{align} となる。二項係数の計算結果を代入すると \begin{align} \text{右辺} &= \frac{1}{\binom{N}{n}}\sum_{s=0}^{\infty} \frac{(-1)^{s} (-S)^{\overline{s}}}{s!} \binom{N-S}{n} (-1)^{s} (-n)^{\overline{s}} \frac{1}{(N-S-n+1)^{\overline{s}}} t^{s} \notag\\ &= \frac{\binom{N-S}{n}}{\binom{N}{n}} \sum_{s=0}^{\infty} \frac{ (-S)^{\overline{s}} (-n)^{\overline{s}}}{(N-S-n+1)^{\overline{s}}} \frac{t^{s}}{s!} \notag \end{align} となる。この総和については超幾何関数を用いて表せる。これは \begin{align} {}_{x}\mathrm{F}_{y} \left[ \begin{matrix} p_{1},p_{2},\ldots,p_{x} \\ q_{1},q_{2},\ldots,q_{y} \end{matrix} ;z \right] := \sum_{s=0}^{\infty} \frac { p_{1}^{\overline{s}} p_{2}^{\overline{s}} \cdots p_{x}^{\overline{s}}} { q_{1}^{\overline{s}} q_{2}^{\overline{s}} \cdots q_{y}^{\overline{s}}} \frac{z^{s}}{s!} \notag \end{align} と定義される。以下$F(p_{1},p_{2},\ldots,p_{x}/q_{1},q_{2},\ldots,q_{y};z)$とも表す。これを用いると \begin{align} G(t)=\mathrm{E}[t^{ \mathcal{S}}] = \frac{\binom{N-S}{n}}{\binom{N}{n}} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} -S,-n\\ N-S-n+1 \\ \end{matrix} \ ;\ t \right] \notag \end{align} となる。恐らく超幾何関数で確率母関数を表せるため超幾何分布と呼ぶのだろう。ここで超幾何関数のガウスの公式を使う。これは \begin{align} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} a,b \\ c \end{matrix} ;1 \right] := \frac{\Gamma(c)\Gamma(c-a-b)}{\Gamma(c-a)\Gamma(c-b)} \notag \end{align} である。証明は下記のとおりである。まず超幾何関数をオイラーの積分表示に変換する。上昇階乗記号について \[ b^{\overline{n}} =b(b+1)\cdots(b+n-1)\times \frac{(b-1)!}{(b-1)!} =\frac{\Gamma(b+n)}{\Gamma(b)} \] と書き換えられることから \begin{align} {}_{2} \mathrm{F}_{1} \left[ \begin{matrix} a,b \\ c \end{matrix} ;z \right] &= \sum_{s=0}^{\infty} \frac { a^{\overline{s}} b^{\overline{s}} } { c^{\overline{s}} } \frac{z^{s}}{s!} \notag\\ &= \sum_{s=0}^{\infty} \frac { a^{\overline{s}} \Gamma(b+s)\Gamma(c) } { \Gamma(b)\Gamma(c+s)} \frac{z^{s}}{s!} \times \frac{\Gamma(c-b)}{\Gamma(c-b)}\notag\\ &= \frac{\Gamma(c)}{\Gamma(b)\Gamma(c-b)} \sum_{s=0}^{\infty} \frac { \Gamma(b+s)\Gamma(c-b) } { \Gamma(c+s)} \frac{a^{\overline{s}}z^{s}}{s!} \notag \end{align} となり、総和の中のガンマ関数はベータ関数を用いて \[ B(b+s,c-b) = \int_{0}^{1} t^{b+s-1}(1-t)^{c-b-1} \mathrm{d}t = \frac{\Gamma(b+s)\Gamma(c-b)}{\Gamma(c+s)} \] と表せるため \begin{align} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} a,b \\ c \end{matrix} ;z \right] &= \frac{\Gamma(c)}{\Gamma(b)\Gamma(c-b)} \sum_{s=0}^{\infty} \frac { \Gamma(b+s)\Gamma(c-b) } { \Gamma(c+s)} \frac{a^{\overline{s}}z^{s}}{s!} \notag\\ &= \frac{\Gamma(c)}{\Gamma(b)\Gamma(c-b)} \sum_{s=0}^{\infty} \frac{a^{\overline{s}}z^{s}}{s!} \int_{0}^{1} t^{b+s-1}(1-t)^{c-b-1} \mathrm{d}t \notag\\ &= \frac{\Gamma(c)}{\Gamma(b)\Gamma(c-b)} \int_{0}^{1} t^{b-1}(1-t)^{c-b-1} \left( \sum_{s=0}^{\infty} \frac{a^{\overline{s}}}{s!} (zt)^{s}\right) \mathrm{d}t \notag \end{align} となる。一番下の等号は絶対収束の下で成り立つが詳細は省略する。負の二項定理より総和は \[ \sum_{s=0}^{\infty} \frac{a^{\overline{s}}z^{s}}{s!} = (1-zt)^{-a} \] となるため \begin{align} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} a,b \\ c \end{matrix} ;z \right] &= \frac{\Gamma(c)}{\Gamma(b)\Gamma(c-b)} \int_{0}^{1} t^{b-1}(1-t)^{c-b-1} \left( 1-zt \right)^{-a}\mathrm{d}t \notag \end{align} となる。これがオイラーの積分表示である。$z=1$のときベータ関数となることから \begin{align} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} a,b \\ c \end{matrix} ;1 \right] &= \frac{\Gamma(c)}{\Gamma(b)\Gamma(c-b)} \int_{0}^{1} t^{b-1}(1-t)^{-a+c-b-1} \mathrm{d}t \notag\\ &= \frac{\Gamma(c)}{\Gamma(b)\Gamma(c-b)} \frac{\Gamma(b)\Gamma(-a+c-b)}{\Gamma(-a+c)} \notag\\ &= \frac{\Gamma(c)\Gamma(c-a-b)}{\Gamma(c-a)\Gamma(c-b)}\notag \end{align} となる。この公式に$a=-n$を代入すると \begin{align} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} -n,b \\ c \end{matrix} ;1 \right] &= \frac{\Gamma(c)\Gamma(c+n-b)}{\Gamma(c+n)\Gamma(c-b)}\notag\\ &= \frac{(c+n-b-1)(c+n-b-2)\cdots(c-b+1)(c-b)}{(c+n-1)(c+n-2)\cdots(c+1)c} \notag\\ &= \frac{(c-b)^{\overline{n}}}{c^{\overline{n}}} \notag \end{align} となり、$b=-S,\ c=N-S-n+1$とすると、二項係数の上昇階乗記号表記$\binom{a}{b}=\frac{a^{\overline{b}}}{b!}$より \begin{align} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} -n,-S \\ N-S-n+1 \end{matrix} ;1 \right] &= \frac{(N-n+1)^{\overline{n}}}{(N-S-n+1)^{\overline{n}}} \notag\\ &= \frac{ \binom{N}{n} n! }{ \binom{N-S}{n} n!} \notag\\ &= \frac{ \binom{N}{n} }{ \binom{N-S}{n} } \notag \end{align} となる。これは確率母関数の超幾何関数の前の係数の逆数であるため \begin{align} G(t)=\mathrm{E}[t^{\mathcal{S}}] = \frac{\binom{N-S}{n}}{\binom{N}{n}} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} -S,-n\\ N-S-n+1 \\ \end{matrix} \ ;t \right] = \frac{F(-S,-n\ /\ N-S-n+1;t)}{F(-S,-n\ /\ N-S-n+1;1)} \notag \end{align} となる。ガウスの公式の証明で用いた式と引数の場所が異なるが対称性より成り立つ。確率母関数で$t=1$とすると \begin{align} G(1)=\mathrm{E}[1^{\mathcal{S}}] = \frac{F(-S,-n\ /\ N-S-n+1;1)}{F(-S,-n\ /\ N-S-n+1;1)}=1 \notag \end{align} となる。これは定数の期待値は定数であることからも明らかである。次は超幾何関数を微分する。$t=s-1$として上昇階乗記号の性質$a^{\overline{s}}=a^{\overline{t+1}}=a(a+1)\cdots(a+t-1)(a+t)=a(a+1)^{\overline{t}}$という性質を利用すると微分は \begin{align} \frac{\mathrm{d}}{\mathrm{d}z} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} a,b \\ c \end{matrix} ;z \right] &= \frac{\mathrm{d}}{\mathrm{d}z} \sum_{s=0}^{\infty} \frac { a^{\overline{s}} b^{\overline{s}} } { c^{\overline{s}} } \frac{z^{s}}{s!} \notag\\ &= \frac{\mathrm{d}}{\mathrm{d}z} \left( 1+ \sum_{s=1}^{\infty} \frac { a^{\overline{s}} b^{\overline{s}} } { c^{\overline{s}} } \frac{z^{s}}{s!} \right)\notag\\ &= 0+ \sum_{s=1}^{\infty} \frac { a^{\overline{s}} b^{\overline{s}} } { c^{\overline{s}} } \frac{z^{s-1}}{(s-1)!} \notag\\ &= \sum_{t=0}^{\infty} \frac { a^{\overline{t+1}} b^{\overline{t+1}} } { c^{\overline{t+1}} } \frac{z^{t}}{t!} \notag\\ &= \sum_{t=0}^{\infty} \frac{ab}{c} \frac { (a+1)^{\overline{t}} (b+1)^{\overline{t}} } { (c+1)^{\overline{t}} } \frac{z^{t}}{t!} \notag\\ &= \frac{ab}{c} {}_{2} \mathrm{F}_{1} \left[ \begin{matrix} a+1,b+1 \\ c+1 \end{matrix} ;z \right] \notag \end{align} となる。一般化すると \begin{align} \frac{\mathrm{d}^{k}}{\mathrm{d}z^{k}} {}_{2} \mathrm{F}_{1} \left[ \begin{matrix} a,b \\ c \end{matrix} ;z \right] = \frac{a^{\overline{k}}b^{\overline{k}}}{c^{\overline{k}}} {}_{2}\mathrm{F}_{1} \left[ \begin{matrix} a+k,b+k \\ c+k \end{matrix} ;z \right] \notag \end{align} となり、確率母関数 \begin{align} G(z)=\frac{F(a,b/c;z)}{F(a,b/c;1)}\notag \end{align} の微分は \begin{align} \frac{\mathrm{d}^{k}}{\mathrm{d}z^{k}} G(z)= \frac{a^{\overline{k}}b^{\overline{k}}}{c^{\overline{k}}} \frac{F(a+k,b+k/c+k;z)}{F(a,b/c;1)}\notag \end{align} となり、$z=1$のとき \begin{align} \left. \frac{\mathrm{d}^{k}}{\mathrm{d}z^{k}} G(z) \right|_{z=1} &=\frac{a^{\overline{k}}b^{\overline{k}}}{c^{\overline{k}}} \frac{F(a+k,b+k/c+k;z)}{F(a,b/c;1)}\notag\\ &= \frac{a^{\overline{k}}b^{\overline{k}}}{c^{\overline{k}}} \frac{\Gamma(c+k) \Gamma(c+k-(a+k)-(b+k))}{\Gamma(c+k-(a+k))\Gamma(c+k-(b+k))} \frac{\Gamma(c-a)\Gamma(c-b)}{\Gamma(c) \Gamma(c-a-b)}\notag\\ &= \frac{a^{\overline{k}}b^{\overline{k}}}{c^{\overline{k}}} \frac{\Gamma(c+k)}{\Gamma(c)} \frac{\Gamma(c-a-b-k))}{\Gamma(c-a-b)} \frac{\Gamma(c-a)}{\Gamma(c-a)} \frac{\Gamma(c-b)}{\Gamma(c-b)} \notag\\ &= \frac{a^{\overline{k}}b^{\overline{k}}}{c^{\overline{k}}} \frac{c^{\overline{k}}}{(c-a-b-1-k+1)^{\overline{k}}}\notag\\ &= \frac{a^{\overline{k}}b^{\overline{k}}}{{(c-a-b-1)^{\underline{k}}}} \notag \end{align} となる。超幾何分布の定数、変数を代入すると \begin{align} \left. \frac{\mathrm{d}^{k}}{\mathrm{d}t^{k}} G(t)\right|_{t=1} &= \frac{(-n)^{\overline{k}}(-S)^{\overline{k}}}{{(N-S-n+1-(-S)-(-n)-1)^{\underline{k}}}} \notag\\ &= \frac{(-1)^{k} n(n-1)\cdots(n-k+1)\cdot (-1)^{k} S(S-1)\cdots(S-k+1)}{N^{\underline{k}}} \notag\\ &= n^{\underline{k}} \frac{S^{\underline{k}}}{N^{\underline{k}}} \notag \end{align} となる。よって \begin{align} \left. \frac{\mathrm{d}^{k}}{\mathrm{d}t^{k}} G(t)\right|_{t=1} = \mathrm{E}[\mathcal{S}^{\underline{k}}] = n^{\underline{k}} \frac{S^{\underline{k}}}{N^{\underline{k}}} \notag \end{align} である。
下降階乗記号は$a^{\underline{0}}=1$であるため$k=0$のとき \begin{align} G(1) =E[1] = n^{\underline{ 0 }} \frac{S^{\underline{ 0 }}}{N^{\underline{ 0 }}} = 1 \notag \end{align} となる。これは確率質量関数の総和が一となることを示す。また$a^{\underline{1}}=a$であるため$k=1$のとき \begin{align} \left. \frac{\mathrm{d}}{\mathrm{d}t} G(t) \right|_{t=1} =\mathrm{E}[\mathcal{S}] = n^{\underline{ 1 }} \frac{S^{\underline{ 1 }}}{N^{\underline{1}}} = n\frac{S}{N} \notag \end{align} である。これは既に求めた期待値と一致する。微分に$k=2$を代入すると \begin{align} \left. \frac{\mathrm{d}^{2}}{\mathrm{d}t^{2}} G(t) \right|_{t=1} =\mathrm{E}[\mathcal{S}(\mathcal{S}-1)] = n^{\underline{2}} \frac{S^{\underline{2}}}{N^{\underline{2}}} = n(n-1)\frac{S}{N}\frac{S-1}{N-1} \notag \end{align} となる。これを用いて分散を計算する。 \begin{align} \mathrm{Var}[\mathcal{S}] &=\mathrm{E}[\mathcal{S}(\mathcal{S}-1)]+\mathrm{E}[\mathcal{S}]-(\mathrm{E}[\mathcal{S}])^{2} \notag\\ &= n(n-1)\frac{S}{N}\frac{S-1}{N-1} +n\frac{S}{N} -\left(n\frac{S}{N} \right)^{2} \notag\\ &= n\frac{S}{N} \frac{nSN-nN-SN+N+N^{2}-N-nSN+nS}{(N-1)N} \notag\\ &= n\frac{S}{N}\frac{(N-S)(N-n)}{N(N-1)} \notag\\ &= \frac{N-n}{N-1} n\frac{S}{N} \frac{L}{N} \notag \end{align} となる。これは既に求めた分散と一致する。