露分け


多変量超幾何分布

2025-12-26

上記の超幾何分布は籤が当たり外れの二種類しかない。これから扱うのは種類が複数あり、超幾何分布と二項分布とが対応関係にあるように、多変数超幾何分布は多項分布と対応関係がある。

籤の総数は$N$個あり、その内$n$個引く。総数$N$は$K$種類あり、種類ごとの籤の数は$S_{i}$個あり、$i=1,2,\cdots,K$の全てを足し合わせると \[ N=S_{1}+S_{2}+\cdots+S_{K} \] となる。また種類ごとの引く籤の数$s_{k}$について足し合わせると \[ n=s_{1}+s_{2}+\cdots+s_{K} \] となる。多変数超幾何分布の確率質量関数を求める前に通常の超幾何分布を書き直す。外れ$L$を$S_{1}$とし、当たり$S$を$S_{2}$とする。小文字も同様にすると \[ f(s)=\frac{\binom{L}{l} \binom{S}{s} }{\binom{N}{n} } \] は \[ f(s_{2}) =\frac{ \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} }{ \binom{N}{n} } \] となる。右辺を二変数関数と見做し、ベクトルで$\overrightarrow{s}=(s_{1},s_{2})$と纏め、左辺を$f(\overrightarrow{s})$とする。また右辺の分子を総積記号を用いると超幾何分布(HyperGeometric Distribution)の確率質量関数は \[ \mathrm{HG}(\overrightarrow{s}|S,N,n)= f(\overrightarrow{s})=\frac{ 1 }{ \binom{N}{n} } \prod_{i=1}^{2} \binom{S_{i}}{s_{i}} \] となる。この式から多変数超幾何分布(Multivariate HyperGeometric Distribution)の確率質量関数を \[ \mathrm{MHG}(\overrightarrow{s}|\overrightarrow{S},N,n) = f(\overrightarrow{s}) = \frac{ 1 }{ \binom{N}{n} } \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} \] と予想できる。この式は当たりの総数$S_{i}$の内$s_{i}$を引く組み合わせの積を籤の総数から$N$引く籤$n$で正規化した式と見做せる。

総和が一になることを確認する。定義より \begin{align} \sum_{s_{1}+\cdots+s_{K}=n} f(\overrightarrow{s}) &= \sum_{s_{1}+\cdots+s_{K}=n} \frac{ 1 }{ \binom{N}{n} } \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} \notag\\ &= \frac{ 1 }{ \binom{N}{n} } \sum_{s_{1}+\cdots+s_{K}=n} \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} \notag \end{align} と書ける。この二項係数の積を求めるため超幾何分布で幾度も利用したヴァンデルモンドの式を使う。$N=S_{1}+S_{2}+\cdots+S_{K-1}+S_{K}$より$(1+x)^{N}$を展開する。 \begin{align} (1+x)^{N} &=(1+x)^{S_{1}+S_{2}+\cdots+S_{K-1}+S_{K}} \notag\\ &=(1+x)^{S_{1}} (1+x)^{S_{2}} \cdots (1+x)^{S_{K-1}} (1+x)^{S_{K}} \notag\\ &= \left\{ \binom{S_{1}}{0}x^{0}+\binom{S_{1}}{1}x^{1}+\cdots+\binom{S_{1}}{S_{1}}x^{S_{1}} \right\} \times \left\{ \binom{S_{2}}{0}x^{0}+\binom{S_{2}}{1}x^{1}+\cdots+\binom{S_{2}}{S_{2}}x^{S_{2}} \right\} \times \cdots\notag\\ &\times \left\{ \binom{S_{K}}{0}x^{0}+\binom{S_{K}}{1}x^{1}+\cdots+\binom{S_{K}}{S_{K}}x^{S_{K}} \right\} \notag\\ &= \left\{\binom{S_{1}}{0} \binom{S_{2}}{0} \cdots \binom{S_{K}}{0} \right\}x^{0} + \notag\\ &+\left\{ \binom{S_{1}}{1} \binom{S_{2}}{0} \cdots \binom{S_{K}}{0}+ \binom{S_{1}}{0} \binom{S_{2}}{1} \cdots \binom{S_{K}}{0}+ \cdots \binom{S_{1}}{0} \binom{S_{2}}{0} \cdots \binom{S_{K}}{1} \right\}x^{1} + \cdots \notag\\ &+ \left\{ \binom{S_{1}}{n} \binom{S_{2}}{0} \cdots \binom{S_{K}}{0} + \binom{S_{1}}{n-1} \binom{S_{2}}{1} \cdots \binom{S_{K}}{0}+\cdots+ \binom{S_{1}}{n-1} \binom{S_{2}}{0} \cdots \binom{S_{K}}{1} + \cdots\right. \notag\\ &+ \left. \binom{S_{1}}{1} \binom{S_{2}}{0} \cdots \binom{S_{K}}{n-1}+ \binom{S_{1}}{0} \binom{S_{2}}{1} \cdots \binom{S_{K}}{n-1}+\cdots+ \binom{S_{1}}{0} \binom{S_{2}}{0} \cdots \binom{S_{K}}{n} \right\}x^{n}+\cdots \notag \end{align} $x^{n}$の係数は総和記号、総積記号を用いて \begin{align} & \binom{S_{1}}{n} \binom{S_{2}}{0} \cdots \binom{S_{K}}{0}+ \binom{S_{1}}{n-1} \binom{S_{2}}{1} \cdots \binom{S_{K}}{0}+\cdots+ \binom{S_{1}}{n-1} \binom{S_{2}}{0} \cdots \binom{S_{K}}{1} + \cdots \notag\\ & + \binom{S_{1}}{0} \binom{S_{2}}{1} \cdots \binom{S_{K}}{n-1}+\cdots+ \binom{S_{1}}{0} \binom{S_{2}}{0} \cdots \binom{S_{K}}{n} \notag\\ &= \sum_{s_{1}+s_{2}+\cdots+s_{K}=n} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{K}}{s_{K}} \notag\\ &= \sum_{s_{1}+s_{2}+\cdots+s_{K}=n} \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} \notag \end{align} となる。$(1+x)^{N}$の係数は二項定理より二項係数である。そのため \[ \binom{N}{n} = \sum_{s_{1}+s_{2}+\cdots+s_{K}=n}\prod_{i=1}^{K} \binom{S_{i}}{s_{i}} \] と分かる。この結果を上式に代入すると \begin{align} \sum_{s_{1}+s_{2}+\cdots+s_{K}=n} f(\overrightarrow{s}) =\frac{ 1 }{ \binom{N}{n} } \sum_{s_{1}+s_{2}+\cdots+s_{K}=n} \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} =\frac{1}{\binom{N}{n}} \binom{N}{n} =1 \label{eq:MHG1} \end{align} となる。期待値を求める。 \begin{align} \mathrm{E}[\mathcal{S}_{a}] &= \sum_{s_{1}+\cdots+s_{a}+\cdots+s_{K}=n} s_{a} f(\overrightarrow{s}) \notag\\ &= \frac{1}{\binom{N}{n} } \sum_{s_{1}+\cdots+s_{a}+\cdots+s_{K}=n} s_{a} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{a}}{s_{a}} \cdots \binom{S_{K}}{s_{k}} \notag\\ &=S_{a} \frac{1}{\binom{N}{n} } \sum_{ \substack{s_{1}+\cdots+s_{a}+\cdots+s_{K}=n \\ s_{a} \neq 0} } \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{a}-1}{s_{a}-1} \cdots \binom{S_{K}}{s_{k}} \notag \end{align} ここで条件 \[ S_{1}+S_{2}+\cdots+S_{a}+\cdots+S_{K}=N \] について一を引くと \[ S_{1}+S_{2}+\cdots+S_{a}-1+\cdots+S_{K}=N-1 \] となる。$T_{a}=S_{a}-1,T_{i \neq a} = S_{i \neq a},\ M=N-1$とすると \[ T_{1}+T_{2}+\cdots+T_{a}+\cdots+T_{K}=M \] となる。同様に変換し \[ t_{1}+t_{2}+\cdots+t_{a}+\cdots+t_{K}=m \] とする。$(1+x)^{M}=(1+x)^{T_{1}} (1+x)^{T_{2}} \cdots(1+x)^{T_{a}} \cdots (1+x)^{T_{K}}$を上記と同様に展開し比較すると \[ \binom{M}{m}=\sum_{t_{1}+\cdots+t_{a}+\cdots+t_{K}=m} \binom{T_{1}}{t_{1}} \binom{T_{2}}{t_{2}} \cdots \binom{T_{a}}{t_{a}} \cdots \binom{T_{K}}{t_{K}} \] となる。つまり \[ \binom{N-1}{n-1} = \sum_{ \substack{s_{1}+\cdots+s_{a}-1+\cdots+s_{K}=n-1 \\ s_{a} \neq 0 }} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{a}-1}{s_{a}-1} \cdots \binom{S_{K}}{s_{K}} \] を得る。依って \begin{align} \mathrm{E}[\mathcal{S}_{a}] &= \frac{S_{a}} {\binom{N}{n} } \sum_{ \substack{s_{1}+\cdots+s_{a}-1+\cdots+s_{K}=n-1 \\ s_{a} \neq 0 }} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{a}-1}{s_{a}-1} \cdots \binom{S_{K}}{s_{K}} \notag\\ &= \frac{S_{a}} {\binom{N}{n} } \binom{N-1}{n-1} \notag\\ &= n\frac{S_{a}}{N} \label{eq:MHGES} \end{align} である。他の値も同じように計算できるため期待値ベクトルは \[ \overrightarrow{\mathrm{E}} \left[\overrightarrow{\mathcal{S}} \right] =\left(n\frac{S_{1}}{N} , n\frac{S_{2}}{N} , \ldots, n\frac{S_{K}}{N} \right)^{\mathrm{T}} =n\left(\frac{S_{1}}{N} , \frac{S_{2}}{N} , \ldots, \frac{S_{K}}{N} \right)^{\mathrm{T}} \] となる。ここで$S_{i}/N=P_{i}$として \[ \overrightarrow{P} :=\left(\frac{S_{1}}{N},\frac{S_{2}}{N}, \ldots,\frac{S_{K}}{N}\right)^{\mathrm{T}} =\left(P_{1},P_{2}, \ldots,P_{K}\right)^{\mathrm{T}} \] というベクトルを定義すると \[ \overrightarrow{\mathrm{E}} \left[\overrightarrow{\mathcal{S}} \right] = n\overrightarrow{P} \] とも書ける。 同じように考え$S_{a}-2=U_{a},\ s_{a}-2=u_{a},\ O=N-2,\ o = n-2$と置くことで \[ \binom{O}{o} = \sum_{u_{1}+u_{2}+\cdots+u_{a}+\cdots+u_{K}=o} \binom{U_{1}}{u_{1}} \binom{U_{2}}{u_{2}} \cdots \binom{U_{a}}{u_{a}} \cdots \binom{U_{K}}{u_{K}}. \] つまり \[ \binom{N-2}{n-2} = \sum_{ \substack{s_{1}+s_{2}+\cdots+s_{a}-2+\cdots+s_{K}=n-2 \\s_{a} \neq 0,\ 1}} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{a}-2}{s_{a}-2} \cdots \binom{S_{K}}{s_{K}} \] を得る。依って二次の階乗積率は \begin{align} \mathrm{E}[S_{a}(S_{a}-1)] &= \frac{1}{\binom{N}{n}} \sum_{ \substack{s_{1}+s_{2}+\cdots+s_{a}+\cdots+s_{K}=n }} s_{a}(s_{a}-1) \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{a}}{s_{a}} \cdots \binom{S_{K}}{s_{K}} \notag\\ &= S_{a}(S_{a}-1) \frac{1}{\binom{N}{n}} \sum_{ \substack{s_{1}+s_{2}+\cdots+s_{a}-2+\cdots+s_{K}=n-2 \\s_{a} \neq 0,\ 1}} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{a}-2}{s_{a}-2} \cdots \binom{S_{K}}{s_{K}} \notag\\ &= n(n-1) \frac{S_{a}(S_{a}-1) }{N(N-1)}\notag \end{align} を得る。分散は \begin{align} \mathrm{V}[\mathcal{S}_{a}] &= \mathrm{E}[\mathcal{S}_{a}(\mathcal{S}_{a}-1)]+\mathrm{E}[\mathcal{S}_{a}]-\left(\mathrm{E}[\mathcal{S}_{a}]\right)^{2} \notag\\ &=n\frac{N-n}{N-1} \frac{S_{a}}{N} \frac{N-S_{a}}{N} \notag \end{align} である。共分散を求める。$T_{b}-1=S_{b}$として$(1+x)^{O}$を展開し比較すると$\binom{O}{o}$は \[ \binom{O}{o} = \sum_{t_{1}+t_{2}+\cdots+t_{a}+\cdots+t_{b}+\cdots+t_{K}=o } \binom{T_{1}}{t_{1}} \binom{T_{2}}{t_{2}}\cdots \binom{T_{a}}{t_{a}}\cdots \binom{T_{b}}{t_{b}}\cdots \binom{T_{K}}{t_{K}} \] となり、 \[ \binom{N-2}{n-2} = \sum_{ \substack{s_{1}+s_{2}+\cdots+s_{a}-1+\cdots+s_{b}-1+\cdots+s_{K}=n-2 \\ s_{a} \neq 0,\ s_{b} \neq 0}} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}}\cdots \binom{S_{a}-1}{s_{a}-1}\cdots \binom{S_{b}-1}{s_{b}-1}\cdots \binom{S_{K}}{s_{K}} \] となることから二変数の期待値は \begin{align} E\left[\mathcal{S}_{a}\mathcal{S}_{b}\right] &= \frac{1}{\binom{N}{n}}S_{a}S_{b} \sum_{ \substack{s_{1}+s_{2}+\cdots+s_{a}-1+\cdots+s_{b}-1+\cdots+s_{K}=n-2 \\ s_{a} \neq 0,\ s_{b} \neq 0}} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}}\cdots \binom{S_{a}-1}{s_{a}-1}\cdots \binom{S_{b}-1}{s_{b}-1}\cdots \binom{S_{K}}{s_{K}} \notag\\ &= \frac{S_{a}S_{b} }{\binom{N}{n}} \binom{N-2}{n-2} \notag\\ &= n(n-1) \frac{S_{a} S_{b}}{N(N-1)} \notag \end{align} となり、共分散は \begin{align} \mathrm{Cov}\left[\mathcal{S}_{a},\ \mathcal{S}_{b}\right] &= E\left[\mathcal{S}_{a}\mathcal{S}_{b}\right]- \mathrm{E}[\mathcal{S}_{a}]\mathrm{E}[\mathcal{S}_{b}] \notag\\ &=-n\frac{N-n}{N-1} \frac{S_{a}}{N} \frac{S_{b}}{N} \notag \end{align} である。分散、共分散は共に引数を変えても同様に計算できる。故に分散共分散行列は \begin{align} \mathrm{Var}\left[\overrightarrow{\mathcal{S}}\right] &= n\frac{N-n}{N-1} \begin{pmatrix} \frac{S_{1}}{N} \frac{N-S_{1}}{N} & -\frac{S_{1}}{N} \frac{S_{2}}{N} & \cdots & -\frac{S_{1}}{N} \frac{S_{K}}{N} \\ -\frac{S_{2}}{N} \frac{S_{1}}{N} & \frac{S_{2}}{N} \frac{N-S_{2}}{N} & \cdots & -\frac{S_{2}}{N} \frac{S_{K}}{N} \\ \vdots & \vdots & \ddots & \vdots \\ -\frac{S_{K}}{N} \frac{S_{1}}{N} & -\frac{S_{K}}{N} \frac{S_{2}}{N} & \cdots & \frac{S_{K}}{N} \frac{N-S_{K}}{N} \\ \end{pmatrix}\notag\\ &= n\frac{N-n}{N-1} \begin{pmatrix} \frac{S_{1}}{N} -\frac{S_{1}}{N}\frac{S_{1}}{N} & -\frac{S_{1}}{N} \frac{S_{2}}{N} & \cdots & -\frac{S_{1}}{N} \frac{S_{K}}{N} \\ -\frac{S_{2}}{N} \frac{S_{1}}{N} & \frac{S_{2}}{N} -\frac{S_{2}}{N} \frac{S_{2}}{N} & \cdots & -\frac{S_{2}}{N} \frac{S_{K}}{N} \\ \vdots & \vdots & \ddots & \vdots \\ -\frac{S_{K}}{N} \frac{S_{1}}{N} & -\frac{S_{K}}{N} \frac{S_{2}}{N} & \cdots & \frac{S_{K}}{N} -\frac{S_{K}}{N} \frac{S_{K}}{N} \\ \end{pmatrix} \notag\\ &= n\frac{N-n}{N-1} \left\{ \begin{pmatrix} \frac{S_{1}}{N} & 0 & \cdots & 0 \\ 0 & \frac{S_{2}}{N} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \frac{S_{K}}{N} \\ \end{pmatrix} - \begin{pmatrix} \frac{S_{1}}{N}\frac{S_{1}}{N} & \frac{S_{1}}{N} \frac{S_{2}}{N} & \cdots & \frac{S_{1}}{N} \frac{S_{K}}{N} \\ \frac{S_{2}}{N} \frac{S_{1}}{N} & \frac{S_{2}}{N} \frac{S_{2}}{N} & \cdots & \frac{S_{2}}{N} \frac{S_{K}}{N} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{S_{K}}{N} \frac{S_{1}}{N} & \frac{S_{K}}{N} \frac{S_{2}}{N} & \cdots & \frac{S_{K}}{N} \frac{S_{K}}{N} \\ \end{pmatrix} \right\} \notag\\ &= \frac{N-n}{N-1} \left\{ n \begin{pmatrix} \frac{S_{1}}{N} & 0 & \cdots & 0 \\ 0 & \frac{S_{2}}{N} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \frac{S_{K}}{N} \\ \end{pmatrix} - \frac{n^{2}}{n} \begin{pmatrix} \frac{S_{1}}{N}\frac{S_{1}}{N} & \frac{S_{1}}{N} \frac{S_{2}}{N} & \cdots & \frac{S_{1}}{N} \frac{S_{K}}{N} \\ \frac{S_{2}}{N} \frac{S_{1}}{N} & \frac{S_{2}}{N} \frac{S_{2}}{N} & \cdots & \frac{S_{2}}{N} \frac{S_{K}}{N} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{S_{K}}{N} \frac{S_{1}}{N} & \frac{S_{K}}{N} \frac{S_{2}}{N} & \cdots & \frac{S_{K}}{N} \frac{S_{K}}{N} \\ \end{pmatrix} \right\} \notag\\ &= \frac{N-n}{N-1}\left\{ \mathrm{diag} \left(\overrightarrow{\mathrm{E}} \left[\overrightarrow{\mathcal{S}} \right]\right) - \frac{1}{n} \overrightarrow{\mathrm{E}} \left[\overrightarrow{\mathcal{S}} \right]\overrightarrow{\mathrm{E}} \left[\overrightarrow{\mathcal{S}} \right]^{\mathrm{T}} \right\} \notag\\ &= \frac{N-n}{N-1}n \left\{\mathrm{diag} \left(\overrightarrow{P}\right) -\overrightarrow{P}\overrightarrow{P}^{\mathrm{T}} \right\}\notag \end{align} である。

確率母関数を求める。一変数の場合と同じく二種類の表記がある。まず係数抽出記号を用いた表記を求める。定義より \begin{align} G(\overrightarrow{t}) &=\mathrm{E}[ t_{1}^{\mathcal{S}_{1}}t_{2}^{\mathcal{S}_{2}} \cdots t_{K}^{\mathcal{S}_{K}}] \notag\\ &=\sum_{s_{1}+\cdots+s_{K}=n} t_{1}^{s_{1}} t_{2}^{s_{2}} \cdots t_{K}^{s_{K}} f(\overrightarrow{s}) \notag\\ &= \frac{1}{\binom{N}{n} } \sum_{s_{1}+\cdots+s_{K}=n} \binom{S_{1}}{s_{1}} t_{1}^{s_{1}} \binom{S_{2}}{s_{2}} t_{2}^{s_{2}} \cdots \binom{S_{K}}{s_{K}} t_{K}^{s_{K}} \notag\\ &= \frac{1}{\binom{N}{n}} \sum_{s_{1}+\cdots+s_{K}=n} \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} t_{i}^{s_{i}} \notag \end{align} となり、$\prod_{i=1}^{K} (1+t_{i}x)^{S_{i}}$を展開すると \begin{align} &\prod_{i=1}^{K} (1+t_{i}x)^{S_{i}} \notag\\ &=(1+t_{1}x)^{S_{1}} (1+t_{2}x)^{S_{2}} \cdots (1+t_{K}x)^{S_{K}} \notag\\ &= \left\{ \binom{S_{1}}{0} t_{1}^{0} x^{0}+\binom{S_{1}}{1} t_{1}^{1}x^{1}+\cdots+\binom{S_{1}}{S_{1}} t_{1}^{S_{1}} x^{S_{1}} \right\} \times \left\{ \binom{S_{2}}{0} t_{2}^{0} x^{0}+\binom{S_{2}}{1}t_{2}^{1} x^{1}+\cdots+\binom{S_{2}}{S_{2}} t_{2}^{S_{2}} x^{S_{2}} \right\} \times \cdots\notag\\ &\times \left\{ \binom{S_{K}}{0}t_{K}^{0} x^{0}+\binom{S_{K}}{1}t_{K}^{1} x^{1}+\cdots+\binom{S_{K}}{S_{K}} t_{K}^{S_{K}} x^{S_{K}} \right\} \notag\\ &=\cdots+ \left\{ \binom{S_{1}}{n}t_{1}^{n} \binom{S_{2}}{0}t_{2}^{0} \cdots \binom{S_{K}}{0}t_{K}^{0} +\binom{S_{1}}{n-1}t_{1}^{n-1} \binom{S_{2}}{1}t_{2}^{1} \cdots \binom{S_{K}}{0}t_{K}^{0} \cdots \right\}x^{n}+\cdots\notag\\ &=\cdots+ \left\{ \sum_{s_{1}+\cdots+s_{K}=n} \binom{S_{1}}{s_{1}} t_{1}^{s_{1}} \binom{S_{2}}{s_{2}} t_{2}^{s_{2}} \cdots \binom{S_{K}}{s_{K}} t_{K}^{s_{K}} \right\}x^{n}+\cdots\notag \end{align} となる。 つまり \[ [x^{n}]\prod_{i=1}^{K} (1+t_{i}x)^{S_{k}} =\sum_{s_{1}+\cdots+s_{K}=n} \binom{S_{1}}{s_{1}} t_{1}^{s_{1}} \binom{S_{2}}{s_{2}} t_{2}^{s_{2}} \cdots \binom{S_{K}}{s_{K}} t_{K}^{s_{K}} \] である。以上より確率母関数は \begin{align} G(\overrightarrow{t}) =\mathrm{E}[ t_{1}^{\mathcal{S}_{1}}t_{2}^{\mathcal{S}_{2}} \cdots t_{K}^{\mathcal{S}_{K}}] =\frac{1}{\binom{N}{n} }[x^{n}]\prod_{i=1}^{K} (1+t_{i}x)^{S_{i}}\notag \end{align} である。これを$t_{a}$で偏微分すると \begin{align} \frac{\partial }{\partial t_{a}} G(\overrightarrow{t}) =\mathrm{E}[\mathcal{S}_{a} t_{1}^{\mathcal{S}_{1}}t_{2}^{\mathcal{S}_{2}} \cdots t_{a}^{\mathcal{S}_{a}} \cdots t_{K}^{\mathcal{S}_{K}}] = \frac{S_{a}}{\binom{N}{n} } [x^{n}] x (1+t_{a}x)^{S_{a}-1} \prod_{\substack{i=1 \\ i \neq a}}^{K} (1+t_{i}x)^{S_{i}} \notag \end{align} となり \begin{align} \frac{\partial }{\partial t_{a}} &\left. G(\overrightarrow{t}) \right|_{\overrightarrow{1}} \notag\\ &=\mathrm{E}[\mathcal{S}_{a} ] \notag\\ &= \frac{S_{a}}{\binom{N}{n} } [x^{n}] x (1+1 \cdot x)^{S_{a}-1} \prod_{\substack{i=1 \\ i \neq a}}^{K} (1+1 \cdot x)^{S_{i}} \notag\\ &= \frac{S_{a}}{\binom{N}{n}}[x^{n}] x \left\{ \binom{S_{a}-1}{0} x^{0}+\binom{S_{a}-1}{1} x^{1}+\cdots+\binom{S_{a}-1}{S_{a}-1} x^{S_{a}-1} \right\} \notag\\ &\times \left\{ \binom{S_{1}}{0} x^{0}+\binom{S_{1}}{1} x^{1}+\cdots+\binom{S_{1}}{S_{1}} x^{S_{1}} \right\} \times \left\{ \binom{S_{2}}{0} x^{0}+\binom{S_{2}}{1} x^{1}+\cdots+\binom{S_{2}}{S_{2}} x^{S_{2}} \right\} \times\cdots \notag\\ &\times \left\{ \binom{S_{K}}{0} x^{0}+\binom{S_{K}}{1} x^{1}+\cdots+\binom{S_{K}}{S_{K}} x^{S_{K}} \right\} \notag\\ &= \frac{S_{a}}{\binom{N}{n}}[x^{n}] x \left[ \cdots+ \left\{ \sum_{s_{1}+s_{2}+\cdots+s_{a}-1+\cdots+s_{K}=n-1} \binom{S_{1}}{s_{1}} \binom{S_{2}}{s_{2}} \cdots \binom{S_{a}-1}{s_{a}-1} \cdots \binom{S_{K}}{s_{K}} \right\}x^{n-1}+\cdots \right]\notag\\ &= \frac{S_{a}}{\binom{N}{n}} \binom{N-1}{n-1} \notag\\ &= n\frac{S_{a}}{N} \notag \end{align} となる。 続いて超幾何関数を用いて確率母関数を書き表す。まず 多変量超幾何関数 を定義する。 \[ F_{D}^{(K)}(a;\overrightarrow{b}/c;\overrightarrow{t}) := \sum_{x_{1}=0}^{\infty}\cdots \sum_{x_{K} = 0}^{\infty} \frac{ a^{\overline{x}} }{ c^{\overline{x}} } \prod_{i=1}^{K} b_{i}^{\overline{x_{i}}} \frac{t_{i}^{x_{i}}}{x_{i}!} \] これに$a=-n,\ b_{i}=-S_{i},\ c=N-n+1,x_{i}=s_{i}$を代入すると \[ F_{D}^{(K)}(-n;-\overrightarrow{S}\ /\ N-n+1;\overrightarrow{t}) = \sum_{s_{1}=0}^{\infty}\cdots \sum_{s_{K} = 0}^{\infty} \frac{ (-n)^{\overline{s}} }{ (N-n+1)^{\overline{s}} } \prod_{i=1}^{K} (-S_{i})^{\overline{s_{i}}} \frac{t_{i}^{s_{i}}}{s_{i}!} \] となる。個別に零から無限まで総和を取るのは和を取り、それを零から無限まで総和を取るのと等しいため \[ F_{D}^{(K)}(-n;-\overrightarrow{S}\ /\ N-n+1;\overrightarrow{t}) = \sum_{r=0}^{\infty} \sum_{s_{1}+\cdots+s_{K} = r} \frac{ (-n)^{\overline{s}} }{ (N-n+1)^{\overline{s}} } \prod_{i=1}^{K} (-S_{i})^{\overline{s_{i}}} \frac{t_{i}^{s_{i}}}{s_{i}!} \] とも書ける。この外側の総和が$n=n$のときの値は係数抽出記号を用いて \[ [x^{n}] F_{D}^{(K)}(-n;-\overrightarrow{S}\ /\ N-n+1;\overrightarrow{t}) = \sum_{s_{1}+\cdots+s_{K} = n} \frac{ (-n)^{\overline{s}} }{ (N-n+1)^{\overline{s}} } \prod_{i=1}^{K} (-S_{i})^{\overline{s_{i}}} \frac{t_{i}^{s_{i}}}{s_{i}!} \] と書けるが、ここでは係数抽出記号を使わない書き方をする。 元々の確率母関数の式 \begin{align} G(\overrightarrow{t}) &=\mathrm{E}[t_{1}^{\mathcal{S}_{1}}t_{2}^{\mathcal{S}_{2}} \cdots t_{K}^{\mathcal{S}_{K}}] \notag\\ &= \frac{1}{\binom{N}{n}} \sum_{s_{1}+\cdots+s_{K}=n} \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} t_{i}^{s_{i}} \notag \end{align} は \[ \binom{N}{n} =\frac{N(N-1)\cdots(N-n+1)}{n(n-1)\cdots(n-n+1)} =\frac{N(N-1)\cdots(N-n+1) }{(-1)^{n} (-n)(-n+1)\cdots(-1)} =\frac{(N-n+1)^{\overline{n}}}{(-1)^{n}(-n)^{\overline{n}}} \] と \[ \binom{S_{i}}{s_{i}} =\frac{S_{i}(S_{i}-1)\cdots(S_{i}-s_{i}+1)}{s_{i}!} =\frac{(-1)^{s_{i}}(-S_{i})(-S_{i}+1)\cdots(-S_{i}+s_{i}-1)}{s_{i}!} =\frac{(-1)^{s_{i}}(-S_{i}^{\overline{s_{i}}})}{s_{i}!} \] とから \begin{align} G(\overrightarrow{t}) &=\mathrm{E}[ t_{1}^{\mathcal{S}_{1}}t_{2}^{\mathcal{S}_{2}} \cdots t_{K}^{\mathcal{S}_{K}}] \notag\\ &= \frac {(-1)^{n} (-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} \sum_{s_{1}+\cdots+s_{K}=n} \prod_{i=1}^{K} \frac{(-1)^{s_{i}}(-S_{i})^{\overline{s_{i}}}}{s_{i}!} t_{i}^{s_{i}} \notag\\ &= \frac {(-1)^{n} (-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} (-1)^{s_{1}+\cdots+s_{K}} \sum_{s_{1}+\cdots+s_{K}=n} \prod_{i=1}^{K} \frac{ (-S_{i})^{\overline{s_{i}}}}{s_{i}!} t_{i}^{s_{i}} \notag\\ &= \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} \sum_{s_{1}+\cdots+s_{K}=n} \prod_{i=1}^{K} \frac{ (-S_{i})^{\overline{s_{i}}}}{s_{i}!} t_{i}^{s_{i}} \notag\\ &= \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} B_{n} \notag \end{align} となる。但し \[ B_{n}(\overrightarrow{t}) := \sum_{s_{1}+\cdots+s_{K}=n} \prod_{i=1}^{K} \frac{ (-S_{i})^{\overline{s_{i}}}}{s_{i}!} t_{i}^{s_{i}} \] とした。また途中$s_{1}+\cdots+s_{K}=n$より$(-1)^{n+s_{1}+\cdots+s_{K}}=(-1)^{2n}=1$とした。ここで多変量超幾何関数の$\overrightarrow{t}$に$u\overrightarrow{t}$を代入した式を$F(u,\overrightarrow{t})$とも表すことにすると \begin{align} F(u,\overrightarrow{t}) &= F_{D}^{(K)}(-n;-\overrightarrow{S}/N-n+1; u\overrightarrow{t}) \notag\\ &= \sum_{r=0}^{\infty} \sum_{s_{1}+\cdots+s_{K} = r} \frac{ (-n)^{\overline{r}} }{ (N-n+1)^{\overline{r}} } \prod_{i=1}^{K} (-S_{i})^{\overline{s_{i}}} \frac{(ut_{i})^{s_{i}}}{s_{i}!} \notag\\ &= \sum_{r=0}^{\infty} \frac{ (-n)^{\overline{r}} }{ (N-n+1)^{\overline{r}} } \left( \sum_{s_{1}+\cdots+s_{K} = r} \prod_{i=1}^{K} (-S_{i})^{\overline{s_{i}}} \frac{t_{i}^{s_{i}}}{s_{i}!} \right)u^{s_{1}+\cdots+s_{K}} \notag\\ &= \sum_{r=0}^{\infty} \frac{(-n)^{\overline{r}} }{(N-n+1)^{\overline{r}}} B_{r}(\overrightarrow{t}) u^{r} \notag \end{align} となる。総和記号を使わない表記では \[ F(u,\overrightarrow{t}) = \frac {(-n)^{\overline{0}}} {(N-n+1)^{\overline{0}}} B_{0}(\overrightarrow{t}) u^{0} + \cdots + \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} B_{n}(\overrightarrow{t}) u^{n} + \cdots \] となる。故に$u^{n}$の係数は \[ \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} B_{n}(\overrightarrow{t}) \] である。ここで多変量超幾何関数は \[ F(u,\overrightarrow{t}) = \sum_{r=0}^{\infty} c_{r} u^{r} =c_{0}u^{0}+c_{1}u^{1}+c_{2}u^{2}\cdots+c_{n}u^{n}+c_{n+1}u^{n+1}+\cdots \] と展開できるとする。これを$u$で偏微分すると \begin{align} &\frac{\partial }{\partial u} F(u,\overrightarrow{t}) =c_{1}+2c_{2}u^{1}+\cdots+c_{n}nu^{n-1}+c_{n+1}(n+1)u^{n}+\cdots \notag\\ &\frac{\partial^{2} }{\partial u^{2}} F(u,\overrightarrow{t}) =2c_{2}+\cdots+c_{n}nu^{n-1}+c_{n+1}(n+1)u^{n}+\cdots \notag\\ &\ \ \ \vdots \notag\\ &\frac{\partial^{n} }{\partial u^{n}} F(u,\overrightarrow{t}) =c_{n}n^{\underline{n}}+c_{n+1}(n+1)^{\underline{n}}u^{1}+\cdots \notag \end{align} となる。$n^{\underline{n}}=n!$であるため、$u=0$のときのものを$n!$で割ると \[ c_{n} = \frac{1}{n!} \left. \frac{\partial^{n} }{\partial u^{n}} F(u,\overrightarrow{t}) \right|_{u=0} \] となる。二種類の$u^{n}$の係数を比較すると \[ c_{n} = \frac{1}{n!} \left. \frac{\partial^{n} }{\partial u^{n}} F(u,\overrightarrow{t}) \right|_{u=0} = \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} B_{n}(\overrightarrow{t}) \] となる。この右辺は確率母関数の右辺と等しいため \begin{align} G(\overrightarrow{t}) &=\mathrm{E}[ t_{1}^{\mathcal{S}_{1}}t_{2}^{\mathcal{S}_{2}} \cdots t_{K}^{\mathcal{S}_{K}}] \notag\\ &= \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} B_{n}(\overrightarrow{t}) \notag\\ &= \frac{1}{n!} \left. \frac{\partial^{n} }{\partial u^{n}} F_{D}^{(K)}(-n;-\overrightarrow{S}/N-n+1; u\overrightarrow{t}) \right|_{u=0} \notag \end{align} となる。これが多変量超幾何関数を用いた表し方である。 $\overrightarrow{t}=\overrightarrow{1}$のとき \begin{align} \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} B_{n}(\overrightarrow{1}) &= \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}}\sum_{s_{1}+\cdots+s_{K}=n} \prod_{i=1}^{K} \frac{ (-S_{i})^{\overline{s_{i}}}}{s_{i}!} 1^{s_{i}} \notag\\ &= \frac{(-1)^{n} n!}{N^{\underline{n}}} (-1)^{n} \binom{S_{1}+\cdots+S_{K}}{n} \notag\\ &= \frac{1}{\binom{N}{n} }\binom{N}{n} \notag\\ &= 1 \notag \end{align} となるため \begin{align} G(\overrightarrow{1}) &=1 \notag\\ &= \frac {(-n)^{\overline{n}}} {(N-n+1)^{\overline{n}}} B_{n}(\overrightarrow{1}) \notag\\ &= \frac{1}{n!} \left. \frac{\partial^{n} }{\partial u^{n}} F_{D}^{(K)}(-n;-\overrightarrow{S}/N-n+1; u\overrightarrow{1}) \right|_{u=0} \notag \end{align} と分かる。更にこの結果から \[ \frac{1}{n!} = \frac{1}{ \left. \frac{\partial^{n} }{\partial u^{n}} F_{D}^{(K)}(-n;-\overrightarrow{S}/N-n+1; u\overrightarrow{1}) \right|_{u=0} } \] とも分かる。偏微分を$\partial_{u}$と略記すると確率母関数は \begin{align} G(\overrightarrow{t}) &=\mathrm{E}[ t_{1}^{\mathcal{S}_{1}}t_{2}^{\mathcal{S}_{2}} \cdots t_{K}^{\mathcal{S}_{K}}] \notag\\ &= \left. \frac{ \partial^{n}_{u} F_{D}^{(K)}(-n;-\overrightarrow{S}/N-n+1; u\overrightarrow{t}) }{ \partial^{n}_{u} F_{D}^{(K)}(-n;-\overrightarrow{S}/N-n+1; u\overrightarrow{1}) } \right|_{u=0} \notag \end{align} とも書ける。$B_{n}(\overrightarrow{t})$を$t_{j}$で偏微分すると \begin{align} \frac{\partial}{\partial t_{j}} B_{n}(\overrightarrow{t}) &= \sum_{s_{1}+\cdots+s_{K}=n} \prod_{\substack{i=1 \\ i \neq j}}^{K} \frac{ (-S_{i})^{\overline{s_{i}}}}{s_{i}!} t_{i}^{s_{i}} \frac{ (-S_{j})^{\overline{s_{j}}}}{s_{j}!} s_{j} t_{j}^{s_{j}-1} \notag\\ &= \sum_{s_{1}+\cdots+s_{j}-1+\cdots+s_{K}=n-1} S_{j} \prod_{\substack{i=1 \\ i \neq j}}^{K} \binom{S_{i}}{s_{i}} t_{i}^{s_{i}} \binom{S_{j}-1}{s_{j}-1} t_{j}^{s_{j}-1} \notag \end{align} となるため \begin{align} \frac{\partial}{\partial t_{j}} B_{n}(\overrightarrow{1}) &= \sum_{s_{1}+\cdots+s_{j}-1+\cdots+s_{K}=n-1} S_{j} \prod_{\substack{i=1 \\ i \neq j}}^{K} \binom{S_{i}}{s_{i}} \binom{S_{j}-1}{s_{j}-1} \notag\\ &= (-1)^{n} S_{j} \binom{S_{1}+\cdots+S_{j}-1+\cdots+S_{K}}{n-1}\notag\\ &= (-1)^{n} S_{j} \binom{N-1}{n-1} \notag \end{align} となる。これより期待値は \[ \left. \frac{\partial }{\partial t_{j}}G(\overrightarrow{t}) \right|_{\overrightarrow{1}} =\mathrm{E}[S_{j}] = \frac{(-1)^{n} n! (N-n)!}{N!} (-1)^{n} S_{j} \binom{N-1}{n-1} = n \frac{S_{j}}{N} \] となる。分散などは省略する。

確率質量関数は多項係数を用いて \begin{align} \frac{1}{\binom{N}{n}} \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} &= \frac{n!}{N(N-1)\cdots (N-n+1)} \prod_{i=1}^{K} \frac{S_{i}(S_{i}-1)\cdots(S_{i}-s_{i}+1)}{s_{i}!} \notag\\ &= \frac{n!}{s_{1}! \cdots s_{K}!} \prod_{i=1}^{K} \frac{S_{i}^{\underline{s_{i}}}} {N^{\underline{n}}} \notag\\ &= \binom{n}{s_{1},\ldots,s_{K}} \prod_{i=1}^{K} \frac{S_{i}^{\underline{s_{i}}}} {N^{\underline{n}}} \notag \end{align} と書ける。ここまでで得た多項分布、多変量超幾何分布の主な値を表にまとめる。この表の$(N-n)/(N-1)$は有限母集団修正と呼ばれ$N$が大きくなると一になる。

多変量超幾何分布と多項分布と
多変量超幾何分布 多項分布
確率質量関数 $ \binom{n}{s_{1},\ldots,s_{K}} \prod_{i=1}^{K} \frac{S_{i}^{\underline{s_{i}}}}{N^{\underline{n}}} $ $ \binom{n}{s_{1},\ldots,s_{K}} \prod_{i=1}^{K} p_{i}^{s_{i}} $
期待値 $nP_{a}$ $np_{a}$
期待値ベクトル $n\overrightarrow{P}$ $n\overrightarrow{p}$
分散 $\frac{N-n}{N-1} nP_{a}(1-P_{a})$ $np_{a}(1-p_{a})$
共分散 $- \frac{N-n}{N-1} nP_{a}P_{b}$ $-np_{a}p_{b}$
分散共分散行列 $ \frac{N-n}{N-1}\, n\left\{ \mathrm{diag}(\overrightarrow{P}) - \overrightarrow{P}\overrightarrow{P}^{\mathrm{T}} \right\} $ $ n\left\{ \mathrm{diag}(\overrightarrow{p}) - \overrightarrow{p}\overrightarrow{p}^{\mathrm{T}} \right\} $
$\frac{N-n}{N-1} \left\{ \mathrm{diag}(\overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{S}}]) - \frac{1}{n} \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{S}}] \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{S}}]^{\mathrm T} \right\}$ $\mathrm{diag}(\overrightarrow{\mathrm{E}}[\overrightarrow{S}]) -\frac1n \overrightarrow{\mathrm{E}}[\overrightarrow{S}] \overrightarrow{\mathrm{E}}[\overrightarrow{S}]^{\mathrm T}$
最後に多変量超幾何分布から多項分布を求める。$N,\ S_{i}$は充分大きく$N-n+1\simeq N,\ S_{i}-s_{i}+1 \simeq S_{i}$と近似できるとする。このとき確率質量関数は \begin{align} \frac{1}{\binom{N}{n}} \prod_{k=1}^{K} \binom{S_{k}}{s_{k}} &= \binom{n}{s_{1},\ldots,s_{K}} \prod_{i=1}^{K} \frac{S_{i}^{\underline{s_{i}}}} {N^{\underline{n}}} \notag\\ & \simeq \binom{n}{s_{1}, \ldots, s_{K} } \prod_{i=1}^{K} \frac{S_{i}^{s_{i}}}{N^{n}} \notag\\ &= \binom{n}{s_{1}, \ldots, s_{K} } \frac{S_{1}^{s_{1}} S_{2}^{s_{2}} \cdots S_{K}^{s_{K}}} {N^{s_{1}+s_{2}+\cdots+s_{K}}} \notag\\ &=\binom{n}{s_{1},s_{2},\ldots,s_{K}} \prod_{i=1}^{K} \left(\frac{S_{i}}{N}\right)^{s_{i}} \notag \end{align} と書け、$N,S_{i}$が無限大になるとき$P_{i}=S_{i}/N \to p_{i}$となるならば \begin{align} \lim_{\substack{N \to \infty \\ S_{i} \to \infty}} \frac{1}{\binom{N}{n}} \prod_{k=1}^{K} \binom{S_{k}}{s_{k}} = \binom{n}{s_{1},s_{2},\ldots,s_{K}} \prod_{k=1}^{K} p_{k}^{s_{k}} \notag \end{align} となる。期待値、分散の近似は同様に計算すればいい。