この確率分布については情報がほとんど見当たらない。私の知る限り扱いのある出版物はDiscrete multivariate Distributionsくらいである。そのためこの章は人工知能の協力のもとに負の超幾何分布の多変量版になるよう作成した。この節は書籍による裏付けは無いことを踏まえて読むこと。
Discrete multivariate Distributionsには負の多変量超幾何分布と訳しうる確率分布として
"multivariate inverse hypergeometric distributions"
"multivariate negative hypergeometric distributions"
"multivariate negative inverse hypergeometric distributions"
の三種類があり、二番目を訳すと『多変量負の超幾何分布』とするべきかもしれないし、実際に他にもその名の確率分布を解説する資料もある。参考 渋谷政昭著
孤立個体数の推測
但し、こちらの記述との相違点もあるため『負の多変量超幾何分布』と呼ぶことにする。
多変量超幾何分布の拡張として、特定の籤を$s$回引くと終了にする確率分布を考える。通常の多変量超幾何分布の確率質量関数 \[ \mathrm{MHG}(\overrightarrow{s}|\overrightarrow{S},N,n) = f(\overrightarrow{s}) = \frac{1}{\binom{N}{n}} \prod_{i=1}^{K} \binom{S_{i}}{s_{i}} \] は総積記号の引数は一から始まるが、ここではその特別なものとして零番目を加える。この$s_{0}$が特定の回数に達することを終了条件とする。 \[ \mathit{MHG}(\overrightarrow{s}| \overrightarrow{S},N,s_{0}) = f(\overrightarrow{s}) = \frac{1}{\binom{N}{n}} \prod_{i=0}^{K} \binom{S_{i}}{s_{i}} \] 多変量超幾何分布は$n$回の試行での得られた成功回数の組$\overrightarrow{s}$が確率変数である。負の多変量超幾何分布は負の超幾何分布と同じく一種類の成功が$s$回に達するまでの試行における 一以上での$S_{i},\ s_{i}$は終了と関わらないため外れと見做し $L_{i},\ l_{i}$と書くことにし、この組を$\overrightarrow{L},\ \overrightarrow{l}$と書くことにする。また、このとき$S,\ s$は$S_{0},\ s_{0}$しかないため添え字を省略する。 \[ \mathit{MHG}(\overrightarrow{l}| \overrightarrow{L},N,s) = f(\overrightarrow{l}) = \frac{1}{\binom{N}{n}} \binom{S}{s} \prod_{i=1}^{K} \binom{L_{i}}{l_{i}} \] この式は当たりを$s$回引いたときの外れの組$\overrightarrow{l}$の確率質量関数と解せる。 総積記号の外について \[ \frac{\binom{S}{s}}{\binom{N}{n}} = \frac {\frac{S!}{s!(S-s)!} \times \frac{(N-S)!}{(n-s)!(N-S-(n-s))!}} {\frac{N!}{n!(N-n)!} \times \frac{(N-S)!}{(n-s)!(N-S-(n-s))!}} =\frac{ \frac{n!}{s!(n-s)!} \times \frac{(N-n)!}{(S-s)!((N-S)-(n-s))!} }{ \frac{N!}{S!(N-S)!} \times \frac{(N-S)!}{(n-s)!((N-S)-(n-s))!} } = \frac{ \binom{n}{s} \times \binom{N-n}{S-s} }{ \binom{N}{S} \times \binom{N-S}{n-s} } \] と書けるため \[ \mathit{MHG}(\overrightarrow{l}| \overrightarrow{L},N,s) = f(\overrightarrow{l}) = \frac{\binom{n}{s} \binom{N-n}{S-s}}{\binom{N}{S}} \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{N-S}{n-s}} \] とも書ける。$\binom{n}{s} \binom{N-n}{S-s}$は引く籤の数$n$から当たり$s$を引く組み合わせと引かない籤$N-n$と引かない当たり籤$S-s$との組み合わせを掛けたものと見做せる。負の多変量超幾何分布は$n$回目に$s$回目の当たりを引くため固定順を考慮すると、この部分は $\binom{n-1}{s-1} \binom{N-n}{S-s}$と書き換える。また$N-S=L_{1}+\cdots+L_{K}:=L,\ n-s=l_{1}+\cdots+l_{K}:=l$であるため負の多変量超幾何分布の確率質量関数は \[ \mathrm{NMHG}(\overrightarrow{l}|\overrightarrow{L},\overrightarrow{S},s) = f(\overrightarrow{l}) = \frac{\binom{n-1}{s-1} \binom{N-n}{S-s}}{\binom{N}{S}} \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{L}{l}} \] である。 負の超幾何分布に於いて \[ \mathrm{NHG}(n|S,N,s) = \frac{s}{n} \times \mathrm{HG}(s|S,N,n) \] を \begin{align} &P(\text{非復元抽出で最後に当たりを引く} \cap \text{非復元抽出で$n$回引き$s$回当たりを引く}) \notag\\ &= P(\text{非復元抽出で$n$回引き$s$回当たりを引く}) \notag\\ &\times P(\text{非復元抽出で最後に当たりを引く} | \text{非復元抽出で$n$回引き$s$回当たりを引く}) \notag \end{align} という条件付き確率と解釈した。同じように \[ \frac{s}{n} \binom{n}{s} = \frac{s}{n} \frac{n!}{s!(n-s)!} = \frac{(n-1)!}{(s-1)!((n-1)-(s-1))!}=\binom{n-1}{s-1} \] より \[ \mathrm{NMHG}(\overrightarrow{l}|\overrightarrow{L},\overrightarrow{S},s) = \frac{s}{n} \mathrm{MHG}(\overrightarrow{l}|\overrightarrow{L},N,s) \] という関係式が出てくる。これを \begin{align} &P(\text{非復元抽出で最後に当たりを引く} \cap \text{非復元抽出で$s$回当たりを引くときの外れの組$\overrightarrow{l}$を引く}) \notag\\ &= P(\text{非復元抽出で最後に当たりを引く} | \text{非復元抽出で$s$回当たりを引くときの外れの組$\overrightarrow{l}$を引く}) \notag\\ &\times P(\text{非復元抽出で$s$回当たりを引くときの外れの組$\overrightarrow{l}$を引く})\notag \end{align} と解釈する。負の超幾何分布ではこの式で確率質量関数の総和が一であることを確かめたが、今回は異なる式変形から確かめる。 負の超幾何分布の確率質量関数は \[ \mathrm{NHG}(l|L,S,s) = \frac{\binom{l+s-1}{l} \binom{S+L-s-l}{S-s}}{\binom{S+L}{S}} = \frac{ \binom{n-1}{s-1} \binom{N-n}{S-s} }{ \binom{N}{S} } \] であり多変量超幾何分布の確率質量関数の成功$S,s$を$L,l$で書き直したもの \[ \mathrm{MHG}(\overrightarrow{l} | \overrightarrow{L} ,L,l) = \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{L}{l}} \] を用いると\footnote{$n$は各$s$の和$n=s_{1}+\cdots+s_{K}$であるため$l=l_{1}+\cdots+l_{K}$で置き換えた。また$N=S_{1}+\cdots+S_{K}$も$L=L_{1}+\cdots+L_{K}$とした。}、この式は \[ \mathrm{NMHG}(\overrightarrow{l}|\overrightarrow{L},\overrightarrow{S},s) = \mathrm{NHG}(l|L,S,s) \times \mathrm{MHG}(\overrightarrow{l} | \overrightarrow{L},L,l) \] という関係が成り立つ。$\mathrm{NHG}$で$s$回当たりを引くまでに引いた外れの総数$l$を表し、 $\mathrm{MHG}$で外れの総数$l$を前提としてその内訳$\overrightarrow{l}=(l_{1},\ldots,l_{K})^{\mathrm{T}}$を表していると解釈できる。 確率質量関数の総和が一であることを確かめる。それぞれで零から無限までの総和をとることは、内側で$l$となる$l$の組を求めて、それを外側で零から無限までの総和を取ることと等しいため \begin{align} \sum_{l_{1}=0}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} \mathrm{NMHG}(\overrightarrow{l}) &= \sum_{l=0}^{\infty} \sum_{l_{1}+\cdots+l_{K}=l} \mathrm{NHG}(l|L,S,s) \times \mathrm{MHG}(\overrightarrow{l} | \overrightarrow{L},L,l) \notag\\ &= \sum_{l=0}^{\infty} \mathrm{NHG}(l|L,S,s) \times \sum_{l_{1}+\cdots+l_{K}=l} \mathrm{MHG}(\overrightarrow{l} | \overrightarrow{L},L,l) \notag \end{align} となる。二番目の項は多項定理より \begin{align} \sum_{l_{1}+\cdots+l_{K}=l} \mathrm{MHG}(\overrightarrow{l} | \overrightarrow{L},L,l) = \frac{1}{\binom{L}{l}} \sum_{l_{1}+\cdots+l_{K}=l} \prod_{i=1}^{K} \binom{L_{i}}{l_{i}} = 1 \notag \end{align} となる。詳しい計算過程は多変量超幾何分布の総和の式の導出での$N=S_{1}+\cdots+S_{K}$を$L=L_{1}+\cdots+L_{K}$で置き換えれば成り立つ。一番目の項はヴァンデルモンドの式を用いれば \[ \sum_{l=0}^{\infty} \frac{\binom{l+s-1}{l} \binom{S+L-s-l}{S-s}}{\binom{S+L}{S}} = 1 \] となる。これは負の超幾何分布の総和の式を参考にすればいい。以上より \[ \sum_{l_{1}=0}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} \mathrm{NMHG}(\overrightarrow{l}) = 1 \] である。
期待値を求める。 $ l_{i = a}=\lambda_{i = a}+1,\ L_{i = a}=\Lambda_{i = a}+1,\ l_{i \neq a}=\lambda_{i \neq a},\ L_{i \neq a}=\Lambda_{i \neq a}$と変換する。この総和は \begin{align} &\lambda=\sum_{i=1}^{K} \lambda_{i}=l_{1}+\cdots+l_{a}-1+\cdots+l_{K}=l-1 \notag\\ &\Lambda=\sum_{i=1}^{K} \Lambda_{i}=L_{1}+\cdots+L_{a}-1+\cdots+L_{K}=L-1 \notag \end{align} となることから \begin{align} \mathrm{E}[\mathcal{L}_{a}] &= \sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} l_{a} \mathrm{NMHG}(\overrightarrow{l}) \notag\\ &= 0+ \sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=1}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} l_{a} \frac{\binom{s+l-1}{l} \binom{S+L-s-l}{S-s}}{\binom{S+L}{S}} \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{L}{l}}\notag\\ &= \sum_{\lambda_{1}=0}^{\infty} \cdots \sum_{\lambda_{a}=0}^{\infty} \cdots\sum_{\lambda_{K}=0}^{\infty} L_{a} \frac{\binom{s+\lambda}{l} \binom{S+L-s-\lambda-1}{S-s}}{\binom{S+L}{S}} \frac{\prod_{i=1}^{K} \binom{\Lambda_{i}}{\lambda_{i}} }{\binom{L}{l}} \notag\\ &= L_{a} \sum_{\lambda=0}^{\infty} \frac{\binom{s+\lambda}{l} \binom{S+L-s-\lambda-1}{S-s}}{\binom{S+L}{S}} \frac{1}{\binom{L}{l} } \sum_{\lambda_{1}+\cdots+\lambda_{K}=\lambda} \prod_{i=1}^{K} \binom{\Lambda_{i}}{\lambda_{i}}\notag\\ &= L_{a} \sum_{\lambda=0}^{\infty} \frac{\binom{s+\lambda}{l} \binom{S+L-s-1-\lambda}{S-s}}{\binom{S+L}{S}} \frac{1}{\binom{L}{l} } \binom{L-1}{l-1}\notag\\ &= L_{a} \sum_{\lambda=0}^{\infty} \frac{\binom{s+\lambda}{l} \binom{S+L-s-1-\lambda}{S-s}}{\binom{S+L}{S}} \frac{l}{L} \notag\\ &= \frac{ L_{a}} {\binom{S+L}{S}L} \sum_{\lambda=0}^{\infty} \binom{s+\lambda}{l} \binom{S+L-s-1-\lambda}{S-s} l \notag \end{align} となる。 \[ \binom{s+\lambda}{l} l = \frac{(s+\lambda)!}{l!(s+\lambda-l)!}l = \frac{(s+\lambda)!}{(l-1)!(s-1)!} = \binom{s+\lambda}{s} s \] と書き換え$\nu=s+\lambda$と置くと総和の内側は \begin{align} \sum_{\lambda=0}^{\infty} \binom{s+\lambda}{l} \binom{S+L-s-1-\lambda}{S-s} l &= \sum_{\nu=s}^{\infty} \binom{\nu}{ s } s\binom{S+L-1-\nu}{S-s} \notag\\ &= s \sum_{\nu=0}^{S+L-1} \binom{\nu}{ s } \binom{S+L-1-\nu}{S-s} \notag\\ &= s \binom{S+L-1+1}{s+S-s+1} \notag\\ &= s \binom{S+L}{S+1} \notag\\ &= s \binom{S+L}{S} \frac{L}{S+1} \notag \end{align} となる。故に \begin{align} \mathrm{E}[\mathcal{L}_{a}] &= \frac{ L_{a}} {\binom{S+L}{S}L} \sum_{\lambda=0}^{\infty} \binom{s+\lambda}{l} \binom{S+L-s-1-\lambda}{S-s} l \notag\\ &= \frac{ L_{a}} {\binom{S+L}{S}L} s\frac{\binom{S+L}{S}L}{S+1} \notag\\ &=s \frac{L_{a} }{S+1} \notag \end{align} となる。上記の計算は次のように要約できる。$\mathrm{NMHG}(\overrightarrow{l}|\overrightarrow{L},\overrightarrow{S},s)=\mathrm{NHG}(l|L,S,s)\times\mathrm{MHG}(\overrightarrow{l} | \overrightarrow{L},L,l)$より \begin{align} \mathrm{E}[\mathcal{L}_{a}] &= \sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} l_{a} \mathrm{NMHG}(\overrightarrow{l}) \notag\\ &= \sum_{l=0}^{\infty} \mathrm{NHG}(l|L,S,s) \times \sum_{l_{1}+\cdots+l_{K}=l} l_{a} \mathrm{MHG}(\overrightarrow{l} | \overrightarrow{L},L,l) \notag \end{align} であり、この右側の総和は多変量超幾何分布の期待値であるため \[ \sum_{l_{1}+\cdots+l_{K}=l} l_{a} \mathrm{MHG}(\overrightarrow{l} | \overrightarrow{L},L,l) = l\frac{L_{a}}{L} \] である。よって \begin{align} \mathrm{E}[\mathcal{L}_{a}] &= \sum_{l=0}^{\infty} \mathrm{NHG}(l|L,S,s) l\frac{L_{a}}{L} \notag \end{align} この式の$l$により総和は負の超幾何分布の期待値となるため \begin{align} \mathrm{E}[\mathcal{L}_{a}] &= s\frac{L}{S+1} \frac{L_{a}}{L} \notag\\ &= s\frac{L_{a}}{S+1} \notag \end{align} となる。
解釈については組 $\overrightarrow{l}=(l_{1},\ldots,l_{a},\ldots,l_{K})^{\mathrm{T}}$ の和$l=l_{1}+\cdots+l_{a}+\cdots+l_{K}$を前提として $\overrightarrow{l}$が定まると考えると全期待値の法則から \[ E_{\mathcal{L}_{a}} [\mathcal{L}_{a}] = E_{\mathcal{L}}[ E_{\mathcal{L}_{a}|\mathcal{L}}[ \mathcal{L}_{a}|\mathcal{L} ] ] \] と書ける。この内側の期待値は$l$を前提とした条件付き期待値でありこの確率変数は \[ \overrightarrow{l} \sim \mathrm{MHG}(\overrightarrow{L},L,l) \] 終了条件を$l$とする多変量超幾何分布と見做せ、それによって得た条件付き期待値で外側の総数$l$に関する期待値を得たと解釈できる。
いうまでもなくこうして得た期待値は負の超幾何分布の期待値 \[ \mathrm{E}[\mathcal{L}]=s\frac{L}{S+1} \] の多変数版と言っていいだろう。また、この結果から期待値ベクトルは \[ \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{L}}] = \frac{s}{S+1}\overrightarrow{L} \] といえ、更に確率ベクトル \[ \overrightarrow{Q}:=\frac{\overrightarrow{L}}{N}=\left( \frac{L_{1}}{N},\ldots,\frac{L_{K}}{N}\right)^{\mathrm{T}} \] を定義し、 \[ P=\frac{S+1}{N} \] とおくと \[ \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{L}}] = s\frac{L_{a} }{S+1}\frac{N}{N} = s \frac{\overrightarrow{Q}}{P} \] となる。
分散を求めるために一次の階乗積率を求める。 \begin{align} &\lambda'=\sum_{i=1}^{K} \lambda'_{i}=l_{1}+\cdots+l_{a}-2+\cdots+l_{K}=l-2 \notag\\ &\Lambda'=\sum_{i=1}^{K} \Lambda'_{i}=L_{1}+\cdots+L_{a}-2+\cdots+L_{K}=L-2 \notag \end{align} とすると \begin{align} \mathrm{E}[\mathcal{L}_{a}(\mathcal{L}_{a}-1)] &= \sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} l_{a}(l_{a}-1) \mathrm{NMHG}(\overrightarrow{l}) \notag\\ &= 0+ \sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=1}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} l_{a}(l_{a}-1) \frac{\binom{s+l-1}{l} \binom{S+L-s-l}{S-s}}{\binom{S+L}{S}} \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{L}{l}}\notag\\ &= \sum_{\lambda_{1}=0}^{\infty} \cdots \sum_{\lambda_{a}=0}^{\infty} \cdots\sum_{\lambda_{K}=0}^{\infty} L_{a} \frac{\binom{s+\lambda'+1}{l} \binom{S+L-s-\lambda'-2}{S-s}}{\binom{S+L}{S}} \frac{\prod_{i=1}^{K} \binom{\Lambda'_{i}}{\lambda'_{i}} }{\binom{L}{l}} \notag\\ &= L_{a}(L_{a}-1) \sum_{\lambda'=0}^{\infty} \frac{\binom{s+\lambda'+1}{l} \binom{S+L-s-\lambda'-2}{S-s}}{\binom{S+L}{S}} \frac{1}{\binom{L}{l} } \sum_{\lambda'_{1}+\cdots+\lambda'_{K}=\lambda'} \prod_{i=1}^{K} \binom{\Lambda'_{i}}{\lambda'_{i}}\notag\\ &= L_{a}(L_{a}-1) \sum_{\lambda'=0}^{\infty} \frac{\binom{s+\lambda'+1}{l} \binom{S+L-s-2-\lambda'}{S-s}}{\binom{S+L}{S}} \frac{1}{\binom{L}{l} } \binom{L-2}{l-2}\notag\\ &= L_{a}(L_{a}-1) \sum_{\lambda'=0}^{\infty} \frac{\binom{s+\lambda'+1}{l} \binom{S+L-s-2-\lambda'}{S-s}}{\binom{S+L}{S}} \frac{l(l-1)}{L(L-1)} \notag\\ &= \frac{ L_{a}(L_{a}-1)} {\binom{S+L}{S}L(L-1)} \sum_{\lambda'=0}^{\infty} \binom{s+\lambda'+1}{l} \binom{S+L-s-2-\lambda'}{S-s} l (l-1)\notag \end{align} となり、 \[ \binom{s+\lambda'+1}{l}l(l-1) = \frac{(s+\lambda'+1)!}{(l-2)!(s+\lambda'+1-l)!} \frac{s}{s}\frac{s+1}{s+1} = \binom{s+\lambda'+1}{s+1}s(s+1) \] と計算できることから$s+\lambda'+1=\mu'$と置くと総和の中は \begin{align} \sum_{\lambda'=0}^{\infty} \binom{s+\lambda'+1}{s+1} \binom{S+L-s-2-\lambda'}{S-s} l (l-1) &= \sum_{\mu'=s+1}^{\infty} \binom{\mu'}{s+1} \binom{S+L-1-\mu'}{S-s} s(s+1) \notag\\ &= s(s+1) \sum_{\mu'=0}^{S+L-1} \binom{\mu'}{s+1} \binom{S+L-1-\mu'}{S-s} \notag\\ &= (s+1)s \binom{S+L-1+1}{(s+1)+(S-s)+1} \notag\\ &= (s+1)s \binom{S+L}{S+2} \notag \end{align} となるため一次の階差は \begin{align} \mathrm{E}[\mathcal{L}_{a}(\mathcal{L}_{a}-1)] &= (s+1)s \frac{ L_{a}(L_{a}-1)} {\binom{S+L}{S}L(L-1)} \sum_{\lambda'=0}^{\infty} \binom{s+\lambda'+1}{l} \binom{S+L-s-2-\lambda'}{S-s} l (l-1)\notag\\ &= (s+1)s \frac{ L_{a}(L_{a}-1)} {\binom{S+L}{S}L(L-1)} \binom{S+L}{S+2} \notag\\ &= (s+1)s \frac{L_{a}(L_{a}-1)}{(S+2)(S+1)} \notag \end{align} である。これは負の超幾何分布の階乗積率 \[ \mathrm{E}[\mathcal{L}(\mathcal{L}-1)]=(s+1)s\frac{L(L-1)}{(S+2)(S+1)} \] に対応する。分散は \begin{align} \mathrm{Var}[\mathcal{L}_{a}] &= \mathrm{E}[\mathcal{L}_{a}(\mathcal{L}_{a}-1)]+ \mathrm{E}[\mathcal{L}_{a}]- \left(\mathrm{E}[\mathcal{L}_{a}]\right)^{2} \notag\\ &= (s+1)s \frac{L_{a}(L_{a}-1)}{(S+2)(S+1)} + s\frac{L_{a}}{S+1} - \left(s\frac{L_{a}}{S+1}\right)^{2} \notag\\ &= s\frac{L_{a}}{S+1}\left\{ (s+1)\frac{L_{a}-1}{S+2}-1+s\frac{L_{a}}{S+1} \right\} \notag\\ &= s\frac{L_{a}}{S+1}\left\{ \frac{S(sL_{a}-s+L_{a}-1)+(sL_{a}-s+L_{a}-1)+(S^{2}+3S+2)-(sSL_{a}+2s L_{a})}{(S+2)(S+1)} \right\} \notag\\ &= s\frac{L_{a}}{S+1}\left\{ \frac{S(L_{a}+S+1)-s(L_{a}+S+1)+(L_{a}+S+1)}{(S+2)(S+1)} \right\} \notag\\ &= \frac{S+1-s}{S+1+1}s\frac{L_{a}}{S+1} \frac{L_{a}+S+1}{S+1} \notag \end{align} である。これは負の超幾何分布の分散 \[ \mathrm{Var}[\mathcal{\mathcal{L}}] = \frac{S+1-s}{S+1+1}s \frac{S+1+L}{S+1} \frac{L}{S+1} \] に対応する。また \begin{align} \mathrm{Var}[\mathcal{L}_{a}] &= \frac{S+1-s}{S+1+1}s \frac{L_{a}}{S+1} \frac{L_{a}+S+1}{S+1} \notag\\ &= \frac{S+1-s}{S+1+1}s \frac{L_{a}}{S+1} \left(\frac{L_{a}}{S+1}+1\right) \notag\\ &= \frac{S+1-s}{S+1+1}s \frac{L_{a}}{S+1} \left(\frac{L_{a}}{S+1}+1\right)\notag\\ &= \frac{S+1-s}{S+1+1}s \left\{\left(\frac{L_{a}}{S+1} \right)^{2} + \frac{L_{a}}{S+1} \right\}\notag\\ &= \frac{S+1-s}{S+1+1}s \left\{\left(\frac{\frac{L_{a}}{N}}{\frac{S+1}{N}} \right)^{2} + \frac{\frac{L_{a}}{N}}{\frac{S+1}{N}} \right\}\notag\\ &= \frac{S+1-s}{S+1+1}s \left\{ \left(\frac{Q_{a}}{P}\right)^{2}+\left(\frac{Q_{a}}{P}\right) \right\} \notag\\ &= \frac{S+1-s}{S+1+1}s \left(\frac{Q_{a}}{P}\right) \left\{ \left(\frac{Q_{a}}{P}\right)+1 \right\} \notag \end{align} とも書ける。
共分散を求める。 $ l_{i = a}=\lambda_{i = a}+1,\ L_{i = a}=\Lambda_{i = a}+1,\ l_{i = b}=\lambda_{i = b}+1,\ L_{i = b}=\Lambda_{i = b}+1,\ l_{i \neq a,b}=\lambda_{i \neq a,b},\ L_{i \neq a,b}=\Lambda_{i \neq a,b}$と変換する。この総和は \begin{align} &\lambda=\sum_{i=1}^{K} \lambda_{i}=l_{1}+\cdots+l_{a}-1+\cdots+l_{b}-1+\cdots+l_{K}=l-2 \notag\\ &\Lambda=\sum_{i=1}^{K} \Lambda_{i}=L_{1}+\cdots+L_{a}-1+\cdots+L_{b}-1+\cdots+L_{K}=L-2 \notag \end{align} となることから二変数の期待値は \begin{align} \mathrm{E}[\mathcal{L}_{a}\mathcal{L}_{b}] &= \sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots \sum_{l_{b}=0}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} l_{a}l_{b} \mathrm{NMHG}(\overrightarrow{l}) \notag\\ &= 0+0+ \sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=1}^{\infty} \cdots \sum_{l_{b}=1}^{\infty} \cdots\sum_{l_{K}=0}^{\infty} l_{a}l_{b} \frac{\binom{s+l-1}{l} \binom{S+L-s-l}{S-s}}{\binom{S+L}{S}} \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{L}{l}}\notag\\ &= \sum_{\lambda_{1}=0}^{\infty} \cdots \sum_{\lambda_{a}=0}^{\infty} \cdots\sum_{\lambda_{b}=0}^{\infty} \cdots\sum_{\lambda_{K}=0}^{\infty} L_{a}L_{b} \frac{\binom{s+\lambda+1}{l} \binom{S+L-s-\lambda-2}{S-s}}{\binom{S+L}{S}} \frac{\prod_{i=1}^{K} \binom{\Lambda_{i}}{\lambda_{i}} }{\binom{L}{l}} \notag\\ &= L_{a}L_{b} \sum_{\lambda=0}^{\infty} \frac{\binom{s+\lambda+1}{l} \binom{S+L-s-2-\lambda}{S-s}}{\binom{S+L}{S}} \frac{1}{\binom{L}{l} } \binom{L-2}{l-2}\notag\\ &= \frac{ L_{a}L_{b}} {\binom{S+L}{S}L(L-1)}(s+1)s \sum_{\lambda=0}^{\infty} \binom{s+\lambda+1}{s+1} \binom{S+L-s-2-\lambda}{S-s} \notag\\ &= \frac{ L_{a}L_{b}} {\binom{S+L}{S}L(L-1)}(s+1)s \binom{S+L}{S+2}\notag\\ &= (s+1)s\frac{L_{a}L_{b}}{(S+2)(S+1)} \notag \end{align} となる。故に共分散は \begin{align} \mathrm{Cov}[\mathcal{L}_{a},\mathcal{L}_{b}] &= \mathrm{E}[\mathcal{L}_{a}\mathcal{L}_{b}]- \mathrm{E}[\mathcal{L}_{a}]\mathrm{E}[\mathcal{L}_{b}] \notag\\ &=(s+1)s\frac{L_{a}L_{b}}{(S+2)(S+1)} -s\frac{L_{a}}{S+1} s\frac{L_{b}}{S+1}\notag\\ &= \frac{S+1-s}{S+1+1} s \frac{L_{a}}{S+1} \frac{L_{b}}{S+1} \notag\\ &= \frac{S+1-s}{S+1+1} s \frac{Q_{a}}{P} \frac{Q_{b}}{P} \notag \end{align} である。分散共分散行列は \begin{align} \mathrm{Var}\left[\overrightarrow{\mathcal{L}}\right] &= \frac{S+1-s}{S+1+1} s \frac{1}{(S+1)^{2}} \begin{pmatrix} (S+1)L_{1}+L_{1}^{2} & L_{1}L_{2} & \cdots & L_{1}L_{K} \\ L_{2}L_{1} & (S+1)L_{2}+L_{2}^{2} & \cdots & L_{2}L_{K} \\ \vdots & \vdots & \ddots & \vdots \\ L_{K}L_{1} & L_{K}L_{2} & \cdots & (S+1)L_{K}+L_{K}^{2} \\ \end{pmatrix}\notag\\ &= \frac{S+1-s}{S+1+1} s \left\{ \frac{1}{(S+1)} \begin{pmatrix} L_{1} & 0 & \cdots & 0 \\ 0 & L_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & L_{K} \\ \end{pmatrix}+ \frac{1}{(S+1)^{2}} \begin{pmatrix} L_{1}L_{1} & L_{1}L_{2} & \cdots & L_{1}L_{K} \\ L_{2}L_{1} & L_{2}L_{2} & \cdots & L_{2}L_{K} \\ \vdots & \vdots & \ddots & \vdots \\ L_{K}L_{1} & L_{K}L_{2} & \cdots & L_{K}L_{K} \\ \end{pmatrix} \right\} \notag\\ &= \frac{S+1-s}{S+1+1} s \left\{ \mathrm{diag} \left(\frac{\overrightarrow{Q}}{P}\right) + \left(\frac{\overrightarrow{Q}}{P}\right) \left(\frac{\overrightarrow{Q}}{P}\right)^{\mathrm{T}} \right\} \notag\\ &= \frac{S+1-s}{S+1+1} \left\{ \mathrm{diag} \left( \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{L}}] \right) + \frac{1}{s} \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{L}}] \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{L}}]^{\mathrm{T}} \right\} \notag \end{align} である。負の多項定理での成功の確率$p$は当たりの総数$S$を籤の総数$N$でも割ったものである。非復元抽出では$N,S$が試行ごとに変わるため成功の確率$P$も試行ごとに代わるが、充分大きいとき、この変化を考慮する必要が無いため負の多変量超幾何分布での確率は$p$で一定になる。また個々のはずれの確率$\overrightarrow{Q}$も$\overrightarrow{q}$で一定となる。加えて有限母集団修正項は一になるため \[ \frac{S+1-s}{S+1+1} s \left\{ \mathrm{diag} \left(\frac{\overrightarrow{Q}}{P}\right) + \left(\frac{\overrightarrow{Q}}{P}\right) \left(\frac{\overrightarrow{Q}}{P}\right)^{\mathrm{T}} \right\} \rightarrow s \left\{ \mathrm{diag} \left(\frac{\overrightarrow{q}}{p}\right) + \left(\frac{\overrightarrow{q}}{p}\right) \left(\frac{\overrightarrow{q}}{p}\right)^{\mathrm{T}} \right\} \] となる。これは負の多項分布の分散である。期待値ベクトルも負の多項分布のものになる。
負の多変量超幾何分布と負の多項分布とで比較する。確率質量関数を \begin{align} \frac{\binom{n-1}{s-1} \binom{N-n}{S-s}}{\binom{N}{S}} \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{L}{l}} &= \frac{ \frac{(n-1)!}{(s-1)!l!} \frac{(N-n)!}{(S-s)!(L-l)!} }{ \frac{N!}{S!L!} } \frac{ \prod_{i=1}^{K} \frac{ L_{i}^{\underline{l_{i}}} }{l_{i}!} }{ \frac{ L^{\underline{l}} }{ l! }} \notag\\ &= \frac{ (n-1)! }{ (s-1)!l_{1}! \cdots l_{K}! } \frac{ S^{\underline{s}} L^{\underline{l} } l! }{ N^{\underline{n}} L^{\underline{l} } l! } \prod_{i=1}^{K} L_{i}^{\underline{l_{i}}} \notag\\ &= \binom{s-1+l_{1}+\cdots+l_{K}}{s-1,l_{1},\ldots,l_{K}} \frac{ S^{\underline{s}} \prod_{i=1}^{K} L_{i}^{\underline{l_{i}}} }{ N^{\underline{n}} } \notag \end{align} と書き換える。$N$が$n$に比べ十分大きいとき \[ N^{\underline{n}} = N(N-1)\cdots(N-n+1) \simeq N^{n} = N^{s+l_{1}+\cdots+l_{K}} \] となり、他の下降階乗項も同様に近似できるため \[ \frac{\binom{n-1}{s-1} \binom{N-n}{S-s}}{\binom{N}{S}} \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{L}{l}} \simeq \binom{s-1+l_{1}+l_{2}+\cdots+l_{K}}{s-1,l_{1},l_{2},\ldots,l_{K}} \left(\frac{S}{N}\right)^{s} \prod_{i=1}^{K} \left(\frac{L_{i}}{N}\right)^{l_{i}} \] と近似できる。母集団$N,S,L$が無限大になるとき$S/N,L_{i}/N$は確率$p,q_{i}$と見做せるため \[ \lim_{\substack{N \to \infty \\ S \to \infty \\ L \to \infty }} \frac{\binom{n-1}{s-1} \binom{N-n}{S-s}}{\binom{N}{S}} \frac{\prod_{i=1}^{K} \binom{L_{i}}{l_{i}} }{\binom{L}{l}} = \binom{s-1+l_{1}+l_{2}+\cdots+l_{K}}{s-1,l_{1},l_{2},\ldots,l_{K}} p^{s} \prod_{i=1}^{K} q_{i}^{l_{i}} \] となる。また \[ \frac{Q_{a}}{P} = \frac{L_{a}}{N} \frac{N}{S+1} \] も無限大になるとき \[ \lim_{\substack{N \to \infty \\ S \to \infty \\ L \to \infty }} \frac{Q_{a}}{P} = \frac{q_{a}}{p} \] と見做せるため多項分布の確率と一致する。また$(S+1-s)/(S+1+1)$は$S$が$s$に比べ充分大きいとき一と見做せる。これは負の有限母集団修正といえるだろう。確率母関数は省略する。
| 負の多変量超幾何分布 | 負の多項分布 | |
|---|---|---|
| 確率質量関数 | $ \binom{s-1+l_{1}+\cdots+l_{K}}{s-1,l_{1},\ldots,l_{K}} \frac{ S^{\underline{s}} \prod_{i=1}^{K} L_{i}^{\underline{l_{i}}} }{ N^{\underline{n}} } $ | $ \binom{s-1+l_{1}+l_{2}+\cdots+l_{K}}{s-1,l_{1},l_{2},\ldots,l_{K}} p^{s} \prod_{i=1}^{K} q_{i}^{l_{i}} $ |
| 期待値 | $ s\frac{Q_{a}}{P} $ | $ s\frac{q_{a}}{p} $ |
| 期待値ベクトル | $ s\frac{\overrightarrow{Q}}{P} $ | $ s\frac{\overrightarrow{q}}{p} $ |
| 分散 | $ \frac{S+1-s}{S+1+1}\, s\left(\frac{Q_{a}}{P}\right) \left\{1+\frac{Q_{a}}{P}\right\} $ | $ s\frac{q_{a}}{p} \left\{1+\frac{q_{a}}{p}\right\} $ |
| 共分散 | $ \frac{S+1-s}{S+1+1}\, s\frac{Q_{a}}{P}\frac{Q_{b}}{P} $ | $ s\frac{q_{a}}{p}\frac{q_{b}}{p} $ |
| 分散共分散行列 | $ \frac{S+1-s}{S+1+1}\, s\left\{ \mathrm{diag}\left(\frac{\overrightarrow{Q}}{P}\right) + \left(\frac{\overrightarrow{Q}}{P}\right) \left(\frac{\overrightarrow{Q}}{P}\right)^{\mathrm{T}} \right\} $ | $ s\left\{ \mathrm{diag}\left(\frac{\overrightarrow{q}}{p}\right) + \left(\frac{\overrightarrow{q}}{p}\right) \left(\frac{\overrightarrow{q}}{p}\right)^{\mathrm{T}} \right\} $ |
| $ \frac{S+1-s}{S+1+1} \left\{ \mathrm{diag} \left( \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{L}}] \right) + \frac{1}{s} \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{L}}] \overrightarrow{\mathrm{E}}[\overrightarrow{\mathcal{L}}]^{\mathrm{T}} \right\} $ | $ \left\{ \mathrm{diag} \left( \overrightarrow{\mathrm{E}}[\overrightarrow{L}] \right) + \frac{1}{s} \overrightarrow{\mathrm{E}}[\overrightarrow{L}] \overrightarrow{\mathrm{E}}[\overrightarrow{L}]^{\mathrm{T}} \right\} $ |