成功の種類は一種類であり、失敗の種類が$K$種類であり、合わせて計$K+1$種類あるとする。つづいて試行回数は$n$回とし、終了条件を成功が$s$回に達することとする。負の二項分布と同じく最後の試行は$n$番目であり、それは$s$回目の当たりである。それまでの組み合わせは多項係数$\binom{n-1}{s-1,l_{1},l_{2},\ldots,l_{K}}$を用いて表せる。失敗の確率をそれぞれ下の添え字で表すとし、成功については$p$とする。一種類目の失敗が$l_{1}$回、二種類目の失敗が$l_{2}$回などと起こり、この回数については$n=s+l_{1}+l_{2}+\cdots+l_{K}$という関係が成り立つ。また$1=p+q_{1}+\cdots+q_{K}$である。
[
f(\overrightarrow{l})
=
\binom{n-1}{s-1,l_{1},l_{2},\ldots,l_{K}}
p^{s-1} q_{1}^{l_{1}} q_{2}^{l_{2}} \cdots q_{K}^{l_{K}} \cdot p
=
\binom{s-1+l_{1}+l_{2}+\cdots+l_{K}}{s-1,l_{1},l_{2},\ldots,l_{K}} p^{s} \prod_{i=1}^{K} q_{i}^{l_{i}}
]
が負の多項分布の確率質量関数である。幾何分布、負の二項分布では確率変数を試行回数$n$とするものと失敗回数$l$とするものとがあった。こちらは失敗回数$l$である。また、この式は成功回数$s$とそれぞれの確率が事前に定まっていることから別の記法を用いて
$\mathrm{NMult}(\overrightarrow{l} | p,\overrightarrow{q}, s)$と表すこともする。今まで求めた二項係数、多項係数、負の二項分布の確率質量関数と書き並べると
\begin{align}
&\mathrm{Bin}(s | p,n)=\binom{n}{s} p^{s} (1-p)^{n-s} \notag\
&\mathrm{Mult}(\overrightarrow{s} | \overrightarrow{p},n)=\binom{n}{s_{1},\ldots,s_{K}} \prod_{i=1}^{K} p_{i}^{s_{i}} \notag\
&\mathrm{NBin}(l | p,s)=\binom{l+s-1}{l} p^{s} q^{l} \notag\
&\mathrm{NMult}(\overrightarrow{l} |p, \overrightarrow{q}, s)
=\binom{s-1+l_{1}+l_{2}+\cdots+l_{K}}{s-1,l_{1},l_{2},\ldots,l_{K}}
p^{s} \prod_{i=1}^{K} q_{i}^{l_{i}} \notag
\end{align}
となる。この確率質量関数の総和が一になることを確かめる。負の多項分布は成功回数$s$が終了条件であり、固定されている。失敗$l_{1}$が一度も起こらない場合もあれば、無限大に多く起こった後に$s$回目の当たりが起こることもありうるため、総和は全ての失敗について零から無限までの和とする。これは負の多項展開定理より
\begin{align}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
f(\overrightarrow{l})
&=
p^{s}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
\binom{s-1+l_{1}+l_{2}+\cdots+l_{K}}{s-1,l_{1},l_{2},\ldots,l_{K}}
\prod_{i=1}^{K} q_{i}^{l_{i}} \notag\
&=
p^{s}
\Bigg(1-\Big(q_{1}+\cdots+q_{K}\Big)\Bigg)^{-s} \notag\
&=
p^{s}
p^{-s} \notag\
&=
1\notag
\end{align}
となる。
第$a (a=1,2,\ldots,K)$成分の期待値を求める。総和は上記と同じ設定にする。
\begin{align}
\mathrm{E}[L_{a}]
&=
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
l_{a} f(\overrightarrow{l}) \notag
\end{align}
これは$l_{a}=0$のとき零となるため総和から$l_{a}=0$の場合を外してよい。
\begin{align}
\mathrm{E}[L_{a}]
&=0+
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=1}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
l_{a} \frac{(s-1+l_{1}+\cdots+l_{a}+\cdots+l_{K})!}{(s-1)!l_{1}!\cdots l_{a}!\cdots l_{K}!} p^{s} \prod_{i=1}^{K} q_{i}^{l_{i}}\notag\
&=
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
\frac{(s-1+l_{1}+\cdots+l_{a}+\cdots+l_{K})!}
{(s-1)!l_{1}!\cdots (l_{a}-1)!\cdots l_{K}!} p^{s} q_{1}^{l_{1}} \cdots q_{a}^{l_{a}} \cdots q_{K}^{l_{K}}\notag\
&=
s q_{a}p^{s}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{\lambda_{a}=0}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
\frac{ (s+l_{1}+\cdots+\lambda_{a}+\cdots+l_{K})! }{
s!l_{1}!\cdots \lambda_{a}!\cdots l_{K}!} q_{1}^{l_{1}} \cdots q_{a}^{\lambda_{a}} \cdots q_{K}^{l_{K}}\notag\
&=
s q_{a}p^{s}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{\lambda_{a}=0}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
\frac{ (\sigma-1+l_{1}+\cdots+\lambda_{a}+\cdots+l_{K})! }{
(\sigma-1)!l_{1}!\cdots \lambda_{a}!\cdots l_{K}!} q_{1}^{l_{1}} \cdots q_{a}^{\lambda_{a}} \cdots q_{K}^{l_{K}}\notag
\end{align}
となる。途中$\lambda_{a}=l_{a}-1,\sigma=s+1$とした。負の多項定理を用いると
[
\mathrm{E}[L_{a}]
=
s q_{a} p^{s} \Big(1-(q_{1}+\cdots+q_{K})\Big)^{-\sigma}
=
s q_{a} p^{s} \Big(1-(q_{1}+\cdots+q_{K})\Big)^{-s-1}
]
となる。各確率は
[
1=p+q_{1}+\cdots+q_{K}
]
であるため
[
\mathrm{E}[L_{a}]
=
\frac{s}{p }q_{a}
]
となる。これはベクトルを用いて
[
\overrightarrow{\mathrm{E}}[\overrightarrow{L}]
=\frac{s}{p} \overrightarrow{q}
]
と纏められる。但し
\begin{align}
\overrightarrow{\mathrm{E}}[\overrightarrow{L}]
=
\begin{pmatrix}
\mathrm{E}[L_{1}] \
\mathrm{E}[L_{2}] \
\vdots \
\mathrm{E}[L_{K}]
\end{pmatrix}
,\ \ \ \
\overrightarrow{q}
=
\begin{pmatrix}
q_{1} \
q_{2} \
\vdots \
q_{K}
\end{pmatrix}
,\ \ \ \overrightarrow{l}
=
\begin{pmatrix}
l_{1} \
l_{2} \
\vdots \
l_{K}
\end{pmatrix}
\notag
\end{align}
とした。$s$を$x_{0}$とすると英語版 Wikipedia の
Negative multinomial distribution
の期待値(Mean)になる。こちらは成功を$s$、失敗を$\overrightarrow{l}$としたが、どちらも$\overrightarrow{x}$で纏める記法の方が、成功失敗の区別がなく、特定の要素が一定回数起こると終了になるためより汎用的である。こちらはこれまでの記述との一体性を重視した。
分散を求めるため一次の階乗積率から求める。
\begin{align}
\mathrm{E}[L_{a}(L_{a}-1)]
&=0+0+
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=2}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
l_{a}(l_{a}-1) \frac{(s-1+l_{1}+\cdots+l_{a}+\cdots+l_{K})!}{(s-1)!l_{1}!\cdots l_{a}!\cdots l_{K}!} p^{s} \prod_{i=1}^{K} q_{i}^{l_{i}}\notag\
&=
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=2}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
\frac{(s-1+l_{1}+\cdots+l_{a}+\cdots+l_{K})!}
{(s-1)!l_{1}!\cdots (l_{a}-2)!\cdots l_{K}!} p^{s} q_{1}^{l_{1}} \cdots q_{a}^{l_{a}} \cdots q_{K}^{l_{K}}\notag\
&=
(s+1)s q_{a}^2 p^{s}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{\lambda'{a}=0}^{\infty} \cdots \sum
\frac{ (s+1+l_{1}+\cdots+\lambda'}=0}^{\infty{a}+\cdots+l{
(s+1)!l_{1}!\cdots \lambda'})! {a}!\cdots l^{\lambda'}!} q_{1}^{l_{1}} \cdots q_{a{a}} \cdots q\notag\
&=
(s+1)s q_{a}^2 p^{s}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{\lambda'}^{l_{K}{a}=0}^{\infty} \cdots \sum
\frac{ (\sigma'-1+l_{1}+\cdots+\lambda'}=0}^{\infty{a}+\cdots+l{
(\sigma'-1)!l_{1}!\cdots \lambda'})! {a}!\cdots l^{\lambda'}!} q_{1}^{l_{1}} \cdots q_{a{a}} \cdots q\notag
\end{align}
となる。途中$\lambda'}^{l_{K}{a}=l-2,\sigma'=s+2$とした。負の多項定理を用いると
[
\mathrm{E}[L_{a}(L_{a}-1)]=\frac{(s+1)s}{p^{2}} q_{a}^{2}
]
となる。故に分散は
[
\mathrm{Var}[L_{a}]=\mathrm{E}[L_{a}(L_{a}-1)]+\mathrm{E}[L_{a}]-\left(\mathrm{E}[L_{a}]\right)^{2}
=
\frac{(s+1)s}{p^{2}}q_{a}^{2}+\frac{s}{p}q_{a}-\left(
\frac{s}{p}q_{a}
\right)^{2}
=
s\frac{q_{a}(q_{a}+p)}{p^{2}}
]
である。
共分散を求める。まず異なる二変数の期待値を求める。
\begin{align}
\mathrm{E}[L_{a}L_{b}]
&=
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots \sum_{l_{b}=0}^{\infty}\cdots \sum_{l_{K}=0}^{\infty}
l_{a} l_{b} f(\overrightarrow{l}) \notag\
&=0+0+
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=1}^{\infty} \cdots \sum_{l_{b}=1}^{\infty}\cdots \sum_{l_{K}=0}^{\infty}
l_{a} l_{b}
\frac
{(s-1+l_{1}+\cdots+l_{a}+\cdots+l_{b}+\cdots+l_{K})!}
{(s-1)!l_{1}!\cdots l_{a}!\cdots l_{K}!} p^{s} \prod_{i=1}^{K} q_{i}^{l_{i}}\notag\
&=
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=1}^{\infty} \cdots \sum_{l_{b}=1}^{\infty}\cdots \sum_{l_{K}=0}^{\infty}
\frac{(s-1+l_{1}+\cdots+l_{a}+\cdots+l_{K})!}
{(s-1)!l_{1}!\cdots (l_{a}-1)!\cdots(l_{b}-1)!\cdots l_{K}!}
p^{s} q_{1}^{l_{1}} \cdots q_{a}^{l_{a}} \cdots q_{K}^{l_{K}}\notag\
&=
(s+1)s q_{a}q_{b}p^{s}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{\lambda_{a}=0}^{\infty} \cdots \sum_{\lambda_{b}=0}^{\infty}\cdots \sum_{l_{K}=0}^{\infty}
\frac{ (s+l_{1}+\cdots+\lambda_{a}+\cdots+\lambda_{b}+\cdots+l_{K})! }{
s!l_{1}!\cdots \lambda_{a}!\cdots \lambda_{b}! \cdots l_{K}!}
q_{1}^{l_{1}} \cdots q_{a}^{\lambda_{a}} \cdots q_{K}^{l_{K}}\notag\
&=
(s+1)s q_{a}q_{b} p^{s}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{\lambda_{a}=0}^{\infty} \cdots \sum_{\lambda_{b}=0}^{\infty}\cdots \sum_{l_{K}=0}^{\infty}
\frac{ (\sigma-1+l_{1}+\cdots+\lambda_{a}+\cdots+\lambda_{b}+\cdots+l_{K})! }{
(\sigma-1)!l_{1}!\cdots \lambda_{a}!\cdots\lambda_{b}! \cdots l_{K}!}
q_{1}^{l_{1}} \cdots q_{a}^{\lambda_{a}} \cdots q_{K}^{l_{K}}\notag\
&=
(s+1)s\frac{q_{a}q_{b}}{p^{2}} \notag
\end{align}
となる。途中$\lambda_{b}=l_{b}-1$とした。故に
[
\mathrm{Cov}[L_{a},L_{b}]
=\mathrm{E}[(L_{a}-\mathrm{E}[L_{a}])(L_{b}-\mathrm{E}[L_{b}])]
=\mathrm{E}[L_{a}L_{b}]-\mathrm{E}[L_{a}]\mathrm{E}[L_{b}]
=
s \frac{q_{a}q_{b}}{p^{2}}
]
である。分散共分散行列は
\begin{align}
\mathrm{Var}[\overrightarrow{L}]
&=
\begin{pmatrix}
\mathrm{Var}[L_{1}] & \mathrm{Cov}[L_{1},L_{2}] & \cdots & \mathrm{Cov}[L_{1},L_{K}] \
\mathrm{Cov}[L_{2},L_{1}] & \mathrm{Var}[L_{2}] & \cdots & \mathrm{Cov}[L_{2},L_{K}] \
\vdots & \vdots & \ddots & \vdots \
\mathrm{Cov}[L_{K},L_{1}] & \mathrm{Cov}[L_{K},L_{2}] & \cdots & \mathrm{Var}[L_{K}] \
\end{pmatrix}
\notag\
&=
\frac{s}{p^{2}}
\begin{pmatrix}
q_{1}^2+p q_{1} & q_{1}q_{2} & \cdots & q_{1}q_{K} \
q_{2}q_{1} & q_{2}^{2}+pq_{2} & \cdots & q_{2}q_{K} \
\vdots & \vdots & \ddots & \vdots \
q_{K}q_{1} & q_{K}q_{2} & \cdots & q_{K}^{2}+pq_{K} \
\end{pmatrix} \notag\
&=
\frac{s}{p}
\begin{pmatrix}
q_{1} & 0 & \cdots & 0 \
0 & q_{2} & \cdots & 0 \
\vdots & \vdots & \ddots & \vdots \
0 & 0 & \cdots & q_{K} \
\end{pmatrix}+
\frac{s}{p^{2}}
\begin{pmatrix}
q_{1}q_{1} & q_{1}q_{2} & \cdots & q_{1}q_{K} \
q_{2}q_{1} & q_{2}q_{2} & \cdots & q_{2}q_{K} \
\vdots & \vdots & \ddots & \vdots \
q_{K}q_{1} & q_{K}q_{2} & \cdots & q_{K}q_{K} \
\end{pmatrix}
\notag\
&=
\frac{s}{p} \mathrm{diag} \left(\overrightarrow{q} \right)+
\frac{s}{p^{2}}\overrightarrow{q}\overrightarrow{q}^{\mathrm{T}}
\notag\
&=
s
\left{
\mathrm{diag} \left(\frac{\overrightarrow{q}}{p}\right) +
\left(\frac{\overrightarrow{q}}{p}\right)
\left(\frac{\overrightarrow{q}}{p}\right)^{\mathrm{T}}
\right}\notag\
&=
\mathrm{diag} \left(
\overrightarrow{\mathrm{E}}[\overrightarrow{L}]
\right)
+
\frac{1}{s}
\overrightarrow{\mathrm{E}}[\overrightarrow{L}]
\overrightarrow{\mathrm{E}}[\overrightarrow{L}]^{\mathrm{T}}
\notag
\end{align}
である。試行回数を確率変数とするときは線形性より
\begin{align}
\mathrm{E}[N]
&=\mathrm{E}[s+L_{1}+\cdots+L_{K}] \notag\
&=\mathrm{E}[s]+\mathrm{E}[L_{1}]+\cdots+\mathrm{E}[L_{K}] \notag\
&=s+\frac{s}{p}q_{1}+\cdots+\frac{s}{p} q_{K} \notag\
&=\frac{s}{p}(p+q_{1}+\cdots+q_{K}) \notag\
&=\frac{s}{p} \notag
\end{align}
となる。分散は
\begin{align}
\mathrm{Var}[N]
&=
E\left[ \Big(s+L_{1}+\cdots+L_{K}-\big(\mathrm{E}[s]+\mathrm{E}[L{1}]+\cdots+\mathrm{E}[L_{K}]\big)\Big)^{2} \right] \notag\
&=
\sum_{a=1}^{K} \mathrm{E}[(L_{a}-\mathrm{E}[L_{a}])^{2}]
+\sum_{a \neq b} \mathrm{E}[(L_{a}-\mathrm{E}[L_{a}])(L_{b}-\mathrm{E}[L_{b}])] \notag\
&=
\sum_{a=1}^{K} \mathrm{Var}[L_{a}]+\sum_{a \neq b} \mathrm{Cov}[L_{a},L_{b}] \notag\
&=
\sum_{a=1}^{K}
s\frac{q_{a}(q_{a}+p)}{p^{2}}+
\sum_{a \neq b} s \frac{q_{a}q_{b}}{p^{2}} \notag\
&=
\frac{s}{p^{2}}
\Big(
\sum_{a=1}^{K} q_{a}^{2}
+ \sum_{a \neq b} q_{a}q_{b}
+ p \sum_{a=1}^{K} q_{a}
\Big) \notag\
&=
\frac{s}{p^{2}}
\Big{
\sum_{a=1}^{K} q_{a}^{2}
+ \sum_{a \neq b} q_{a}q_{b}
\Big}
+
\frac{s}{p^2}p\sum_{a=1}^{K} q_{a} \notag\
&=
\frac{s}{p^{2}}
\Big{
q_{1}^{2} +\cdots+q_{K}^{2}+ \big(q_{1}q_{2}+\cdots+q_{K}q_{K-1} \big)
\Big}
+
\frac{s}{p^2} p \big(q_{1}+\cdots+q_{K}\big) \notag\
&=
\frac{s}{p^{2}}
\Big{
q_{1}+\cdots+q_{K}
\Big}^{2}+
\frac{s}{p^2} p\big(q_{1}+\cdots+q_{K}\big) \notag\
&=
\frac{s}{p^{2}} \Big{1-p \Big}^{2}+
\frac{s}{p^{2}} p \Big(1-p \Big) \notag\
&=
\frac{s}{p^{2}}
\Big(1-2p+p^{2}+p-p^{2} \Big) \notag\
&=
\frac{s}{p^{2}}(1-p) \notag
\end{align}
となる。失敗回数を確率変数とすると負の二項分布と異なるが、試行回数については、負の二項分布の値
[
\text{期待値}=\frac{s}{p},\ \ \ \text{分散}=s\frac{1-p}{p^2}
]
と一致する。
失敗回数を確率変数とする確率母関数を求める。負の多項定理より
\begin{align}
G(\overrightarrow{t})
&=\mathrm{E}[t_{1} ^{L_{1}} \cdots t_{K} ^{L_{K}}] \notag\
&=
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
t_{1}^{l_{1}} \cdots t_{K}^{l_{K}} f(\overrightarrow{l}) \notag\
&=
p^{s}
\sum_{l_{1}=0}^{\infty} \cdots \sum_{l_{a}=0}^{\infty} \cdots \sum_{l_{K}=0}^{\infty}
\binom{s-1+l_{1}+l_{2}+\cdots+l_{K}}{s-1,l_{1},l_{2},\ldots,l_{K}}
(q_{1}t_{1})^{l_{1}} \cdots (q_{K}t_{K})^{l_{K}} \notag\
&=
p^{s}
\Bigg(1-\Big(q_{1}t_{1}+\cdots+q_{K}t_{K}\Big)\Bigg)^{-s} \notag\
&=
\left(\frac{p
}{1-\big(q_{1}t_{1}+\cdots+q_{K}t_{K}\big)}\right)^{s} \notag
\end{align}
である。偏微分すると
\begin{align}
\frac{\partial}{\partial t_{a}} G(\overrightarrow{t})
&=
\mathrm{E}[L_{a} t_{1} ^{L_{1}} \cdots t_{a}^{L_{a} -1 } \cdots t_{K} ^{L_{K}}] \notag\
&=
p^{s} (-s)(-q_{a}) \Bigg(1-\Big(q_{1}t_{1}+\cdots+q_{K}t_{K}\Big)\Bigg)^{-s-1} \notag\
&=\frac{s}{p}q_{a} \left( \frac{p}{1-\big(q_{1}t_{1}+\cdots+q_{K}t_{K}\big)} \right)^{s+1} \notag
\end{align}
となる。$\overrightarrow{t}$に$\overrightarrow{1}=(1,1,\ldots,1)^{\mathrm{T}}$を代入すると
\begin{align}
\left. \frac{\partial}{\partial t_{a}} G(\overrightarrow{t}) \right|{\overrightarrow{1}}
&=
\mathrm{E}[L] \notag\
&=
\frac{s}{p} q_{a} \left( \frac{p}{1-\big(q_{1}+\cdots+q_{a}+\cdots+q_{K}\big)} \right)^{s+1} \notag\
&=
\frac{s}{p}q_{a} \notag
\end{align}
となる。二階微分は
\begin{align}
\frac{\partial^{2}}{\partial t_{a}^{2}} G(\overrightarrow{t})=
\mathrm{E}[L_{a}(L_{a}-1) t_{1} ^{L_{1}} \cdots t_{a}^{L_{a}-2} \cdots t_{K} ^{L_{K}}]
=\frac{s(s+1)}{p^{2}} q_{a}^{2} \left( \frac{p}{1-\big(q_{1}t_{1}+\cdots+q_{K}t_{K}\big)} \right)^{s+2} \notag
\end{align}
となるため
\begin{align}
\left. \frac{\partial^{2}}{\partial t_{a}^{2}} G(\overrightarrow{t})\right|{\overrightarrow{1}}
=
\mathrm{E}[L-1)]
=\frac{s(s+1)}{p^{2}}q_{a}^{2} \notag
\end{align}
となる。異なる$t$の要素で一階ずつ偏微分すると
\begin{align}
\frac{\partial^{2}}{\partial t_{a}\partial t_{b}}
G(\overrightarrow{t})
&=
\mathrm{E}[L_{a}L_{b} t_{1} ^{L_{1}} \cdots t_{a}^{L_{a} -1 } \cdots t_{b}^{L_{b}-1}\cdots t_{K} ^{L_{K}}] \notag\
&=
\frac{(s+1)s}{p^{2}}q_{a}q_{b}
\left( \frac{p}{1-\big(q_{1}t_{1}+\cdots+q_{K}t_{K}\big)} \right)^{s+2} \notag
\end{align}
となり、
\begin{align}
\left.
\frac{\partial^{2}}{\partial t_{a}\partial t_{b}}
G(\overrightarrow{t})
\right|}(L_{a{\overrightarrow{1}}
=
\mathrm{E}[L]
=
\frac{(s+1)s}{p^{2}}q_{a}q_{b} \notag
\end{align}
となる。}L_{b