多項分布露分け

これまでに求めた確率質量関数は次のとおりである。 \begin{align} &f(s)=p^{s} (1-p)^{1-s} & \text{ベルヌーイ分布} \notag\\ &f(s)=\frac{n!}{s!(n-s)!} p^{s}(1-p)^{n-s} & \text{二項分布} \notag\\ &f(\overrightarrow{s})=\prod_{i=1}^{K} p_{i}^{s_{i}} & \text{カテゴリカル分布} \notag \end{align} 二項分布の式で$n=1$とすると \[ f(s)=\frac{1!}{s!(1-s)!} p^{s}(1-p)^{1-s} \] となる。これは \begin{align} &f(0)=\frac{1!}{0!1!} p^{0}(1-p)^{1}=1!\frac{p^{0}}{0!} \frac{(1-p)^{1}}{1!} =1-p \notag\\ &f(1)=\frac{1!}{1!0!} p^{1}(1-p)^{0}=1!\frac{p^{1}}{1!} \frac{(1-p)^{0}}{0!}=p \notag \end{align} となることからベルヌーイ分布と等しいことが分かる。一方でカテゴリカル分布で$K=2$とすると \[ f(\overrightarrow{s}) = \prod_{i=1}^{2} p_{i}^{s_{i}} = p_{1}^{s_{1}} p_{2}^{s_{2}} \] となる。確率の和$p_{1}+p_{2}=1$として$p_{1}=p$とすると$p_{2}=1-p$となり、またワンホットベクトルの特徴$s_{1}+s_{2}=1$より$s_{1}=s$とすると$s_{2}=1-s$となる。これを使うと \begin{align} &f(s_{1},s_{2})=f(1,0)=p \notag\\ &f(s_{1},s_{2})=f(0,1)=1-p \notag \end{align} となり、これもベルヌーイ分布に等しいことが分かる。以上より二項分布の試行回数$n$を一回にし、分類$K$を二から一般の$K$にしたものがカテゴリカル分布であり、カテゴリカル分布の分類$K$を二にし試行回数を一回から$n$にしたものが二項分布であると言える。ここで二項分布の試行回数を一般化したまま分類$K=2$を一般化するとどうなるか、カテゴリカル分布の分類を一般化したまま試行回数$n=1$を一般化するとどうなるかを考える。結論を先に述べると、これは多項分布である。この確率質量関数は \[ f(\overrightarrow{s}) =n! \prod_{i=1}^{K} \frac{p_{i}^{s_{i}} }{s_{i} !} =\frac{n!}{s_{1}!s_{2}!\cdots s_{K}!} \prod_{i=1}^{K} p_{i}^{s_{i}} =\frac{(s_{1}+s_{2}+\cdots+s_{K})!}{s_{1}!s_{2}!\cdots s_{K}!} \prod_{i=1}^{K} p_{i}^{s_{i}} \] である。ただし、この引数はベクトル$\overrightarrow{s}=(s_{1},s_{2},\ldots, s_{K})$とし、$s_{1}+s_{2}+\cdots+s_{K}=n$とする。特にカテゴリカル分布の場合は$n=1$となるため、ある次元の値以外は全て$0$となるため$0+0+\cdots+1+\cdots+0=1$となり、ワンホットベクトル $\overrightarrow{s}=(s_{1},s_{2},\ldots, s_{K})=(0,0,\ldots,1,\ldots,0)$となる。この確率質量関数の総和が一であることを示す。これは多項定理と、確率の総和$p_{1}+\cdots+p_{K}=1$が一になることとを使えば良い。 \begin{align} \sum_{s_{1}+s_{2}+\cdots+s_{K}=n} f(\overrightarrow{s}) &=\sum_{s_{1}+s_{2}+\cdots+s_{K}=n} n! \frac{ p_{1}^{s_{1}} p_{2}^{s_{2}}\cdots p_{K}^{s_{K}} }{s_{1}!s_{2}! \cdots s_{K}!} \notag\\ &= (p_{1}+p_{2}+\cdots+p_{K})^{n}\notag\\ &=1.\notag \end{align}

続いて期待値を求める。 \begin{align} \mathrm{E}[S_{l}] &=\sum_{s_{1}+\cdots+s_{l}+\cdots+s_{K}=n} s_{l} f(\overrightarrow{s})\notag\\ &= \sum_{s_{1}+\cdots+s_{l}+\cdots+s_{K}=n} s_{l} n! \frac{ p_{1}^{s_{1}} p_{2}^{s_{2}}\cdots p_{l}^{s_{l}}\cdots p_{K}^{s_{K}} }{s_{1}!s_{2}!\cdots s_{l}! \cdots s_{K}!} \notag \end{align} これは$s_{l}=0$を含む総和は零となるため \begin{align} \mathrm{E}[S_{l}] &=0+np_{l} \sum_{\substack{s_{1}+\cdots+s_{l}+\cdots+s_{K}=n \\ s_{l}>0}} (n-1)! \frac{ p_{1}^{s_{1}} p_{2}^{s_{2}}\cdots p_{l}^{s_{l}-1}\cdots p_{K}^{s_{K}} }{s_{1}!s_{2}!\cdots (s_{l}-1)! \cdots s_{K}!} \notag\\ &=np_{l} \sum_{t_{1}+\cdots+t_{l}+\cdots+t_{K}=m} m! \frac{ p_{1}^{t_{1}} p_{2}^{t_{2}}\cdots p_{l}^{t_{l}}\cdots p_{K}^{t_{K}} }{t_{1}!t_{2}!\cdots t_{i}! \cdots t_{K}!} \notag \end{align} となる。途中$s_{l}-1=t_{l},\ s_{i \neq l} =t_{i \neq l},\ n-1=m$とした。この総和も多項定理を満たすため一である。故に \[ \mathrm{E}[S_{l}]=np_{l} \] である。

分散を求める。まず二乗の期待値は \begin{align} \mathrm{E}[S_{l}^{2}] &= \sum_{\sum s_{i}=n} s_{l}^2 f(\overrightarrow{s}) \notag \\ &= 0 + np_{l} \sum_{\substack{\sum s_{i}=n \\ s_{l}>0}} \left\{ (s_{l}-1)+1 \right\} (n-1)! \frac {p_{1}^{s_{1}} p_{2}^{s_{2}}\cdots p_{l}^{s_{l}-1}\cdots p_{K}^{s_{K}}} {s_{1}!s_{2}!\cdots (s_{l}-1)! \cdots s_{K}!} \notag \\ &= np_{l} \left\{ (n-1)p_{l} \sum_{\substack{\sum s_{i}=n \\ s_{l}>1}} (n-2)! \frac {p_{1}^{s_{1}} p_{2}^{s_{2}}\cdots p_{l}^{s_{l}-2}\cdots p_{K}^{s_{K}}} {s_{1}!s_{2}!\cdots (s_{l}-2)! \cdots s_{K}!} + \sum_{\substack{\sum s_{i}=n \\ s_{l}>0}} (n-1)! \frac{p_{1}^{s_{1}} p_{2}^{s_{2}}\cdots p_{l}^{s_{l}-1}\cdots p_{K}^{s_{K}}} {s_{1}!s_{2}!\cdots (s_{l}-1)! \cdots s_{K}!} \right\}\notag\\ &= np_{l}\left\{ (n-1)p_{l}+1 \right\}\notag\\ &= n(n-1)p_{l}^2+np_{l}\notag \end{align} となるため \[ \mathrm{Var}[S_{l}]=\mathrm{E}[S_{l}^{2}]-(\mathrm{E}[S_{l}])^2= np_{l}(1-p_{l}) \] と求まる。

共分散を求める。これは \begin{align} \mathrm{E}[S_{l}S_{m}] &= \sum_{\sum s_{i}=n} s_{l}s_{m}f(\overrightarrow{s}) \notag \\ &= 0+np_{l} \sum_{\substack{\sum s_{i}=n \\ s_{l}>0}} s_{m}(n-1)! \frac{ p_{1}^{s_{1}} p_{2}^{s_{2}}\cdots p_{l}^{s_{l}-1}\cdots p_{m}^{s_{m}} \cdots p_{K}^{s_{K}} }{ s_{1}! s_{2}!\cdots (s_{l}-1)! \cdots s_{m}!\cdots s_{K}! }\notag\\ &= 0+np_{l}(n-1)p_{m} \sum_{\substack{\sum s_{i}=n \\ s_{l}>0 \\ s_{m} > 0}} (n-2)! \frac{ p_{1}^{s_{1}} p_{2}^{s_{2}}\cdots p_{l}^{s_{l}-1}\cdots p_{m}^{s_{m}-1} \cdots p_{K}^{s_{K}} }{ s_{1}!s_{2}!\cdots (s_{l}-1)! \cdots (s_{m}-1)!\cdots s_{K}! }\notag\\ &=n(n-1)p_{l}p_{m}\notag \end{align} より \[ \mathrm{Cov}[S_{l},S_{m}]= \mathrm{E}[S_{l}S_{m}]-\mathrm{E}[S_{l}]\mathrm{E}[S_{m}]=n(n-1)p_{l}p_{m}-np_{l}np_{m}=-np_{l}p_{m} \] である。

確率母関数は定義より \[ G(\overrightarrow{t}) = E\left[t_{1}^{S_{1}}\cdots t_{K}^{S_{K}}\right] = \sum_{ \sum s_{i}=n} f(\overrightarrow{s})t_{1}^{s_{1}}\cdots t_{K}^{s_{K}} = \sum_{ \sum s_{i}=n} \frac{n!}{s_{1}!\cdots s_{K}!}(p_{1}t_{1})^{s_{1}}\cdots (p_{K}t_{K})^{s_{K}} \] である。多項定理を使うと \[ G(\overrightarrow{t}) = (p_{1}t_{1}+\cdots+p_{K}t_{K})^n \] である。これを$t_{l}$で偏微分すると \[ \frac{\partial }{\partial t_{l}}G(\overrightarrow{t}) = E\left[S_{l}t_{1}^{S_{1}}\cdots t_{l}^{S_{l}-1}\cdots t_{K}^{S_{K}}\right] = np_{l}(p_{1}t_{1}+\cdots+p_{K}t_{K})^{n-1} \] となる。全ての$t$の要素が一であるとき、確率の総和は一であること$p_{1}+p_{2}+\cdots+p_{K}=1$から$(p_{1}t_{1}+\cdots+p_{K}t_{K})^{n-1}$は一になる。そのようなベクトルを$\overrightarrow{1}=(1,1,\ldots,1)^{\mathrm{T}}$と書くことにする。 \[ \left. \frac{\partial }{\partial t_{l}}G(\overrightarrow{t}) \right|_{\overrightarrow{1}} =\mathrm{E}[S_{l}] =np_{l} \] となるため期待値は等しい。また二階微分すると \begin{align} \frac{\partial^{2} }{\partial t_{l}^{2}} G(\overrightarrow{t}) =E\left[S_{l}(S_{l}-1)t_{1}^{S_{1}}\cdots t_{l}^{S_{l}-2}\cdots t_{K}^{s_{K}}\right] =n(n-1)p_{l}^{2}(p_{1}t_{1}+\cdots+p_{K}t_{K})^{n-2}\notag \end{align} となり、$\overrightarrow{1}$を代入すると \begin{align} \left. \frac{\partial^{2} }{\partial t_{l}^{2}}G(\overrightarrow{t}) \right|_{\overrightarrow{1}} =E\left[S_{l}(S_{l}-1)\right] =n(n-1)p_{l}^{2}\notag \end{align} となる。全ての値を用いると分散は \begin{align} \mathrm{Var}[S_{l}] &=\mathrm{E}[S_{l}(S_{l}-1)]+\mathrm{E}[S_{l}]-(\mathrm{E}[S_{l}])^2\notag\\ &=n(n-1)p_{l}^{2}+np_{l}-(np_{l})^2\notag\\ &=np_{l}(1-p_{l})\notag \end{align} となる。$t_{l},\ t_{m}$で偏微分すると \begin{align} \frac{\partial^{2} }{\partial t_{l} \partial t_{m}} G(\overrightarrow{t}) &=E\left[S_{l}S_{m}t_{1}^{S_{1}}\cdots s_{l}^{S_{l}-1}\cdots t_{m}^{S_{m}-1}\cdots t_{K}^{S_{k}}\right]\notag\\ &=n(n-1)p_{l}p_{m}(p_{1}t_{1}+\cdots+p_{K}t_{K})^{n-2}\notag \end{align} となり、 \[ \left. \frac{\partial^{2} }{\partial t_{l} \partial t_{m}} G(\overrightarrow{t}) \right|_{\overrightarrow{1}} =\mathrm{E}[S_{l}S_{m}]=n(n-1)p_{l}p_{m} \] であるため共分散は \[ \mathrm{Cov}[S_{l},S_{m}]=\mathrm{E}[S_{l}S_{m}]-\mathrm{E}[S_{l}]\mathrm{E}[S_{m}]=-np_{l}p_{m} \] である。これも等しい。ベルヌーイ分布、二項分布は確率変数が一種類しかないため定義できない。

多項分布の期待値、分散を多次元で表記する。カテゴリカル分布と同様に期待値ベクトルを定義する。 \begin{align} \overrightarrow{\mathrm{E}}[\overrightarrow{S}] := \begin{pmatrix} \mathrm{E}[S_{1}] \\ \mathrm{E}[S_{2}] \\ \vdots \\ \mathrm{E}[S_{K}] \\ \end{pmatrix}\notag \end{align} その値は上記の結果より \begin{align} \overrightarrow{\mathrm{E}}[\overrightarrow{S}] = \begin{pmatrix} np_{1} \\ np_{2} \\ \vdots \\ np_{K} \\ \end{pmatrix} = n \begin{pmatrix} p_{1} \\ p_{2} \\ \vdots \\ p_{K} \\ \end{pmatrix} = n \overrightarrow{p} \notag \end{align} であり、分散共分散行列は \begin{align} \mathrm{Var}\left[ \overrightarrow{S} \right] &= \begin{pmatrix} \mathrm{Var}[S_{1}] & \mathrm{Cov}[S_{1},S_{2}] & \cdots & \mathrm{Cov}[S_{1},S_{K}] \\ \mathrm{Cov}[S_{2},S_{1}] & \mathrm{Var}[S_{2}] & \cdots & \mathrm{Cov}[S_{2},S_{K}] \\ \vdots & \vdots & \ddots & \vdots \\ \mathrm{Cov}[S_{K},S_{1}] & \mathrm{Cov}[S_{K},S_{2}] & \cdots & \mathrm{Var}[S_{K}] \\ \end{pmatrix} \notag\\&= n \begin{pmatrix} p_{1}-p_{1}p_{1} & -p_{1}p_{2} & \cdots & -p_{1}p_{K} \\ -p_{2}p_{1} & p_{2}-p_{2}p_{2} & \cdots & -p_{2}p_{K} \\ \vdots & \vdots & \ddots & \vdots \\ -p_{K}p_{1} & -p_{K}p_{2} & \cdots & p_{K}-p_{K}p_{K} \\ \end{pmatrix} \notag\\ &= n \left\{ \begin{pmatrix} p_{1} & 0 & \cdots & 0 \\ 0 & p_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{K} \\ \end{pmatrix} - \begin{pmatrix} p_{1}p_{1} & p_{1}p_{2} & \cdots & p_{1}p_{K} \\ p_{2}p_{1} & p_{2}p_{2} & \cdots & p_{2}p_{K} \\ \vdots & \vdots & \ddots & \vdots \\ p_{K}p_{1} & p_{K}p_{2} & \cdots & p_{K}p_{K} \\ \end{pmatrix} \right\} \notag\\ &= n \begin{pmatrix} p_{1} & 0 & \cdots & 0 \\ 0 & p_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & p_{K} \\ \end{pmatrix} - \frac{n^{2}}{n} \begin{pmatrix} p_{1}p_{1} & p_{1}p_{2} & \cdots & p_{1}p_{K} \\ p_{2}p_{1} & p_{2}p_{2} & \cdots & p_{2}p_{K} \\ \vdots & \vdots & \ddots & \vdots \\ p_{K}p_{1} & p_{K}p_{2} & \cdots & p_{K}p_{K} \\ \end{pmatrix} \notag \end{align} であり、 \begin{align} \mathrm{Var}\left[ \overrightarrow{S} \right] = n \left\{ \mathrm{diag} \left( \overrightarrow{p} \right) - \overrightarrow{p}\ \overrightarrow{p}^{\mathrm{T}} \right\} = \mathrm{diag} \left( \overrightarrow{\mathrm{E}}[\overrightarrow{S}] \right) - \frac{1}{n} \overrightarrow{\mathrm{E}}[\overrightarrow{S}] \overrightarrow{\mathrm{E}}[\overrightarrow{S}]^{\mathrm{T}} \notag \end{align} と書ける。これはカテゴリカル分布の \[ \mathrm{Var}\left[ \overrightarrow{S} \right] = \mathrm{diag} \left( \overrightarrow{p} \right) - \overrightarrow{p}\ \overrightarrow{p}^{\mathrm{T}} = \mathrm{diag} \left( \overrightarrow{\mathrm{E}}[\overrightarrow{S}] \right) - \overrightarrow{\mathrm{E}}[\overrightarrow{S}] \overrightarrow{\mathrm{E}}[\overrightarrow{S}]^{\mathrm{T}} \] に対応する。この結果は多項分布は$n=1$のときカテゴリカル分布になることを示しているだろう。