Rhys' Blog

高斯分布

2019-11-16

假设数据集$X = (\chi_1, \chi_2, …,\chi_N)^T $,该数据集有N个数据样本,每个数据样本$\chi_i$是一个p维向量,$\chi_i \in R^p$。数据服从一维高斯分布,

$$
\chi_i \sim N(\mu, \sigma)
$$

参数$\theta$是关于$\mu$和$\sigma$的分布参数

$$
\theta = (\mu, \sigma)
$$

用极大似然估计求解$\theta_{MLE}$

$$
\underset{\theta}{\mathrm{argmax}} = P(x|\theta)
$$

模型表达式为

$$
p(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}
$$

求对数似然

$$
\begin{equation}\begin{split}
\log p(x) &= log \prod_{i=1}^{N}p(x_i|\theta)\\
&=\sum_{i=1}^{N} \log p(x_i | \theta)\\
&=\sum_{i=1}^{N} \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\
&=\sum_{i=1}^{N}[\log \frac{1}{\sqrt{2\pi}} + \log \frac{1}{\sigma} - \frac{(x-\mu)^2}{2\sigma^2}]
\end{split}\end{equation}
$$

对原函数来说,需要找到一个$\mu$使得函数的值最大

$$
\begin{equation}\begin{split}
\mu_{MLE} &= \underset{\mu}{\mathrm{argmax}} \log p(x | \theta) \\
&= \underset{\mu}{\mathrm{argmax}} \sum_{i=1}^{N}- \frac{(x_i - \mu)^2}{2\sigma^2} \\
&= \underset{\mu}{\mathrm{argmin}} \sum_{i=1}^{N} (x_i - \mu)^2
\end{split}\end{equation}
$$

对该式求偏导,令偏导等于0,得到

$$
\begin{equation}\begin{split}
-2\sum_{i=1}^{N}(x_i - \mu) &= 0 \\
N\mu &= \sum_{i=1}^{N} x_i \\
\mu &= \frac{1}{N} \sum_{i=1}^{N} x_i
\end{split}\end{equation}
$$