GMM 英文全称:Gaussian Mixture Model 中文:高斯混合模型 。既然叫高斯混合模型,自然是由高斯模型混合而来。高斯模型,就是我们平时的正态分布,又名高斯分布。友情提醒:要学习理解高斯混合模型,需要中心极限定 理和极大似然估计这两个概率论背景知识。高斯混合模型,也主要是用于聚类。举这样一个例子:假设现在有两个不同的高斯分布,我们用这样的两个分布随机的生 成任意多个点,那么如何将某个点判定为属于哪一个分布?这就相当于一个聚类问题,如何将一个点分配到他应该属于的那个类中。
我们知道kmeans也可以用于聚类,那么GMM和kmeans的区别在哪里呢?在kmeans中,我们直接就得到了一个数据点,应该属于哪一个类。而在 GMM中,我们得到的结果只是某个点属于某个类的可能性大小。举个例子,比如存在这样一种情况:两个高斯分布图像存在重叠的部分,那么处于交叉部分的数据 点A,就只能是有一个属于某一个高斯分布的概率。如何决定A是属于哪一个高斯分布,将有你来作决定,而不是由机器决定。假如有这样一个根据症状测试病人患 什么病的机器,如果机器测出来患A病的可能性是0.55,患B病的可能性是0.45.这两个概率就很接近,这时候不能草率的说病人就是患A病,必须由医生 再次诊断。 GMM的学习结果:就是某个数据点属于某个类的概率。 每个GMM看作有K个高斯分布组成,那么这些高斯分布的线性组合就是GMM的概率密度函数:其中 πk表示第k个高斯分布被选中的概率。显然我们要作的就是确定 pi(k),mu(k),sigma(k) (ps:主机本身没有Latex功能,所以就无法直接打希腊字母,郁闷的很,将就着看吧)这些参数的值.显然利用概率论中的极大似然估计来对参数进行估 计。极大似然估计的条件就是在分布函数已知的情况下,借助总体的一个样本对参数进行估计。我们这里已知概率密度函数了,利用一组样本值,X= (x1,x2,...xn),得到事件X发生的概率为:
取对数后可得
接下来我们只要将这个函数最大化(通常的做法是求导并令导数等于零,然后解方程),亦即找到这样一组参数值,它让似然函数取得最大值,我们就认为这 是最合适的参数,这样就完成了参数估计的过程。由于这里对数里面又有累加的过程,我们无法直接用求导的方式求得 pi(k),mu(k),sigma(k)。我们采取迭代的方式,首先假设pi(k),mu(k),sigma(k)已知,计算数据点i由第k个高斯分布 生成的概率gamma(i,k),然后在利用算出来gamma(i,k), 计算pi(k),mu(k),sigma(k)。循环上述步骤,直至GMM的似然函数的值收敛。
上面部分写的混乱了点,还是上公式吧。上述过程总体而言分成3步:
第一步:估计每个数据点属于每个类k的概率,假设mu,pi,sigma这些都是已知的:
第二步:对于每一个聚类k,我们已知它的分布函数,就利用r(i,k)来计算对应的mu(k),pi(k),sigma(k):
第三步:重复迭代上面两步,将上面计算出的pi,mu,sigma带入GMM的极大似然函数中,当似然函数的两次结果小于起初设定的阈值,即似然函数收敛后,运算结束。