基于Gauss混合模型和Dirichlet过程的聚类方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:andalee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是统计学中一种重要的无监督学习方法,常被应用到模式识别、结构分组、图像分割等场景。EM算法就是一种最大期望算法,可以对不完全数据求得极大似然估计。本文针对聚类分析和参数估计过程中初始化、聚类数目选择、迭代稳定性、收敛速度、噪声点识别等问题,研究了基于混合模型的聚类方法。本文工作内容如下:(1)基于模型聚类和Bayes原理,运用Gauss混合分布结合EM算法的模型GMM-EM,通过迭代计算参数的极大似然估计获得后验分布来拟合数据。实验中使用一组人造数据集和UCI中三组样本量大小和属性个数都不相同的数据集,结果表明,相比K-Means聚类,对于简单数据分布,混合模型聚类时迭代稳定性比K-Means聚类更好;(2)针对GMM-EM模型聚类结果很容易受随机初始化值影响的问题,本文研究了不同的初始化方法,以此来改善模型的稳定性。首先提出了用K-Means一次聚类后的结果作为GMM-EM模型初始值的改进算法:K-Means GMM-EM,该模型使得原模型迭代过程更加稳定,且聚类结果的准确率有了很大提升;然后针对EM算法容易陷入局部最优、以及模型无法自动识别噪声点的问题,提出了基于数据稠密性检测噪声值、基于密度和距离选取聚类初始值的改进算法:DDGMM-EM,实验结果验证了,改进后的模型聚类效果比用K-Means初始化的模型更好,且可以进一步降低初始值对收敛的影响,同时可以有效剔除噪声点,优化收敛结果的合理性;(3)针对有限Gauss混合模型在聚类时需要人为赋予聚类数目的缺陷,将无限维的Dirichlet过程作为参数的先验,利用Bayes原理和Gibbs抽样估计聚类数目和模型参数。实验表明,用Dirichlet过程混合模型作为混合权重参数的先验可以自动得到聚类个数和混合权重,这种模型具有更好的泛化性能和稳健性。
其他文献
目的:探讨双阳针刺法配合白术附子汤对坐骨神经痛患者的近远期疗效及安全性。方法:将2017年2月—2021年8月96例青少年坐骨神经痛患者随机分为两组,各48例。研究组予以双阳针刺法配合白术附子汤治疗,对照组予以双氯芬酸二乙胺乳胶和甲钴胺片治疗。分别在治疗前和治疗1周、2周、3周及随访3个月时采用视觉模拟评分(VAS)、Oswestry功能障碍指数(ODI)对患者进行评估,并进行直腿抬高试验,评估健
期刊
在人口老龄化、高龄化、失能程度加深的背景下,家庭照护能力和失能老人照护需求之间的差距逐渐扩大,社区照护因其人性化和低成本等优势成为家庭照护的首要补充方式。智慧养老可以极大地提升社区照护的及时性和效率,而服务内容单一等因素制约了其潜力的释放。服务内容单一同时也直接制约了社区照护的发展,服务内容多样化迫在眉睫。服务人才多样化是服务内容多样化的基石。本研究从供求平衡的角度出发,对2020-2030年我国
学位
随着电商行业的快速发展,网络购物已经深入到人民群众的日常生活当中。鉴于电子商务的关键特征是消费者与零售商之间的空间分离,消费者必须依赖特定的运输策略和方式来接收他们的订单,而免运费作为一种有效的营销策略已经成为许多电商企业采用的重要竞争手段之一。且随着人们越来越重视服务体验,对运输服务的品质和时效也有了更高的要求,如何为消费者提供多样化的运输服务以满足不同消费者的异质性需求和提升零售商的利润与竞争
学位
近年来,随着经济的快速发展,航空客运需求不断增长,许多国际大都市的枢纽机场长期处于超负荷运行状态。由供需不均衡诱发的机场拥挤和航班延误等问题日益严峻,导致乘客满意度大幅降低,机场运营效率不断下降,成为制约民航业发展的重要因素。同时,随着高铁的快速发展,乘客出行拥有更多选择。为改善枢纽机场的拥挤问题,政府鼓励航空公司和高铁开展合作,引入“空铁联运”服务,通过高铁将枢纽机场部分乘客引流至周边的非拥挤机
学位
<正> 答:风寒喉痛,民间俗称“寒火”,其火者,疼痛之意。习惯用生姜3片,炒鸡内金约10g,煎汤热服,能缓解疼痛,具有治本的作用。喉为肺系,咽喉是肺胃门户。肺胃虚寒,脾阳弱者,更易内外合邪而发病。风寒之邪直中,凝滞咽喉部的经络,经气运行失畅,故不通则痛。此类患者,自有风寒之征。常表现微热不扬,恶风畏寒,偏正头痛,眼腔痛,鼻塞、流清涕,舌苔淡白,脉浮紧或浮缓之类。思热饮,服后喉痛稍舒,继则喉痛如故。
期刊
随着我国城市化进程的推进,城市人口数量和交通需求快速增长,相对滞后的交通基础设施建设难以满足日益增长的交通需求,致使高峰期交通拥堵加剧、通勤时间增加。本文研究了早高峰异质通勤者出行行为、瓶颈拥挤收费及收费再分配问题,以期探寻缓解城市交通拥堵的有效策略。首先,构建了考虑用户异质性的多方式瓶颈系统均衡模型。该模型考虑了不同时间价值用户的交通方式选择(私家车和地铁)、出发时间选择及地铁车内乘客拥挤效应。
学位
目的:基于网络药理学方法筛选重楼[Paris polyphylla var.yunnanensis(Franch.)Hand.-Mazz.]的主要活性成分,预测其治疗非小细胞肺癌(NSCLC)的作用靶点及信号通路,进一步探讨其治疗NSCLC的可能作用机制。方法:通过中药与化学成分数据库、瑞士生物信息研究所平台(SIB)及文献挖掘,检索并收集重楼的活性成分及其对应的靶标基因。利用GeneCards、
期刊
单行设施布局问题于1969年提出,被证明是NP难问题且被广泛研究。给定每个设施长度以及每两个设施之间流量,单行设施布局问题研究如何在一条直线上安排设施的位置,使得每两个设施之间距离与它们之间流量的加权和最小。基于单行设施布局问题的复杂度和国内外研究现状,本文提出了一个高效的混合进化算法来求解该问题。该混合进化算法可分为两个部分:Local Search搜索和进化算法。Local Search搜索部
学位
在互联网浪潮的席卷及新冠疫情的影响下,互联网医疗行业正以不可阻挡的速度迅猛发展,但互联网医疗行业的需求特征尚未有过较为深入的研究。本文在医药电商行业O2O即时物流模式的需求预测理论基础上建立了考虑不同形式的促销活动的医药电商机器学习预测模型(XGBoost-P)。此模型首先利用指数平滑模型对药品的常规销量进行平滑填充,后将不同促销变量同常规销量一起输入XGBoost机器学习模型,以对不同促销活动影
学位
期权是金融体系中一种最重要的金融衍生品之一,为广大投资者起到风险管理、风险规避的功能。几十年来,大量学者从事期权定价研究,因为对期权进行精确的定价是十分困难却又非常必要的。精确的期权定价一方面可以避免市场失衡,另一方面可以使投资者动态地监控市场。Black-Scholes模型和Heston模型是两个经典的期权定价模型,前者缺乏波动率的建模过程,后者参数估计较难。为提高这两个模型的预测性能,本文分别
学位