高维海量数据联合聚类算法的研究与应用

被引量 : 0次 | 上传用户:carpplolo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联合聚类是新近的无监督的数据分析的范例,但是它变得日益流行是由于它发现隐藏的局部模式的潜力,和通常的无监督的运算法则比如说k-均值发现聚类不同。联合聚类的广泛部署需要面临数据转换、聚类的初始化、可扩展性等大量的实践的挑战。因此,这篇论文聚焦于使发展中的联合聚类方法更加成熟,并且它的最终目标是促使联合聚类作为各种各样的实际应用中不可缺少的无监督的分析工具。为了完成这样的目标,我们提出了三项明确的任务:(1)发展联合聚类运算法则使它具有功能性、适应性和扩展性;(2)联合聚类运算法则的扩展适应专门的应用需求;(3)联合聚类运算法则的应用广泛地存在于实际应用领域显现的难题中。就联合聚类的运算法则来说,我们提出了改进的贝叶斯联合聚类算法。它允许在行和列中有混合的类,也就是说聚类的对象既属于一个类,也属于另一个类。这个算法是用指数族的概率分布理论去发现联合聚类生成的类。同时,为了自动估计行和列的类数,文中还提出了基于贝叶斯信息准则的类别数估计算法。关于联合聚类的扩展,我们为一般的联合聚类的方法提出了基于逐步对应分析法的快速联合聚类的框架。它不需要把整个数据矩阵都放进内存里,这对于高维海量数据是至关重要的。这个框架可以使用k-均值、信息论和贝叶斯等不同的联合聚类运算法则。它在执行效率上优于上述运算法则,而与其它方法有差不多的正确率。关于联合聚类的应用,我们扩展了贝叶斯联合聚类的功能来适应特别应用的需求。通过基于逐步对应分析法的贝叶斯联合聚类方法可以从高维海量数据中发现一致的联合聚类,它的目的是对行和列进行选择,然后通过贝叶斯联合聚类算法来同时聚类行和列。最后,我们阐述了该算法框架应用于各种各样仿真的和真实的数据得出的结果。总之,我们介绍了联合聚类算法能发现隐藏的有用的信息,提出了算法的扩展来适应专门的需求,并且将它们应用于广阔的实践领域。
其他文献
新世纪蒙古小说作品的和谐之美不仅是艺术审美的体现,也是蒙古族人审美追求的体现。以审美追求的规律,探析新世纪蒙古小说作品的和谐之美。本人以从2001年至2008年在《花的原
本论文由导论、正文(第一章、第二章、第三章)、结论、参考文献等四个部分组成。绪论由选题原因,研究概况,研究意义,研究方法内容构成。正文由《以我为本》原则为主线阐述了
全媒体时代下,各类新媒体百家争鸣、交互融合。其中,纸媒的移动客户端大放异彩,是纸媒面对新媒体冲击下的全新试探与相互融合。伴随着纸媒的艰难转型,纸媒移动客户端在数字化
基于微信传播中现实的或假设的侵权纠纷分析,新媒体常见的侵权责任有转载侵权责任、原载侵权责任,以及用户侵权时的特殊侵权责任。转载侵权责任又包括擅自转载对著作权人、首
事件新闻是近来兴起的一类新闻报道题材,取得了很好的新闻传播效果。本文以旅游事件新闻为例,探讨了如何对其开展微营销活动。首先,给出了事件新闻、旅游新闻、微营销的相关
本论文《莫日根葛根·罗布桑丹毕扎拉森和伊希丹森旺吉勒的蒙医学诗美学探析》根据莫日根葛根和伊希丹森旺吉勒的迄今为止已被整理出版的蒙古语医学诗歌作品为主要研究对象,
钟云舫生活在鸦片战争至辛亥前夕,此时的中国清政府腐败无能,贪官污吏横行,同时又面临帝国主义的侵略,并沦为了半殖民地半封建社会。于是,文坛上掀起了爱国主义热潮,诗歌成为
<正>党报精神是党报的思想状态和思维方式,是党报本质的外在表现;党报理念是党报的思想观念和理论信仰,是党报本质的核心内容;党报境界是党报的思想觉悟和精神修养,是党报本
会议旅游作为一种综合性的旅游服务形式,因其影响大、逗留时间长、消费能力高等原因,被誉为“城市经济助推器”。在城市发展会议旅游的过程中,目的地形象的推动效应起着至关
文学的功效之一为启蒙教育。新时期蒙古文小说虽说内容广泛、主题多样,启蒙意识是其中重要内容之一。经过“文革”十年动乱,当中国文学步入以“改革开放”、“解放思想”为开