核聚类算法研究及其在文本聚类中的应用

被引量 : 5次 | 上传用户:ssskkkmmm77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及和网络技术的不断完善,Internet已经成为了全球最庞大最丰富的信息资源库。然而用户查询信息时常常被信息淹没,迷失在信息的海洋中,这大大降低了检索的效率。文本聚类技术是解决海量文本信息的分类管理及可视化的一条有效的方法。文本聚类因为不需要类别的信息,能自动实现对文本的分组,近年来已经在信息检索领域获得了普遍的应用。其中用到的经典的聚类方法包括C均值聚类和模糊C均值聚类,由于这两种方法只能对少许典型分布的样本奏效,并且都没有对样本的特征进行优化,而是直接使用样本的特征进行聚类。因此聚类方法的效果很大程度上取决于样本的分布,如果在其中一类样本散布较大,另外一类样本散布较小的情况下,这些方法将会失效。核聚类算法的主要思想是通过一个非线性映射,将输入空间中的样本映射到高维特征空间中,并选择合适的Mercer核函数取代非线性映射的内积,在特征空间中进行聚类。由于利用核函数,可以用低维空间中的输入向量直接计算出高维空间中特征向量的内积,从而并没有使计算量随着向量的维数升高而增加许多。本文在了解核方法的基本原理上,结合熵理论研究了基于核函数模糊聚类的子空间样本选择算法和初始聚类中心优化的加权最大熵核聚类算法(WKMEFCM),并将其应用到中文文本聚类中。实验结果证实,对于分布混乱以及高度相关难以划分的文本数据,由于Mercer核函数的引入,使原来没有显现的文本特征得以凸显,从而使聚类效果更好。最后,本文基于开源的Carrot2构建了一个中文Web文本聚类搜索系统,实现了对搜索结果的聚类。针对中文文本的特点,在特征项的权重计算上,既考虑了传统的词频和文档频数,也结合了词的词性和词在文本中的位置信息,因此提高了权重的可信度。进一步将本文研究的WKMEFCM算法应用到该系统中,对系统的评估表明,其提高了信息检索的效率。
其他文献
本文以瓦斯赋存的构造控制为理论指导,以不同类型的构造煤为研究对象,以煤炭开采过程中的原煤瓦斯含量、残存瓦斯含量为主要研究指标,结合矿井的地质条件和生产实际,对矿井构造复
微波除冰雪具有环保、快捷、除冰雪彻底等优点,是近些年来研究者们提出的一种新型道路除冰雪技术。但是由于普通沥青混合料对微波的吸收发热效果不好,导致微波除冰雪效率低,不能
本论文在在实地调查的基础上,探索民族社区服务是如何影响社区融合的。具体而言:第一,民族社区服务是如何开展的?第二,民族社区要服务对社区融合产生了哪些方面的影响。换言之,民族
人力资源是企业的第一资源,特别是当今的知识经济时代,人力资源的作用更加突出。与过去不同,如今的企业面临更加激烈的竞争,要使企业能够在激烈竞争的环境中生存下去,企业不但要有
等高齿螺旋锥齿轮广泛应用于汽车、拖拉机等的驱动桥传动。随着我国汽车工业的飞速发展,等高齿螺旋锥齿轮的需求量也在成倍增长。目前我国现有的等高齿螺旋锥齿轮制齿设备,大多
农村经济的发展很大程度上取决于农村金融水平的发展。作为农村经济发展的重要促进力量,农村金融体系是中国金融体系的一个重要组成部分,对我国金融体系的发展起到了重要的作用
ERP对石化行业的管理模式和发展起到不可估量的作用,在近几年的实施应用过程中企业取得一些应用成效的同时,也承受了应用过程的艰难,如果这些问题得不到有效解决,将严重影响企业
本文简要剖析了近代历史上的“黄祸论”及与其主导思想和认识方法一脉相承的当今美国所谓的“中国威胁论”,指出这两种论调只是西方一小撮反动侵略分子的蛊惑 ,遭到了包括美
目的探讨陈旧性心肌梗死碎裂QRS波(Fragmented QRS complex,fQRS)及其时限与室性心律失常的关系。方法回顾分析150例明确诊断陈旧性心肌梗死的患者,根据常规心电图中fQRS的有无
农村医疗卫生改革是关系国计民生的重大问题。我国农村人口多,情况复杂,农村医疗卫生改革任务繁重。然而,我国有着传统医药丰富的国情优势,在现代西医还未涉足的地区,传统医