降维多核K-Means算法在文本聚类中的研究

被引量 : 0次 | 上传用户:qq240927781
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的快速发展和信息化技术的不断进步,各种数据以惊人的速度膨胀,其中以文本数据的增长最为显著,如何从这些海量的文本信息中找到有用信息,并进行分门别类,变得日益迫切。K-Means聚类算法特征之一是简单并且易于实现,通常被广泛地应用于文本聚类。因此,本文以K-Means算法为基础开展的主要工作如下:K-Means聚类算法存在的问题之一是对初始点选择具有敏感性。初始中心选取不当,容易造成陷入局部最优解和聚类结果波动性大的问题。结合国内外有关的研究方法,本文提出了一种优化K-Means初始聚类中心的方法,避免首次选取初始中心落在样本点上,同时可以融合最近高密度区域,在一定范围内扩大聚类中心存在区域。该算法根据密度和最大化最小距离的思想,首先选取相互间距离最大的K对高密度点,并以这K对高密度点的均值作为初始聚类中心,然后再进行K-Means聚类。在标准UCI数据集上验证了该算法的有效性,进而把该算法用于中文文本的聚类中,对降维预处理后的数据使用新算法进行聚类,实验表明可以取得一个更稳定且准确率较好的聚类结果。针对文本数据高维且稀疏的特点,使用传统的K-Means算法进行聚类分析时候,传统k-means算法的欧氏距离度量无法有效处理非线性数据,会耗费较长时间,聚类效果也受到影响。本文提出一种降维多核K-Means文本聚类算法,一是解决了高维问题,二是解决分布无规则的非线性数据样本聚类效果不佳的问题。算法首先用主成分分析对文本数据进行降维,再用多核K-Means聚类算法进行文本聚类。该方法通过组合核函数的学习,求解一个半定规划问题得出给定核函数的最优组合核函数,以提高核K-Means处理非线性文本数据的能力。实验结果表明本文算法效果优于传统的K-Means算法,并且基于多核组合核函数的聚类比传统单一核函数聚类获得更好的聚类效果。
其他文献
品牌化是大势所趋,在激烈的旅游市场竞争中要想立于不败之地,并能得到迅猛发展就必须实现旅游产品的品牌化。公共关系是一种现代管理艺术,旅游业提升旅游品牌,旅游公关是一个
英语课堂有效教学具有独特的学科内涵与特性。结合新课改的教育理念,归纳成功的英语课堂教学呈现的特质,本文初步探究了英语课堂有效教学所特有的学科内涵与特性,为促进新课
采用实验室行为观察法考察了114名2~11岁儿童自我控制的发展变化及其性别差异。结果表明:(1)儿童的自我控制在2岁到4岁之间具有低等程度的相对稳定性,在4~11岁之间具有低等程度
<正>问责制度已经成为我国当代党政系统的重要制度。从词源角度考察,问责似如经济、社会和宪法等词汇一般,其用词我国古已有之,但随着本土制度需求的凸显和域外制度文明的传
在城市轨道交通工程中,机电设备占据了重要地位,欲提升机电设备安装的质量,就要做好彼此间的协调处理工作,才能满足城市轨道交通的建设质量。分析城市轨道交通机电系统主要结
智利女作家伊莎贝尔·阿连德以一部处女作《幽灵之家》开启了拉美文学的“后文学爆炸时代”,作品中迷人的魔幻现实主义色彩和惊人的表现力,最为让人惊叹。但在拉美文学视阈中,由
诺贝尔文学奖获得者威廉·福克纳是美国现代文学史上最重要的小说家之一。他的所有小说几乎都是以美国南部为背景而创作的。他的短篇小说之一《献给艾米丽的玫瑰》可以说凝聚
近几年来,黄金价格的持续走高,使得新城金矿的发展突飞猛进,但是,快速发展带来巨额收益的同时,也使得安全生产问题暴露的更加充分。怎样才能实现工作绩效和安全绩效的双向发展呢?特
一、小区业委会在小区公共收益的管理和处置中的权限小区公共收益权的管理和处置问题,涉及到业委会是否有权经营管理公共收益,是否有权使用处置公共收益。关于这一问题,在笔
对聚烯烃进行功能化改性是扩展聚烯烃使用范围以及开辟新应用领域的重要手段,本文综合阐述了使用马来酸酐作为接枝单体对聚烯烃进行本体接枝、辐射接枝和超临界接枝的研究进