面向网页内容的K-means聚类算法的研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:sttyuanchao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着Internet的飞速发展和生活中信息化水平不断提高,数据资源呈爆炸式增长,导致获取目的信息困难,信息的利用率降低,而高维数据日益成为主流,所以在实际的聚类应用中,对高维数据聚类方法的研究有着越来越重要的意义。但高维数据本身独有的一些特点,使得高维数据挖掘变的非常困难,因此必须采用一些特殊的方法进行研究处理。本文研究聚类的对象是网页内容,是一种典型的高维聚类。从聚类的概念及高维数据的特点入手,围绕着高维空间相似性度量、权重表示和降低“噪音”特征属性影响这个三个问题,进行了研究和改进。由于文本数据的高维特征,适用于低维空间的相似度度量方法往往失效,对此本文采用一种适合文本数据高维和稀疏特征的Nsim()相似度度量方法。实验证明这种相似度度量方法在高维空间中,仍能具有较好的稳定性和分辨性。特征的权重表示形成空间向量模型是具有决定性作用,从而对聚类结果有很大影响。HTML文件的标签信息对于网页的类别归属比一般特征属性具有更重要的作用,据此,本文提出了一种适合网页的改进TF-IDF权重计算方法。K-means方法是一种典型的基于划分的快速聚类算法,传统K-means算法的k个簇中心点的初始选择是随机的,这就往往使得聚类的结果不稳定,聚类效果没有保证。本文对中心点的确定提出改进,通过最大最小规则计算中心点。为了使K-means算法能够降低网页内容中“噪音”属性对聚类结果产生的负面影响,本文在聚类过程中,融入空间模型修正方法,通过使用一种比较全面的特征属性度量方法,进行特征属性重要性的判定,从而修正特征空间,达到“降噪”的目的。试验证明,改进后的算法在处理网页数据时,相比传统K-means算法的稳定性方面有明显优势,在聚类效果上也得到了提高。
其他文献
论文和在线课程网页都是科研人员重要的学习和参考资料,目前有很多论文的管理平台或者在线课程的管理平台,但是还没有一个平台能够将这两类资源有机地整合在一起。本文基于以论
机器翻译旨在实现不同语言之间的自动化翻译,降低不同语言使用群体之间的沟通代价,促进全球各个国家和地区之间的经济、政治和文化交流,具有巨大的研究意义和实际使用价值。从提
随着Internet的飞速发展,计算机网络的安全问题日渐突出,杀毒软件、防火墙技术和针对单机的入侵检测技术,其局限性也随之逐步显现,尤其对分布式的入侵行为,已不能很好地满足
分布式计算技术和网格存储技术的迅猛发展使得用户可以使用提供商所开放的近乎无限的计算资源搭建属于自己的计算基础设施,这种计算资源的提供和使用模式被称为“云计算”。
列车故障诊断系统是一种当列车某个设备发生故障或失效时时,通过人机对话形式达到及时有效诊断故障的复杂系统,是列车网络控制系统的一个关键子系统,是保证列车安全运行的必需手
光照条件的变化是导致人脸识别率下降的主要原因之一。当人在室内进行人脸注册,室内条件下可以正常识别,但在室外的识别效果就非常差。这就需要针对实际工作中的人脸识别问题
在Web2.0时代,互联网已经成为包含人类社会各种知识的信息库,人们越来越依赖互联网作为查询信息的重要来源。其中,人物之间的关系是一类非常重要的信息。特别是当网民面对一个个
随着Internet的发展,传输层单宿端到端的通信协议TCP和UDP等在传输性能、容错能力和安全性等方面都受到了极大的挑战。传输层多宿端到端的通信协议如基于SCTP的多路同时传输C
信念修正是主体接受一个新的信念并将其加入到已有的信念集合中,且不会引起不协调的一个过程.在哲学、计算机科学,尤其是数据库和人工智能中,都有信念修正的逻辑形式化,对于信念
Web服务(Web Service)是构造下一代分布式计算平台的基本技术。单个Web服务所能够提供的功能有限,服务组合(Service Composition)通过集成现有的Web服务从而创建新的、高层的