面向网页内容的K-means聚类算法的研究

来源 :东北大学 | 被引量 : 1次 | 上传用户：sttyuanchao

【摘要】

：

近年来,随着Internet的飞速发展和生活中信息化水平不断提高,数据资源呈爆炸式增长,导致获取目的信息困难,信息的利用率降低,而高维数据日益成为主流,所以在实际的聚类应用中

【作者】

：

时英晋

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2011年01期

【关键词】

：

高维稀疏相似度度量权重计算 K-means 特征选择最大最小规则

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,随着Internet的飞速发展和生活中信息化水平不断提高,数据资源呈爆炸式增长,导致获取目的信息困难,信息的利用率降低,而高维数据日益成为主流,所以在实际的聚类应用中,对高维数据聚类方法的研究有着越来越重要的意义。但高维数据本身独有的一些特点,使得高维数据挖掘变的非常困难,因此必须采用一些特殊的方法进行研究处理。本文研究聚类的对象是网页内容,是一种典型的高维聚类。从聚类的概念及高维数据的特点入手,围绕着高维空间相似性度量、权重表示和降低“噪音”特征属性影响这个三个问题,进行了研究和改进。由于文本数据的高维特征,适用于低维空间的相似度度量方法往往失效,对此本文采用一种适合文本数据高维和稀疏特征的Nsim()相似度度量方法。实验证明这种相似度度量方法在高维空间中,仍能具有较好的稳定性和分辨性。特征的权重表示形成空间向量模型是具有决定性作用,从而对聚类结果有很大影响。HTML文件的标签信息对于网页的类别归属比一般特征属性具有更重要的作用,据此,本文提出了一种适合网页的改进TF-IDF权重计算方法。K-means方法是一种典型的基于划分的快速聚类算法,传统K-means算法的k个簇中心点的初始选择是随机的,这就往往使得聚类的结果不稳定,聚类效果没有保证。本文对中心点的确定提出改进,通过最大最小规则计算中心点。为了使K-means算法能够降低网页内容中“噪音”属性对聚类结果产生的负面影响,本文在聚类过程中,融入空间模型修正方法,通过使用一种比较全面的特征属性度量方法,进行特征属性重要性的判定,从而修正特征空间,达到“降噪”的目的。试验证明,改进后的算法在处理网页数据时,相比传统K-means算法的稳定性方面有明显优势,在聚类效果上也得到了提高。

其他文献

科技论文和在线课程资源的获取与相互推荐

论文和在线课程网页都是科研人员重要的学习和参考资料，目前有很多论文的管理平台或者在线课程的管理平台，但是还没有一个平台能够将这两类资源有机地整合在一起。本文基于以论

学位

科技论文在线课程资源获取推荐子系统语义关联相关度计算

神经网络机器翻译模型性能提升方法研究

机器翻译旨在实现不同语言之间的自动化翻译，降低不同语言使用群体之间的沟通代价，促进全球各个国家和地区之间的经济、政治和文化交流，具有巨大的研究意义和实际使用价值。从提

学位

机器翻译神经网络模型构建译文质量

采用BP神经网络的分布式入侵检测模型构建

随着Internet的飞速发展,计算机网络的安全问题日渐突出,杀毒软件、防火墙技术和针对单机的入侵检测技术,其局限性也随之逐步显现,尤其对分布式的入侵行为,已不能很好地满足

学位

入侵检测分布式BP神经网络移动Agent遗传算法

云计算中虚拟机快速部署技术的实现及应用

分布式计算技术和网格存储技术的迅猛发展使得用户可以使用提供商所开放的近乎无限的计算资源搭建属于自己的计算基础设施,这种计算资源的提供和使用模式被称为“云计算”。

学位

云计算虚拟机快速部署弹性计算

列车网络控制系统故障诊断方法研究

列车故障诊断系统是一种当列车某个设备发生故障或失效时时，通过人机对话形式达到及时有效诊断故障的复杂系统，是列车网络控制系统的一个关键子系统，是保证列车安全运行的必需手

学位

列车故障故障诊断人机交互计算机技术

不同光照下的异构人脸图像的融合识别方法

光照条件的变化是导致人脸识别率下降的主要原因之一。当人在室内进行人脸注册,室内条件下可以正常识别,但在室外的识别效果就非常差。这就需要针对实际工作中的人脸识别问题

学位

人脸识别图像识别融合识别方法异构图像

基于CRF的面向主题的人物关系抽取

在Web2.0时代，互联网已经成为包含人类社会各种知识的信息库，人们越来越依赖互联网作为查询信息的重要来源。其中，人物之间的关系是一类非常重要的信息。特别是当网民面对一个个

学位

人物关系抽取特征排序关系词识别算法条件随机域

基于传输层多宿的CMT路径选择策略研究

随着Internet的发展,传输层单宿端到端的通信协议TCP和UDP等在传输性能、容错能力和安全性等方面都受到了极大的挑战。传输层多宿端到端的通信协议如基于SCTP的多路同时传输C

学位

SCTP-CMT路径选择CMT-PDS吞吐量

描述逻辑中关于极小改变可靠和完备的修正演算

信念修正是主体接受一个新的信念并将其加入到已有的信念集合中，且不会引起不协调的一个过程.在哲学、计算机科学，尤其是数据库和人工智能中，都有信念修正的逻辑形式化，对于信念

学位

描述逻辑信念修正R-演算推导系统极小改变可靠性定理完备性定理

事务性组合Web服务的并发控制方法研究

Web服务(Web Service)是构造下一代分布式计算平台的基本技术。单个Web服务所能够提供的功能有限,服务组合(Service Composition)通过集成现有的Web服务从而创建新的、高层的

学位

Web服务事务性组合并发控制方法

面向网页内容的K-means聚类算法的研究

与本文相关的学术论文