基于划分的聚类算法及其在Web挖掘中的应用

被引量 : 0次 | 上传用户:liongliong541
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着网络的发展,信息迅猛增多,在浩瀚的信息海洋中如何快速而有效地获得所需要的信息,是困扰网上用户的难题。对于信息资源的一个主要形式——文本,人们迫切需要能够从中快速、有效地发现资源和知识的工具。通过将大量信息组织成少数有意义的簇,文本挖掘技术在信息检索、邮件过滤和网页分类等领域有着广泛的应用。因此,文本聚类研究成为当前国际上数据挖掘的一个重要课题。本文针对文本聚类中的两个方面的问题进行了研究。一个是文本预处理过程中的特征词权重的计算和特征集缩减问题,另一个是对基于划分的K-Means算法的初始中心选取问题进行了研究。首先,本文研究了文本预处理中的特征项权重的计算和特征集的缩减问题。网页中的标签对类别的贡献较大,因此在权重计算中引入网页的结构特征。通常文档的特征向量是超高维稀疏向量。这种向量影响聚类速度,并且使任意两个文档特征向量之间的相似度都倾向于一个常数。本文研究了特征集的缩减问题,通过实验验证了聚类效果随着特征数的增加而逐渐改善,当特征数继续增加时,聚类效果反而呈现略微的下降趋势。此外,本文对K-Means算法中的仞始聚类中心的选择进行了重点分析和讨论。针对其初值选取过于随机从而导致聚类结果不理想的缺点,采用最大最小距离法结合抽样技术代替传统的随机选择初始中心点的方法。并根据该新的初始中新选择方法得到一个基于最大最小距离的文档聚类算法。本文对已人工分类的网页和公安网网页进行了有关实验,通过比较K-Means算法和基于最大最小距离的文档聚类算法,发现基于最大最小距离法选取的初始聚类中心比较分散,具有较好的代表性,因此聚类结果较传统K-Means算法更为稳定,准确率更高。
其他文献
本文紧密结合自己的教学实践,对中学历史教学在培养学生创新思维能力方面的意义以及如何实施进行了较为深入的研究。文章认为,创新教育是21世纪教育的主流;培养创新人才,关键是培
方程思想是初中数学知识体系中最基本的数学思想之一,它在代数、几何的学习中都有着广泛的应用,掌握方程思想不仅能够使初中学生更好地理解和掌握初中数学的基本知识,而且对学生
<正>近期,一位学生家长向我请教:"老师,我的孩子背历史花的时间可多了,但是,考试还是只得一点分,怎么回事?"对此,我习惯性地脱口而出:"他应该是历史学习不入门,没有开窍吧!"
对于市政道路路口车辙现象明显且难以处理的状况而言,对其应用超早强半柔性路面技术进行处理是一种非常有效的手段。对该种路面开展室内实验探究以及具体工程建设应用,结果显
进入新世纪,我国高等教育迅速发展,出现一批应用型本科院校,即高职高专学校升格为本科的新建院校。本文探讨如何加强应用型本科院校实训中心建设。加强实训中心建设是为了满足三
目的:观察辨证分型中药穴位注射在慢性肾炎治疗中对中医症候的影响效果,并探讨其可能存在的机理。方法:将辨证为脾肾气虚证的慢性肾炎蛋白尿患者进行随机分组,治疗组在常规治
计算机技术、信息通信技术、电子技术的进步,促进了智能建筑技术的迅速的发展。多年来,作为智能建筑的重要组成部分——楼宇自动化系统一直是智能建筑技术的前沿热门研究领域
本论文首先对大学生社会实践能力的有关理论进行分析,然后通过对当前大学生社会实践能力培养现状的调查,了解大学生社会实践能力的缺失并分析其原因,最后提出进一步提高大学生社
物流配送网络设计与优化是物流系统领域一个重要的决策问题,一般可以分为三个设计层次:战略层、战术层和运作层,三个层次之间既有各自独立的决策问题又由于相互影响所以存在所谓
<正> 20世纪以来,随着和声语言的迅速发展,作为音乐另一重要要素的节奏也得到新的发展,以各种手段使节奏复杂化是20世纪音乐创作的主要特点之一,尤其是对1945年以后的那些志