基于术语簇和关联规则的文档聚类方法

来源 :河北大学 | 被引量 : 0次 | 上传用户:sqs292241644
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术是数据挖掘领域具有重要价值的技术之一,随着网络在社会生活的不断深入,加之数据库技术的迅速发展和普及,Web挖掘日益受到信息科学界的关注和重视,总的来说,Web挖掘可分为三种类型:Web结构挖掘,Web使用挖掘和Web文本挖掘其中,文档聚类属于Web文本挖掘的研究内容,所谓文本挖掘,是指从文档集合中发现隐含的某些未知模式或规则。文档聚类不同于传统的文档分类,它不是基于预定的类表或类目体系,而是完全基于文档本身,即先有文档后有类,类的内涵和外延以及整个类目体系完全由需要进行聚类处理的文档集合确定。目前常用的文档聚类方法有层次方法和划分方法等,其中,层次方法通过将文档组织成若干类并形成一个相应的树来进行聚类,其准确度较高,但运行速度较慢,不适合大规模文档集合的聚类;划分方法将文档集合水平的划分为许多类,各类间没有层次性,其运行速度较快,但须事先确定聚类数目,且对噪声和输入顺序较敏感,尤其是当文档形式化表示的维数较高时,该方法的性能和聚类质量都明显下降。对此,本文提出一种基于术语簇和关联规则的文档聚类方法,首先对文档集合进行分词得到许多术语,对这些术语进行处理得到一个术语集合,再计算术语之间的平均互信息并以此为依据使用聚丛法形成术语簇,用术语簇来表示文档,并计算术语簇和文档之间的关联度得到一个关联矩阵,使用DHP(Direct Hashing and Pruning)算法从关联矩阵中挖掘出文档的初始聚类,对此进行聚类分析获得最终的文档聚类。此外,还使用了新的术语权重和文档相似度计算方法,在实验数据的计算中使用了加权平均法。实验结果表明,与传统的聚类方法相比,新聚类方法运行速度快,聚类效果和聚类质量都有显著提高。
其他文献
随着高技术武器的飞速发展,如何精确快速定位战场重要目标成为军事家所关心的一个重要问题。日益增多的遥感图像为此提供了一种方便简洁的途径,本文从战场空间信息的快速更新需求出发,对基于遥感影像配准的建筑物高程自动获取以及基于遥感影像控制点匹配的战场目标快速定位进行了研究,其主要工作如下:1.研究了遥感影像几何纠正和影像配准的基本原理、方法、过程和主要问题;2.改进了摄影测量的铅垂线轨迹(VLL)法,并利
随着互联网的飞速发展,网络安全问题也日益严重。入侵检测技术是继传统安全保护措施之后出现的一种积极主动防御的新一代安全保障技术,而Snort是其中基于规则匹配的一种入侵检
北京谱仪Ⅲ(BESⅢ)高能物理实验每年产生PB量级的实验数据,实验人员需要对海量数据进行处理和分析。为此,BESⅢ实验于2011年开始联合多个合作单位构建统一的分布式计算平台,以应
生物地理学优化算法(Biogeography-Based Optimizer, BBO)是在研究生物种群生存、繁衍、衰落和灭绝规律的基础上,通过模拟种群活动构造出的一种新型智能优化算法。BBO算法由于
随着高清电视和高清视频节目的发展,传统的DVD已经无法满足高清视频节目的需要。为了满足高清视频节目播放的需求,国外提出了两种蓝光高清标准,即HD-DVD和BLU-RAY DISC,但是
学位
入侵检测是用来检测和识别对计算机系统和网络系统,或者更广泛意义上的信息系统的非法攻击,或者违反安全策略事件的过程。它从计算机系统或网络环境中采集数据、分析数据、发现
信道编码常用于容易发生干扰的无线信道和存储信道中,随着VLSI技术的发展,采用ASIC或FPGA技术来实现信道编码器应用广泛。本文实现了一种基于SOPC技术的通用编译码器实验装置,此
随着互联网的快速发展与日益普及,网络营销的价值也逐渐得到重视与认可,因此电子商务得到迅猛发展,而电子商务网站也日益成为大多数人生活中的“必需品”。而且越来越多的商家也
随着网络技术和多媒体技术的飞速发展,网络上的多媒体应用日益丰富。作为其中的代表,流媒体直播系统被广泛应用于视频会议系统、远程教育系统等。流媒体直播系统是典型的组通信