基于聚类技术的网页分类应用-基于后缀树的中文文本聚类方法

来源 :江南大学 | 被引量 : 0次 | 上传用户:ysgmxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,网络在人们日常生活工作中所起到的作用越来越重要。网络已经成为新的信息承载媒体。与此同时,互联网的规模也以爆炸性的速度在扩大。包含着大量信息的海量网页还在以惊人的速度增长着。所以,如何对存在于海量网页中的信息做到快速准确的提取、呈现,方便使用者查询,就是迫切需要解决的问题了。 本文围绕着如何对海量文章进行快速、准确的分类,并且明了的将分类结果表示出来,方便用户查询等问题进行研究,研究内容和取得的成果主要是在网页内容的分类和分类结果的描述方面。 针对于常见的互联网搜索结果中重复、无用、与搜索主题相关度不高的情况,引入了分类方法。网页的分类是方便互联网信息查询的一种有效手段,同时也是信息查询的一种新的发展方向。通过对互联网中网页的分类,可以将网页按照内容的不同进行相应的分类。由于后缀树聚类算法STC(SuffixTreeClustering)的线性构造时间优势,聚类结果适合实际应用等特点,本文结合实际情况,尝试采用后缀树聚类算法STC(SuffixTreeClustering)对网页进行分类。以实际的使用环境为前提,提高算法执行过程中的执行效率,同时改进对分类结果的描述,便于结果的查询,提高实际使用效率。
其他文献
软件复用是近年来国内外软件界研究的热点之一,它能大幅度提高软件质量和生产率,降低软件丌发和维护的成本。基于构件的软件开发(CBSD)是软件复用的一种有效形式。而有效的构
本文的主要目的是系统详尽的分析和研究WTLS协议的安全机制,通过深入分析WTLS协议的流程,进而发现其中存在的缺陷,提出相应的改进意见,以期不断的完善WTLS的安全保证,满足当
近年来,随着网络技术的发展,安全问题越来越引起人们的关注。根据各种安全技术和应用的需求,人们提出了许多加密算法。其中RSA体制被认为是公钥密码体制研究的一个标准模板。
面对激烈的市场竞争,钢铁企业需要加强自身的建设,从产品、工艺、生产设备以及生产管理方面来提高企业自身的竞争力。为解决缺乏有效的生产管理和生产调度所引起的管理失控、
移动代理技术是一种新型的智能分布式技术,其自主性、移动性和智能性的特点正好满足网络管理的要求,因此将移动代理应用到网络管理系统具有很好的研究意义。本文分析了国内外
随着卫星通信与遥感技术的飞速发展,人们获取的空间数据量日益增多。如何高效地从大量的空间数据中提取出有用的信息,对空间数据挖掘技术提出了挑战。空间聚类作为是空间数据
基因芯片技术的迅速发展产生了海量的基因表达数据。如何分析和处理这些数据,从中提取出有意义的生物学信息,已经成为后基因组时代的研究热点。聚类方法是目前基因表达分析研究
雷达是现代战争中军事信息系统的传感器,如何提高雷达的抗干扰能力和生存能力成为现代战争环境中雷达所面临的紧迫问题。电磁波的广泛应用导致现代战争中出现了电子对抗,并且发
因特网上文本信息的迅猛增长给文本分类的精度与速度提出了新的标准与挑战。这就要求文本分类在提高精度的同时,还要进一步提升训练与分类速度。为了面对时代的挑战,作者对快
监测苹果生长过程中的直径变化对于预测苹果发育状况、指导果农进行农事操作具有非常重要的作用。采用人工测量等传统方法存在效率低、精度差等问题,而机器视觉为实现苹果生长