基于特征短语的网页在线聚类方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sunyanzi168168168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,网络为我们提供了多元化的海量信息,越来越多的人开始使用搜索引擎来获取所需要的信息。然而,虽然搜索引擎发展迅速,但其效果远未达到令人满意的程度,因为用户不得不逐页浏览检索结果,效率非常低。面对搜索引擎返回的成百上千的结果,如何从中快速定位所需信息就成了一个特别棘手的问题。通过对检索结果进行网页在线聚类就可以解决这个问题,网页聚类能帮助用户快速准确地定位信息,但对所使用的聚类算法的复杂度有严格限制,许多传统的聚类算法并不适合网页在线聚类。为此,本文提出了一种基于特征短语的快速网页在线聚类算法,该方法利用后缀数组提取网页特征短语,在此基础上进行快速聚类以及类别标注,提供清晰、易于理解的类别内容概括,并对聚类结果进行了类间以及类内排序。本文的研究内容主要包括以下几个方面:(1)设计并实现了一种基于特征短语的网页在线聚类系统。本文采用基于重复串的文本特征提取方法来提取特征短语,特征短语具有相对完整的上下文语义,能够作为网页内容的特征来进行聚类;(2)根据特征短语快速确定基类,并对基类进行类别合并以及类别排序,实现网页的在线聚类;(3)设计并实现聚类的缓存功能,提高了聚类系统的效率;(4)通过与其它聚类算法的实验对比,验证了本文提出的聚类方法在网页聚类方面的优越性,并展望未来的研究方向。最后,本系统已成功应用在本实验中心构建的智能化Web信息检索平台Inar搜索引擎中。实验结果表明,本文提出的方法能够满足在线聚类的要求,在时间复杂度和聚类精度上都达到了很好的预期效果。本文提出的方法在网页在线聚类方面具有一定的参考价值,为进一步开发个性化的网络搜索工具打下了良好的基础。
其他文献
伴随着信息技术的飞速发展,计算机已经成为人们最重要的生产、生活工具。块存储设备作为计算机的主要数据存储设备,携带着大量的机密信息和重要数据。由于丢失、被盗或者未经
随着Internet技术和企业信息化建设的发展,电子商务以其迅猛的速度进入人们的日常生活。电子商务的发展对传统的Web技术提出了强有力的挑战。由于电子商务的内部逻辑复杂,安全
句法分析是自然语言处理的关键技术,依存关系解析是句法分析的方法之一,这种方法解析句子词语间的依存关系,依存关系可以明确地表明词语间的支配关系,并能方便地转化为语义依
解决问题的方法也叫做算法,并不是计算机科学的专有名词,早在几千年前就有该方面的研究,当时把其认为是数学的一个分支。计算机的出现使得人们能够利用计算机模拟并解决实际问题
随着Internet技术的迅速发展,网络入侵问题也越发严重,入侵检测己成为网络防护安全体系中的重要组成部分。入侵检测系统通过从计算机网络或计算机系统中的若干关键点收集信息
目前,由于我国支票使用总量的年年增加,给银行业务带来很大的工作量和压力。影像化支票自动识别作为解决此问题的一种计算机应用技术,已经越来越多的受到人们的重视和研究。而在
随着互联网的发展,网上信息迅速增加,搜索引擎作为帮助人们从网络中快速获取信息的工具,使用日益广泛。但由于存在许多网页转载的情况,搜索引擎的返回结果中存在重复信息,既
我国证券市场已走过了十几年的历程,虽然起步较晚,但在证券信息计算机处理方面起点很高、发展迅猛。随着近年来网络技术的飞速发展和用户操作水平的提高,证券公司证券交易、网络
随着计算机、通讯技术的不断发展,人们越来越迫切希望可以在任何时候、任何地点、与任何机器都可以自然交流,而语音通信则是一种最理想的人机通信方式,语音识别技术由此诞生
音字转换技术是建立在语言学、计算机科学、数学、信息论、人工智能等多个学科基础之上的一项综合研究,一直以来就是中文信息处理的研究热点,其最重要的应用之一就是中文拼音