网页消重和聚类算法在高校搜索引擎中的研究与应用

来源 :东华大学 | 被引量 : 3次 | 上传用户:xingsen777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前大部分搜索引擎都存在搜索结果有大量重复网页或者转载网页的问题,同时中文搜索引擎的网页聚类也处于刚刚起步阶段,很多技术都还不能应用到实际应用中去。随着中国高校的数目和规模逐年增加,高校搜索引擎技术的落后产生的弊端也浮出水面。针对这些问题,该文着重对搜索引擎的基本工作原理、现有的网页消重技术和网页聚类技术进行了深入的研究和探讨,设计了高校搜索引擎系统。该文着重从以下几个方面做了研究和应用:第一,对网页预处理过程中的网页表示模型进行了研究和改进:为了后续的聚类工作研究了向量空间模型,并在现有向量空间模型基础上进行了加权改进,解决了原来模型不能反映特征项的位置不同所占权重也不同和语义等问题;为了得到网页表示模型,对基于分块的网页正文提取进行了研究,给出网页分块算法的具体过程。第二,对网页消重算法进行了研究和改进:针对Internet上大量重复和转载网页的问题,研究了基于距离的网页消重算法和全文分段签名算法,其中前者通过引入向量空间模型,通过计算网页相似度,大大的提高了网页消重的质量;对于后者则在原有的全文分段签名算法的基础上进行了改进,大大地缩小了数据集,解决了原有方法速度慢的问题。第三,研究并改进了现有聚类算法:研究并比较了包括K均值聚类算法、EMClustering算法、基于容错粗糙集的聚类算法、最小-最大超盒聚类算法在内的聚类算法;在原有算法基础上提出了旋转最小-最大超盒聚类算法、基于容错粗糙集的旋转最小-最大超盒聚类算法,其中:前者利用模糊理论中的超盒理论来对聚类定义,解决了原有聚类算法对簇的形状识别和处理的局限;后者利用容错粗糙集的理论解决了大多数聚类算法只侧重于类内尽量相似,类间差异尽量大而导致的没考虑交叉语义存在的情况,使聚类结果更加可理解。第四,在现有搜索引擎的基础上提出了高校搜索引擎系统并给出了网页消重和聚类算法在高校搜索引擎中的应用:其中,前者给出了高校搜索引擎的系统结构、工作原理和工作流程:后者给出各种算法在高校搜索引擎中的应用过程:包括网页预处理过程的网页正文提取、网页消重算法、以及网页聚类过程中K均值聚类算法,K-mediods算法,...,最小-最大超盒聚类算法等在高校搜索引擎中的应用。最后给出了各种算法的评价和比较。经实验验证,本文提出的算法能够解决当前高校搜索引擎面临的基本问题,并优于大部分现有算法。
其他文献
图像拼接(Imgae Mosaic)技术是将一组存在重叠部分的图像序列进行空间匹配对准,经重采样融合后形成一幅包含各图像序列信息的宽视角场景的、完整的、高清晰的新图像的技术。
随着信息技术的高速发展,我们逐渐从信息匮乏的时代走向了信息过载的时代,从海量的信息中获取有用并且感兴趣的信息越来越困难。推荐系统作为克服信息过载的重要工具,受到工
随着科技和网络的快速发展,如今我们已经进入数据信息的时代,每天都会有大量的数据在各种社交平台或者新闻网站上产生,其中一般都是文本数据。如何才能从这些浩如烟海的文本
随着信息化的发展,公安系统内部建立了大量的应用系统,这些应用系统在开发语言、部署平台、通信协议、对外交互数据的格式上都存在着极大的不同。为了打破这种信息孤岛壁垒,实现
二维工程图数字水印技术的研究涉及密码学、图像处理、信息安全等多门学科,是数字水印领域中一个重要研究方向。本文重点研究了二维CAD工程图脆弱水印技术。首先,论文阐述了
实时模拟具有复杂边界的大规模流体场景具有极其重要的研究与应用价值。为了加速模拟具有较大规模的流体场景,并且能够实时地与复杂流体边界进行交互,本文提出了一套可在通用
人类社会是在信息交流的基础上建立的,因而通信对人类社会文明、进步与发展起着巨大的推动作用。在物联网产业快速发展的同时,无线传感网络也受到了更多的关注。低成本和低功
信息技术正从以计算设备为核心的计算时代和以交换机为中心的网络时代进入到以存储为核心的存储时代。面对大容量存储设备和存储系统,准确评测其应用级性能、可用性是待解决
语音识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别出说话人的过程,是语音信号处理的一个重要研究方向。作为一种生物识别技术,它具有广泛的应用前景,得
2010年,全球的数据量跨入了ZB时代,根据IDC预测,至2020年全球将拥有超过35ZB的数据量,海量数据将直接或者间接的影响我们的日常工作、生活,乃至国家经济以及社会的发展[1]。