中文网页查重方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:wubo123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今中国,随着互联网的普及和网络终端的高速发展,网络已经深入到了人们生活的方方面面。面对海量的网络信息,搜索引擎的出现极大的方便了普通用户的操作,但大量的重复或近似网页使得用户对搜索结果不甚满意。如何有效的查找并去除这些重复或近似的网页,提高搜索的效率,已经成为一种迫切的需要。在这种形势下,网页查重技术得到了极大发展。   当前的查重方法主要是针对英文等字母体系的语言,中文由于语言的复杂性,在网页的查重问题上存在着较大的困难。本文主要研究搜索引擎中中文网页查重的问题,借鉴了计算生物学的序列比对技术,提出了一种基于词性标注(POS)和最长公共子序列(LCS)相结合的网页查重方法。论文主要工作如下:   (1)介绍了网页查重技术的起源以及常见的网页查重方法,并对其特点进行了对比分析,理清了论文研究的方向和思路。   (2)对网页预处理技术进行了研究,重点对网页正文提取技术和中文语言体系进行了分析,并对中文分词和词性标注方法进行仔细比较。着重对基于隐马尔可夫模型的分词和词性标注进行了认真学习和研究,为选择合适的分词和词性标注方法奠定了基础。   (3)阐述了计算生物学领域的序列比对技术的思想,对序列比对算法(特别是动态规划算法)进行了认真研究,最终决定把LCS的动态规划算法作为研究使用的网页相似度计算方法。   (4)对基于Lucene建立全文搜索平台的流程和方法进行了认真学习,将ICTCLAS内嵌到Lucene的分词模块中,搭建了基于Lucene和JSP中文全文搜索平台。   (5)基于序列比对的思想,提出了一种将词性标注和最长公共子序列结合起来的网页查重方法。利用百度对关键词的搜索结果,共采集了10组共1000个网页的源数据进行了实验,并对实验结果进行了分析,验证了该方法的可行性。   (6)对实验中存在的不足和缺陷进行了仔细分析,对实验所提的方法在搜索引擎网页查重和中文文本信息处理领域的应用前景进行了展望。
其他文献
随着虚拟仪器软件LabVIEW的出现,数据流编程方式渐渐地改变了传统文本语言编程的方式,图形化编程逐步扩大着编程语言开发的市场领域,另一方面,当前的指纹识别系统逐渐向着小型化
随着射频技术的发展,RFID被广泛的应用于物流、零售等众多领域。RFID系统中,多个标签同时回复阅读器时会发生碰撞。为了减少碰撞,提高标签识别效率出现了两类防碰撞算法,一类是基
目前互联网上每天爆发着海量的信息,搜索引擎成了我们查找信息的最重要的工具。然而搜索引擎所提供的信息检索服务大多数仍然是大众化的,这种综合性搜索引擎往往不能满足特定用
我国公路的发展一日千里。道路质量的及时检测在延长道路使用寿命的同时,也可以避免路面病害给行车安全方面带来的隐患。考虑到人工检测方法存在效率低、精度低、危险系数较
无线Ad Hoc网络(Wireless Ad Hoc Networks)是没有中心实体和基础设施支持的自组织网络,它由多个带有无线收发装置的移动节点组成。移动终端具有路由转发功能,可以通过无线链
红外热成像技术是利用自然景物的热辐射得到成像数据,形成视觉图像,可以在夜间甚至全黑的环境中工作,而且由于红外辐射具有穿透烟雾的能力,使得红外热成像技术具有很长好的穿
VPN是从专用网络发展而来的,它利用公共网络建立私密传输通道,提供安全地端到端的数据通信。其中PPTP是第二层隧道协议,并且已经集成到Windows操作系统中,具有安全性高、成本
随着生物基因相关技术的发展,基因组测序的完成预示着人类步入了后基因组时代,生物基因的研究方向也从基因序列研究转向了结构和功能的研究。深入挖掘其中的信息,为生命科学
随着互联网、通信以及广播电视等技术在国内的快速发展,智能网络电视作为三网融合的产物,已经显示出了蓬勃的发展前景,成为业界关注的热点。智能网络电视的实现需要服务端软
随着信息技术的迅猛发展以及计算机性能的逐步提高,人们对于计算机的要求也越来越高,处理器也朝着专用化和通用化两个方向发展。在科学计算等领域,随着研究内容的扩展和算法复杂