论文部分内容阅读
当今中国,随着互联网的普及和网络终端的高速发展,网络已经深入到了人们生活的方方面面。面对海量的网络信息,搜索引擎的出现极大的方便了普通用户的操作,但大量的重复或近似网页使得用户对搜索结果不甚满意。如何有效的查找并去除这些重复或近似的网页,提高搜索的效率,已经成为一种迫切的需要。在这种形势下,网页查重技术得到了极大发展。
当前的查重方法主要是针对英文等字母体系的语言,中文由于语言的复杂性,在网页的查重问题上存在着较大的困难。本文主要研究搜索引擎中中文网页查重的问题,借鉴了计算生物学的序列比对技术,提出了一种基于词性标注(POS)和最长公共子序列(LCS)相结合的网页查重方法。论文主要工作如下:
(1)介绍了网页查重技术的起源以及常见的网页查重方法,并对其特点进行了对比分析,理清了论文研究的方向和思路。
(2)对网页预处理技术进行了研究,重点对网页正文提取技术和中文语言体系进行了分析,并对中文分词和词性标注方法进行仔细比较。着重对基于隐马尔可夫模型的分词和词性标注进行了认真学习和研究,为选择合适的分词和词性标注方法奠定了基础。
(3)阐述了计算生物学领域的序列比对技术的思想,对序列比对算法(特别是动态规划算法)进行了认真研究,最终决定把LCS的动态规划算法作为研究使用的网页相似度计算方法。
(4)对基于Lucene建立全文搜索平台的流程和方法进行了认真学习,将ICTCLAS内嵌到Lucene的分词模块中,搭建了基于Lucene和JSP中文全文搜索平台。
(5)基于序列比对的思想,提出了一种将词性标注和最长公共子序列结合起来的网页查重方法。利用百度对关键词的搜索结果,共采集了10组共1000个网页的源数据进行了实验,并对实验结果进行了分析,验证了该方法的可行性。
(6)对实验中存在的不足和缺陷进行了仔细分析,对实验所提的方法在搜索引擎网页查重和中文文本信息处理领域的应用前景进行了展望。