论文部分内容阅读
已有的搜索引擎的排序技术经历了两代的发展。第一代搜索引擎是基于词频和位置的统计排序,如Infoseek,Excite,Lycos等。然而词频统计有很多的不足,它没有利用跟网页链接有关的特性,如链接和锚文本等,而且许多网页内容的制作者为了能够排在搜索结果的前几位,在其页面上堆砌关键词来影响搜索引擎的判断。第二代搜索引擎是基于链接分析的排序,如百度的超链分析和Google的PageRank都属于链接分析排序技术。为了在搜索引擎上得到第一或首页显示,网站常常使用增加链接,互相之间交换链接或者设置链接上的欺骗手段,致使一个内容优秀却无太多链接的网站将很难被搜索引擎发现。排序学习作为网页排序领域中新的方法出现,可以弥补上述两类排序方法的不足。然而现有的排序学习都只适用于英文网页,而对于中文网页的排序学习则缺乏研究。为此,本文首先针对中文与英文的不同特征来设计并实现了应用于排序学习的中文网页的特征提取系统。除了应用传统的TF,IDF,DL等词频统计的方法,还应用了文档相关性提取的经典语言模型BM25,LMIR_ABS,LMIR_DIR和LMIR_JM等方法提取特征,同时本文将编辑距离应用到了排序学习的中文网页特征提取中。然后,搭建了排序学习的系统平台,针对所获得的中文网页特征实现了经典的RankNet和RankSVM排序学习算法,并对它们在中文网页排序中的性能进行了实验结果的对比。最后,将添加编辑距离前后的特征分别输入RankNet和RankSVM两个系统,得出样本的错误率进行对比。实验结果表明在RankNet和RankSVM系统中,含编辑距离比不含编辑距离的错误率降低了3%到10%左右。这也表明了加入编辑距离这个特征的有效性。