论文部分内容阅读
随着信息科技的发展和互联网的日益普及,搜索引擎深受人们的重视,近年来最主流的搜索引擎是基于关键词检索的搜索引擎,在基于关键词检索的搜索引擎中,用户查询语句中各个词语权值计算的精度将直接影响到后续网页排序的好坏,因此正确计算检索条件中词语权值是至关重要的。本文的研究是试图寻找一种面向网页排序的用户查询语句关键词权值计算方法,使基于关键词检索的搜索引擎在网页排序这一环节达到一个更高的水平,为后续检索处理打下良好的基础。为了完成研究目的,本文的工作主要包括以下三个部分:用户查询语句自身特点分析。对标注了核心词的5000句查询语句自身特点与词语权值关系进行分析,对查询语句中含有的停用词和现代汉语语料中停用词进行分析,并对不同类别下查询语句中停用词进行了分析和举例。面向网页排序的关键词权值计算。对用户查询日志进行分词和词性标注,将关键词抽取任务视为分类任务,结合查询语句自身的特点,最终确定出每个词语的八个上下文特征作为决策树森林分类的特征,并分别介绍了各个特征的计算方法。并对实验结果进行错误分析,加入一些规则对模型分类的结果进行后处理。实验结果分析。对决策树分类方法与传统关键词提取和权值计算方法的结果进行对比分析,从用户查询日志中随机抽取1000条左右查询语句进行人工评测,使用交叉验证的方法评测模型准确率和召回率;比较模型方法与传统的网页排序中权值计算方法的胜出率;选择几个查询语句,到“百度”上搜索,得出由模型确定的关键词序列进行搜索与不对关键词进行处理的查询语句搜索对网页排序效果的影响。实验结果表明本文采用的关键词抽取和权值计算方法在网页排序的权值计算中是切实可行的。