面向网页排序的关键词权值计算

被引量 : 0次 | 上传用户:cqwcr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科技的发展和互联网的日益普及,搜索引擎深受人们的重视,近年来最主流的搜索引擎是基于关键词检索的搜索引擎,在基于关键词检索的搜索引擎中,用户查询语句中各个词语权值计算的精度将直接影响到后续网页排序的好坏,因此正确计算检索条件中词语权值是至关重要的。本文的研究是试图寻找一种面向网页排序的用户查询语句关键词权值计算方法,使基于关键词检索的搜索引擎在网页排序这一环节达到一个更高的水平,为后续检索处理打下良好的基础。为了完成研究目的,本文的工作主要包括以下三个部分:用户查询语句自身特点分析。对标注了核心词的5000句查询语句自身特点与词语权值关系进行分析,对查询语句中含有的停用词和现代汉语语料中停用词进行分析,并对不同类别下查询语句中停用词进行了分析和举例。面向网页排序的关键词权值计算。对用户查询日志进行分词和词性标注,将关键词抽取任务视为分类任务,结合查询语句自身的特点,最终确定出每个词语的八个上下文特征作为决策树森林分类的特征,并分别介绍了各个特征的计算方法。并对实验结果进行错误分析,加入一些规则对模型分类的结果进行后处理。实验结果分析。对决策树分类方法与传统关键词提取和权值计算方法的结果进行对比分析,从用户查询日志中随机抽取1000条左右查询语句进行人工评测,使用交叉验证的方法评测模型准确率和召回率;比较模型方法与传统的网页排序中权值计算方法的胜出率;选择几个查询语句,到“百度”上搜索,得出由模型确定的关键词序列进行搜索与不对关键词进行处理的查询语句搜索对网页排序效果的影响。实验结果表明本文采用的关键词抽取和权值计算方法在网页排序的权值计算中是切实可行的。
其他文献
银行作为金融机构的典型代表,在国家经济生活中起着特别重要的作用。现阶段我国正处于经济的转轨时期,金融体制的改革在不断推进,作为高风险行业的金融业,面临着各种各样的问
为应对新形势下高校学生档案管理工作出现的档案信息失真、档案信息不足、档案不规范等具体问题,在进行高校学生档案管理工作时要确保学生档案的真实性;确保学生档案的规范化
提高中小企业自主创新能力具有十分重要的战略意义,中小企业的发展关系着我国企业整体的发展水平,也关系着我国经济的持续健康发展。提升中小企业自主创新能力,有助于促进经
在这个商品经济高度发展的社会,普及后的媒体信息铺天盖地。广告无处不在!在生活中,即使是个小孩儿都能背诵几条经典广告语。目前,企业界、广告界一致认为,广告即是一门科学也是一
在时隔25年后,联合国颁行了93版国民账户体系(SNA1993)。在此基础上,包括中国在内的许多国家都根据本国的国情,相继制订实施了自身的国民经济核算体系,例如中国就推出了《中国国民
聚合物太阳能电池因结构简单、质轻、价格低廉、工艺简单、可制备成大面积柔性电池等特点,被誉为优秀的新型能源之一。为了进一步提高PCBM([6,6]-苯基-C61-丁酸甲酯)基聚合物
目的:了解新疆塔河油田职工代谢综合征(MS)的流行现状及分布特点,根据2005年国际糖尿病联盟(IDF)、2005年美国国家胆固醇教育计划成人治疗组第3次报告(ATPⅢ)、2004年中国糖尿病协
望远镜广泛应用于天文观测、资源考察、气象预报和太空探索等领域。随着科学技术的发展,对望远镜成像分辨率的要求越来越高,其口径不断增大以适应成像质量及各种参数的要求,但口
现在的上市公司盈余管理行为非常的常见,并存在过度盈余管理甚至是盈余操控的现象,对企业所有者及外部相关单位部门等使用会计信息的人员产生很大的影响。盈余管理程度的高低必
MapReduce是一种面向海量信息处理的云计算编程模型。一个MapReduce作业是功能单一的程序,其能完成的功能有限。为了完成一个复杂的任务,MapReduce作业之间需要相互协作。虽然