论文部分内容阅读
当用户向搜索引擎提交查询后,搜索引擎向用户返回命中网页的标题、URL和网页摘要,网页摘要对于用户快速了解网页概要、提高搜索效率具有重要的作用。人们对传统的文本自动摘要算法进行了很多研究,然而由于应用场景的差异,这些研究成果无法直接用于网页摘要,目前针对搜索引擎上的网页摘要技术的专门研究还比较少。
要从原始的HTML网页得到符合用户查询需求的网页摘要,涉及到网页预处理,句子特征的选取和权重的计算,以及摘要内容消重等。本文对网页摘要生成所涉及的多个方面进行了研究,实现了一个完整的网页摘要抽取系统,主要的工作如下:
1、在网页预处理模块中实现了对网页的去噪处理和网页的句子划分。其中,去噪处理减少了无关信息出现在摘要中的可能,句子划分则使得摘要的内容较为连贯,意义较为完整。
2、提出了使用句子的查询相关特征、主题相关特征以及TF/IDF特征,来计算句子的权重,这些特征分别反映用户的查询需求、网页的主题和网页的特色内容。实验表明,本文的特征选取及权重计算是较为科学的。
3、基于原始的MMR(Maximum Marginal Relevance)方法,提出了MMR-WPS(MMR for Web Page Summarization)方法用于消除摘要的内容冗余,实验表明消重处理能够在一定程度上提高网页摘要质量,对内容较长的网页尤其明显。
4、建立了一个摘要评价系统。通过改进著名的Pyramid摘要评价方法,利用商业搜索引擎构建中文网页摘要评价数据集,从而使得摘要评价可以脱离人工参与大规模自动地进行。
本文设计和开发的网页摘要系统,已应用于木棉检索系统中,和开源的Nutch系统的摘要相比,在摘要的可读性和信息量上有了较大的提高。