论文部分内容阅读
互联网技术和应用的不断发展,使得互联网承载了越来越多的信息。互联网的去中心化发展以及社交工具、自媒体工具在人们生活中的广泛使用也使得越来越多的互联网用户参与到了信息生产的过程中,信息的不断分享与转载使得很多同质的信息重复的出现在互联网上。搜索引擎技术为用户提供了更高效和便捷的检索服务。然而互联网上信息的快速增长和同质信息的重复出现也为搜索引擎技术的发展提出了新的需求和挑战。搜索结果聚合作为搜索引擎的拓展技术被提出,旨在对搜索引擎针对用户查询词所检索的结果集进行基于主题的结构化聚合,并将结构化的聚合结果呈现给用户,便于用户能够获得更高效和更便捷的信息检索体验。搜索结果聚合技术为搜索引擎未来的发展带来了新的启示和可能。 本文介绍了搜索聚合技术的研究现状,分析搜索聚合系统的目标需求、系统架构,并对其架构的各个核心模块的功能进行了阐述。设计实现了一个基于互联网中文内容的搜索聚合基础系统,并利用该系统进行了多个搜索聚合技术核心问题的研究和分析。 本文的主要工作和创新点如下: (1)深入的分析了搜索聚合系统的各个模块以及技术的核心问题,并涉及了搜索聚合系统的三个核心环节的研究与讨论:数据预处理,文档特征提取和聚合算法。针对互联网中文内容的搜索聚合设计并实现了用于研究分析的基础搜索聚合系统,包含了搜索聚合系统的四大核心模块:搜索结果获取,数据预处理,文档特征提取,文档聚合及主题标签生成。结合开源API对聚合结果进行结构化的呈现。 (2)根据对搜索聚合系统各个模块及技术的核心问题的分析,有三个核心因素对于主题聚合和主题标签的质量有重要影响:数据源,文档特征提取和主题标签构成形式。为了更高效地从搜索结果网页集合中获得更为纯净的网页正文内容作为后续算法的“数据源”,本文设计了基于布局相似性的网页正文内容提取算法。该算法相比于学术与工程界的大多数现有算法,具有思路简单、计算量小、运算效率高和普适性好等特点,并对非文本主题型的网页做了鲁棒性处理,能够充分适应搜索结果网页样式各异的应用场景,获取网页的核心正文内容或替代性的核心内容。 (3)为了考察“文档特征提取”和“主题标签构成形式”对主题聚合簇和主题标签质量的影响,本论文对主题内涵丰富的查询词对应的搜索结果文档集进行聚合操作,并从算法的聚合效率,文档集的聚合程度,聚合簇内文档主题的一致性,主题标签的语义性、描述性和概括性这几个方面来研究分析了搜索聚合系统的聚合簇质量和主题标签质量问题。根据实验结果的分析,本论文指出了搜索聚合算法应用于实际时的优点和不足,并提出了相关问题的后续研究思路。