互联网中文内容搜索聚合系统的研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yao080803
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术和应用的不断发展,使得互联网承载了越来越多的信息。互联网的去中心化发展以及社交工具、自媒体工具在人们生活中的广泛使用也使得越来越多的互联网用户参与到了信息生产的过程中,信息的不断分享与转载使得很多同质的信息重复的出现在互联网上。搜索引擎技术为用户提供了更高效和便捷的检索服务。然而互联网上信息的快速增长和同质信息的重复出现也为搜索引擎技术的发展提出了新的需求和挑战。搜索结果聚合作为搜索引擎的拓展技术被提出,旨在对搜索引擎针对用户查询词所检索的结果集进行基于主题的结构化聚合,并将结构化的聚合结果呈现给用户,便于用户能够获得更高效和更便捷的信息检索体验。搜索结果聚合技术为搜索引擎未来的发展带来了新的启示和可能。  本文介绍了搜索聚合技术的研究现状,分析搜索聚合系统的目标需求、系统架构,并对其架构的各个核心模块的功能进行了阐述。设计实现了一个基于互联网中文内容的搜索聚合基础系统,并利用该系统进行了多个搜索聚合技术核心问题的研究和分析。  本文的主要工作和创新点如下:  (1)深入的分析了搜索聚合系统的各个模块以及技术的核心问题,并涉及了搜索聚合系统的三个核心环节的研究与讨论:数据预处理,文档特征提取和聚合算法。针对互联网中文内容的搜索聚合设计并实现了用于研究分析的基础搜索聚合系统,包含了搜索聚合系统的四大核心模块:搜索结果获取,数据预处理,文档特征提取,文档聚合及主题标签生成。结合开源API对聚合结果进行结构化的呈现。  (2)根据对搜索聚合系统各个模块及技术的核心问题的分析,有三个核心因素对于主题聚合和主题标签的质量有重要影响:数据源,文档特征提取和主题标签构成形式。为了更高效地从搜索结果网页集合中获得更为纯净的网页正文内容作为后续算法的“数据源”,本文设计了基于布局相似性的网页正文内容提取算法。该算法相比于学术与工程界的大多数现有算法,具有思路简单、计算量小、运算效率高和普适性好等特点,并对非文本主题型的网页做了鲁棒性处理,能够充分适应搜索结果网页样式各异的应用场景,获取网页的核心正文内容或替代性的核心内容。  (3)为了考察“文档特征提取”和“主题标签构成形式”对主题聚合簇和主题标签质量的影响,本论文对主题内涵丰富的查询词对应的搜索结果文档集进行聚合操作,并从算法的聚合效率,文档集的聚合程度,聚合簇内文档主题的一致性,主题标签的语义性、描述性和概括性这几个方面来研究分析了搜索聚合系统的聚合簇质量和主题标签质量问题。根据实验结果的分析,本论文指出了搜索聚合算法应用于实际时的优点和不足,并提出了相关问题的后续研究思路。
其他文献
图像融合是通过综合多源图像的冗余和互补信息,得到探测目标相对精确可靠的解译和相对完整一致的信息描述的过程。本文基于梯度场进行像素级的图像融合算法的研究,并解决三个方
本论文选题来源自科技部重点项目——国家科技基础条件平台门户应用系统。为适应新时期、形式的要求,2002年3月科学技术部提出了构建国家科技基础条件平台的设想,得到了国务院
现在计算机汉字字库通常还是由制作人员通过完全人工的方法进行制作,随着计算机、互连网和印刷技术的发展及汉字字库的不断扩充,提高汉字字库制作的效率成为一个非常重要的问题
科学数据库及其应用系统(简称“科学数据库”)是中国科学院“十五”信息化建设的重大项目。科学数据库采用逻辑上集中、物理上分布的建库和运行服务体系。随着资源数量的日益
随着个人计算设备和互联网的迅速发展,通信软件得到了越来越广泛的应用,并且逐渐成为人们日常生活中不可缺少的一个重要部分。目前学术界也逐步加强在高质量的音频、视频流媒体
随着网络的迅速发展,信息已经成为一种重要的战略资源,信息技术已经渗透到经济,金融,交通,银行各行各业,人们的决策越来越依赖信息。信息战已经成为未来的战争的重要形式。 在信
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规
本文在简单的介绍了入侵检测技术的概念和困难后,引入了安全事件管理的概念。首先阐述了安全事件管理目前的一些研究现状和它所涉及的一些技术,并介绍了关联算法。然后使用攻击
学位
供应商关系管理,是企业供应链上的一个基本环节,它建立在对企业的供方以及与供应相关信息完整有效的管理与运用的基础上,对供应商的现状、历史,提供的产品或服务,沟通、信息交流、
网格技术将分布的资源做统合并有效的利用。它为用户提供了访问、使用和控制分布在不同域的异构资源的能力,同时为网格安全带来新的问题。科学数据网格是以中国科学院十五信息