论文部分内容阅读
近年来,Internet发展迅速并已渗透到生活的各个角落,Internet上蕴藏着大量的各类新闻信息,传统的新闻获取方式受到极大的挑战,人们进入了一个“信息爆炸”、“新闻过剩”,而“新闻知识匮乏”的时代,通用搜索引擎在一定程度上解决了上述问题。由于Web的动态性和规模越来越大,通用搜索引擎索引数据库的索引逃逸子空间不断扩大,其查询接口也很难满足特定用户的查询请求。因此,新闻主题搜索引擎应运而生。目前,Internet已成为人们获取新闻的重要来源,如何从大量的新闻网站中准确、快速地找到所需要的新闻已成为新闻搜索引擎的首要目标,为实现该目标,本文尝试在新闻主题搜索引擎中加入语义概念,试图通过本体在语义方面的强大表达能力并借助于局部上下文信息,来增强搜索引擎的语义理解能力及查询精度。由新闻主题搜索引擎入手来研究专业搜索引擎,这种构想也会对专业搜索引擎的发展产生一定的影响。为实现上述目标,本文主要做了如下两方面的工作:1.构建新闻领域本体。首先,介绍了构建新闻领域本体的意义和策略,将软件工程学的思想融入到新闻领域本体的构建过程当中;然后,详细论述了领域本体的构建过程,并对每步都做了较详细的分析;最后,根据本文算法的需要,利用本体构建工具protégé3.3.1并参照其他领域本体的构建方法构建了一个简单的新闻领域本体。2.设计并实现了新闻主题搜索引擎,详细介绍了该系统的功能及构成模块,给出了新闻主题搜索引擎的语义检索模型。将本文提出的基于本体和局部上下文分析的查询扩展方法应用于该系统,重点论述了查询扩展方法中的语义扩展、扩展词的筛选等关键技术。最后对实验的结果进行分析并加以总结,验证了该方法的有效性。