论文部分内容阅读
随着Web2.0的迅猛发展,其中的服务项目--Blog的网页数量急剧增长,如何在数以百万的Blog页面中找到主题相关的Blog网页成为博客检索的一个重要研究内容。由于Blog网页资源的独特特征,普通的网页搜索引擎对Blog的检索效率不高,于是针对Blog页面的专业搜索引擎Blog搜索引擎诞生了。然而现有Blog搜索引擎技术存在一些不足,表现在以下三个方面:第一,现有对博客资源搜索的研究未涉及到语义组织层面;第二,目前的Blog搜索引擎不支持语义查询扩展;第三,现在国内外的Blog搜索引擎检索结果都差强人意。目前尚无专门用于专业领域学术博客的语义搜索系统,研究人员一般借助现存可用的通用网页搜索引擎等工具来实现检索。因此开发一个适用于某一领域学术博客的专业搜索系统将会给研究人员的工作带来更多的方便。
本文从这一实际出发,基于自身所学知识,选择与专业相关的图情领域学术博客作为研究对象,探讨了一种新的信息检索模式--图情博客语义检索,即以领域本体库作为概念支撑,从传统的面向句法和结构的关键词匹配转变为面向语义概念的推理,使整个博客资源的搜索上升到语义层面。笔者从语义信息描述、语义本体构建、语义检索几个方面对图情博客语义检索系统的关键问题进行了深入分析和研究,选择有代表性的图情博客资源作为实例对象,利用本体构建的方法,构建了图情领域本体,在此基础上,通过概念之间的语义联系,实现对图情博客资源的语义描述、图情博客语义检索系统的设计、构建和实现。该系统的测试结果表明,文中提出的博客资源语义检索模式与传统搜索引擎相比更能为用户提供准确的信息,说明语义检索能够满足用户语义层面的需要。
本文主要研究内容如下:1、语义信息描述。本体是语义信息的描述基础,语义信息主要由语义类、语义属性、语义关系、语义规则和语义实例构成,而这和本体中的概念、概念属性、概念关系、规则和公理、本体实例对应;语义信息提取是本体实例化的一种重要形式,在语义信息描述模式被定义后,所有的类或概念、属性、关系将根据实际情况进行具体赋值,这个过程也可以称为本体实例化;本体是语义检索的构成基础之一,由于本体本身具有一定的推理功能,可以利用本体进行扩展查询,从而使检索结果更加全面。本文引入本体概念描述图情博客资源,具体介绍了本体的功能、结构、构建方法和描述工具,分析了几种构建方法和工具的利弊,选用七步法配会Protégé工具构建图情领域本体。
2、领域本体知识库构建。由以上对语义信息描述的研究可知,一个专业的领域本体的构建需要有完善的领域概念框架。本文试图利用《中国图书馆分类主题词表》和《汉语叙词表》中规范的叙词和关系来搭建图情领域本体的基本框架体系。因此,笔者分析了叙词表和本体的联系和区别,指出其结构上的相似性,并阐述了基于叙词表向本体转换的可行性和必然性,提出了具体的转化步骤。在此基础上,进行图情领域本体的构建,给出了构建原则、步骤、本体结构和详细的构建实例,并通过设计算法实现形式化本体的生成和导出。然后设计并实现了以叙词表为基本框架的图情博客本体的语义检索系统。
3、图情博客语义检索。语义检索的主要任务是从某一领域相关的非结构化信息、半结构化语义信息和结构化信息中提取语义实体和语义关系实例,并将结果存储到检索结果库中。对于图情学术博客这一有特殊结构形式的半结构化网页信息,通过建立原有结构和语义类及属性之间的映射关系,可以进行数字化处理。本文研究的语义检索是区别于传统关键词检索的,对检索条件、信息组织及检索结果都赋予了一定语义成份的新的检索方式。从语义信息检索的新模式出发,详细分析和研究了基于本体驱动的图情博客语义检索系统的总体结构以及详细功能模块设计,并对系统的功能进行了测试和评价,证明了本文提出方法的可行性。由此证明了这种新的语义检索模式能够提高博客资源的利用率,更好的满足用户检索需求。最后,总结了本文研究中存在的问题,提出了后续研究的方向和内容。
本文以叙词表为框架的图情博客领域本体构建方法研究以及基于该领域本体的语义搜索引擎系统的设计、开发与实现是本文的重点研究内容和创新之处。该原型系统证明了基于叙词表构建博客领域本体并实现语义检索的可行性。文章详细设计了检索实例,对系统进行了测试,验证了系统检索效率的提高,对今后博客资源组织和语义描述有一定参考价值和现实意义。