基于邻域本体的图情博客语义搜索系统研究

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:jianjia88521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的迅猛发展,其中的服务项目--Blog的网页数量急剧增长,如何在数以百万的Blog页面中找到主题相关的Blog网页成为博客检索的一个重要研究内容。由于Blog网页资源的独特特征,普通的网页搜索引擎对Blog的检索效率不高,于是针对Blog页面的专业搜索引擎Blog搜索引擎诞生了。然而现有Blog搜索引擎技术存在一些不足,表现在以下三个方面:第一,现有对博客资源搜索的研究未涉及到语义组织层面;第二,目前的Blog搜索引擎不支持语义查询扩展;第三,现在国内外的Blog搜索引擎检索结果都差强人意。目前尚无专门用于专业领域学术博客的语义搜索系统,研究人员一般借助现存可用的通用网页搜索引擎等工具来实现检索。因此开发一个适用于某一领域学术博客的专业搜索系统将会给研究人员的工作带来更多的方便。   本文从这一实际出发,基于自身所学知识,选择与专业相关的图情领域学术博客作为研究对象,探讨了一种新的信息检索模式--图情博客语义检索,即以领域本体库作为概念支撑,从传统的面向句法和结构的关键词匹配转变为面向语义概念的推理,使整个博客资源的搜索上升到语义层面。笔者从语义信息描述、语义本体构建、语义检索几个方面对图情博客语义检索系统的关键问题进行了深入分析和研究,选择有代表性的图情博客资源作为实例对象,利用本体构建的方法,构建了图情领域本体,在此基础上,通过概念之间的语义联系,实现对图情博客资源的语义描述、图情博客语义检索系统的设计、构建和实现。该系统的测试结果表明,文中提出的博客资源语义检索模式与传统搜索引擎相比更能为用户提供准确的信息,说明语义检索能够满足用户语义层面的需要。   本文主要研究内容如下:1、语义信息描述。本体是语义信息的描述基础,语义信息主要由语义类、语义属性、语义关系、语义规则和语义实例构成,而这和本体中的概念、概念属性、概念关系、规则和公理、本体实例对应;语义信息提取是本体实例化的一种重要形式,在语义信息描述模式被定义后,所有的类或概念、属性、关系将根据实际情况进行具体赋值,这个过程也可以称为本体实例化;本体是语义检索的构成基础之一,由于本体本身具有一定的推理功能,可以利用本体进行扩展查询,从而使检索结果更加全面。本文引入本体概念描述图情博客资源,具体介绍了本体的功能、结构、构建方法和描述工具,分析了几种构建方法和工具的利弊,选用七步法配会Protégé工具构建图情领域本体。   2、领域本体知识库构建。由以上对语义信息描述的研究可知,一个专业的领域本体的构建需要有完善的领域概念框架。本文试图利用《中国图书馆分类主题词表》和《汉语叙词表》中规范的叙词和关系来搭建图情领域本体的基本框架体系。因此,笔者分析了叙词表和本体的联系和区别,指出其结构上的相似性,并阐述了基于叙词表向本体转换的可行性和必然性,提出了具体的转化步骤。在此基础上,进行图情领域本体的构建,给出了构建原则、步骤、本体结构和详细的构建实例,并通过设计算法实现形式化本体的生成和导出。然后设计并实现了以叙词表为基本框架的图情博客本体的语义检索系统。   3、图情博客语义检索。语义检索的主要任务是从某一领域相关的非结构化信息、半结构化语义信息和结构化信息中提取语义实体和语义关系实例,并将结果存储到检索结果库中。对于图情学术博客这一有特殊结构形式的半结构化网页信息,通过建立原有结构和语义类及属性之间的映射关系,可以进行数字化处理。本文研究的语义检索是区别于传统关键词检索的,对检索条件、信息组织及检索结果都赋予了一定语义成份的新的检索方式。从语义信息检索的新模式出发,详细分析和研究了基于本体驱动的图情博客语义检索系统的总体结构以及详细功能模块设计,并对系统的功能进行了测试和评价,证明了本文提出方法的可行性。由此证明了这种新的语义检索模式能够提高博客资源的利用率,更好的满足用户检索需求。最后,总结了本文研究中存在的问题,提出了后续研究的方向和内容。   本文以叙词表为框架的图情博客领域本体构建方法研究以及基于该领域本体的语义搜索引擎系统的设计、开发与实现是本文的重点研究内容和创新之处。该原型系统证明了基于叙词表构建博客领域本体并实现语义检索的可行性。文章详细设计了检索实例,对系统进行了测试,验证了系统检索效率的提高,对今后博客资源组织和语义描述有一定参考价值和现实意义。
其他文献
[目的/意义]为ISO术语国际标准实现语义Web化服务提供可行的方案和系统验证.[方法/过程]针对ISO 5127(Information and Documentation-Foundation and Vocabulary)的整体信息
到台湾田村不能错过的一件事,就是去吃牛肉面。我在台湾吃过几十种牛肉面,但是最有意思的,最有话题性的,要数“牛爸爸”餐馆这一家。我是听带我的一个导游讲,说这家牛肉面特
互联网的飞速发展使得数字化资源爆发式增长。而不同文献类型的数据库采用的分类方式不同,这就使得信息资源共享、跨库检索变得困难。同时,在学术评价实践中,如何分类,如何选择对
[目的/意义]基于本地计量技术的电子资源使用统计系统尝试解决数据库商数据在可靠性、统计粒度、统计范围等方面的不足,对这些系统进行分类、比较与评价,有助于了解不同系统
目的医学模式的转变,要求乡村医生注重综合素质的培养;而乡村医师需在执业岗位上,不能经常集中上课而必须以业余自学为主的特点,使得乡村医生应该提高自导学习能力。由此可见
随着信息社会的不断推进,大学图书馆的学术资源交流面临着各种困难。除了纸张文献价格的上涨等传统问题之外,大学图书馆的服务职能面临着新的挑战。大学图书馆的任务不再仅仅为
在当今信息化社会中,随着网络信息的增长,无线射频技术(RFID)的应用空间广阔并逐步扩大,发挥着越来越重要的作用,在图书馆管理中尤其如此。本文简单介绍了RFID技术的概念、发
随着社会信息化进程的不断推进,我国数字档案馆建设迎来了发展的高潮。数字档案馆主要有三个基本功能:一是对数字档案的接收;二是对数字档案信息的整理和保管;三是数字档案信
学位
分析了企业商业情报流失的原因 ,提出了对商业情报进行保护的措施。 Analyzes the reasons why the loss of business intelligence, and puts forward measures to protect
摘 要:在社会的发展以及科学技术不断发展的背景下,人民群众对于矿产资源的要求逐渐加强。近年来,伴随着采矿业的不断发展,我国存在的浅层矿产资源很早就被开采殆尽,因此,为了不断满足当今社会在矿产资源方面的需求,非常有必要加强地质勘探以及深部地质钻探找矿工作,不断探寻矿产资源。本文将对地质勘查以及深部地质钻探找矿技术的发展进行分析。  关键词:地质勘查;深部地质钻探;找矿技术  中图分类号:P634 文