论文部分内容阅读
互联网时代,随着信息技术的快速发展,知识正呈现海量、多源、异构化趋势,如何对知识进行组织管理从而有效获取是信息检索领域的研究热点,本体作为一种新型的知识组织工具,具有良好表示语义关系且支持逻辑推理的特点,得到广泛的应用。茶是世界三大无酒精饮料之一,种植区域遍布全球,中国作为茶叶发源地,有着悠久的茶学研究历史,茶学知识涉及栽培、生物化学、病虫害、检验学、机械学、文化习俗、产业经济等众多领域,在此技术和知识背景下,本文以丰富的茶学知识作为研究对象,采用本体技术实现茶学知识的组织以及检索系统的本体应用,本文主要可分为三个部分:第一部分,本文首先对本体的定义、分类、应用进行了学习,又深入了解知识经济社会中组织工具的发展,对比分析各个组织工具的优势与不足,指出本体在信息组织方面受到重点关注,由于本文研究对象为茶学,属于农学一部分,因此对农学本体研究现状也做了调查分析,本体构建理论基础知识如构建方法、编辑工具和开发工具也都一一进行了学习以供后续茶学本体的构建。第二部分,在调查本体人工构建费时费力、专家依赖性强等不足后采用本体学习方法对茶学本体进行半自动构建。在对本体学习方法深入分析后,运用本体构建方法中的“七步法”和“骨架法”构建茶学本体,首先使用ICTCLAS分词系统将获取语料进行分词处理和词性标注,编写程序完成指定词性和停用词的删除,其次采用TF-IDF方法实现基于权重的特征词筛选来抽取茶学概念,获得候选概念集,并结合叙词表、茶叶辞典和领域专家进行术语规范和补充,然后依据关联规则挖掘方法设定支持度、置信度阈值来识别概念间关系,通过以上主要步骤获得茶学本体相应的类、属性、实例,利用本体编辑软件Prot e ge完成形式化表示,主要有类层次的确定、对象属性定义域和值域的设置、数据属性的限制等,并加入本体评价与优化步骤,由Prot ege自带HermiT推理机进行逻辑一致性检测,力证所构建茶学本体的合理性。第三部分,基于茶学本体实现知识检索方面的应用,首先阐述了传统信息检索存在的用户忠实表达难、词形匹配、词汇孤岛的局限性以及知识检索所具有的语义匹配、智能推理的优势,其次探讨了基于茶学本体知识检索关键技术的解决,包括扩展查询功能、信息资源标引功能、资源检索功能的实现,具体是运用Jena语义包进行本体的读取和解析,Ecl ipse开发工具界面的编写使得检索系统在基于关键词的检索方法中实现了同义词、上位词、关系词的语义扩展,提高了一定程度的查全率和查准率。