论文部分内容阅读
近二十年以来,随着计算机技术、网络技术的在农业领域的飞速发展和广泛普及,农业领域信息技术的应用越来越受到社会关注,农业信息涉及用户覆盖面越来越广泛。农业信息化技术发展面临着新的挑战,特别是如何适应农业不同层次用户的需求,如何把农业技术通过信息技术快速、准确的传送到农业用户,成为农业信息服务建设领域面临的紧迫问题。问答系统是一个综合应用人工智能、信息检索、自然语言处理、信息抽取等技术的综合信息系统,它提供了一个简单的用户输入接口,对用户使用自然语言提出的问题,进行分析、处理,返回给用户一个简洁的答案。比较符合农业用户的需求。把问答系统应用于农业信息领域,通过对农业领域信息的检索、抽取、挖掘,可以解决农业领域技术涉及知识面广、系统结构复杂的问题,可以提高信息获取的精准度。本文结合问答系统的组成部分,分别对其中的若干关键问题进行了研究:1、本文首先对自然语言处理、信息检索、信息抽取、本体论等理论基础和发展现状给予介绍分析;结合学者们在问答系统方向的研究成果,给出问答系统的逻辑组成,然后按照系统组成分别对研究重点和难点给予分析。结合我国农业现状,分析了当前农业信息技术所面临的问题,提出了把问答系统应用到农业领域的可行性。2、对农业本体的构建进行了讨论,一是研究了本体中的基本概念,本体构建的规范和流程;二是重点研究了本体构建中概念、关系的抽取方法,为解决由农业叙词表转换农业本体中出现的本体关系稀疏的问题,为此本文提出了基于互信息的有监督本体关系抽取方法。3、对问句分析中的相关问题进行了研究,主要内容:一是引入了领域特征词的概念,用其来描述本体中的关系;二是提出了基于隐马尔可夫链的领域特征词识别抽取算法,由此实现对问句中蕴含的语义信息和领域中特征词的分析;三是研究了问题分类的方法,给出了基于本体的概念相似度计算方法,提出了基于问句特征词与问题分类特征词相似度的问题分类方法。4、研究基于本体的信息检索的方法,重点研究基于农业本体文档检索模型的构建方法,给出了问句与文档相关度计算方法,本文提出了构建基于领域本体的文档检索模型。5、答案抽取是问答系统的重要组成部分,本文提出了基于LAD的答案抽取方法,该方法主要由以下步骤:一是利用吉布斯(Gibbs)抽样进行推理,间接计算模型参数,获取词汇的概率分布,建立LDA主题模型;二是以Clarity度量块间相似性,并通过局部最小值识别片段边界,对文档进行段落分割;三是依据词汇的香农信息提取片段主题词,采取背景词汇聚类及主题词联想的方式将主题词进行扩充,形成段落主题词串;四是计算问句与段落主题词串的相似度,取相似度最高的段落为答案。6、研究面向农业领域的问答系统的架构设计,提出了基于云计算架构的农业问答系统的架构设计方法,系统架构中的存储系统使用开源分布式文件系统HDFS和非关系型数据库HBase;介绍分析HDFS和HBase的原理,描述了HDFS和HBase农业问答系统中的应用架构,结合上述问答系统的算法,提出了面向农业领域的问答系统逻辑构架。7、针对问答系统设计了实验方法,选择评价标准,主要进行了问句分析中领域特征词识别和问题分类实验,基于本体的信息检索实验和面向农业领域的答案抽取正确率的实验,每个实验都设计了数据模型,对实验结果给予分析,证明本文所提出方法的性能。