面向农业专家系统的自然语言理解接口方法研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:mylocoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的广泛普及和应用,人们对知识服务的需求越来越强烈。知识服务离不开大型知识库的支持。仅仅依靠繁重的手工劳动来建设大型知识库,必将严重影响知识服务的能力和质量。知识是智能的基础,人类现有知识绝大部分是以文本为载体的,如何让计算机更好地从文本中自动获取知识,一直是知识工程领域需要解决的难题之一。因此,目前的当务之急是寻求一种通用的文本自动知识获取方法。知识获取是智能系统开发中一个相当困难的问题。知识的获取主要涉及:领域专家、资料、文本、数据库以及知识工程师,但是,大多数项目最主要的知识源就是领域专家。从当前知识获取的研究进展来看,以领域书籍文献为知识源、直接从文本资料中获取知识的文本知识获取方面的研究进行得还很少,书本知识是知识的一个重要来源,直接从书本文献中获取知识更接近于人类的求知方式,因而有较明显的优越性和发展前景。本文采用格语法来组织句法,用语义网络进行知识表示,提出了一种从文本中自动获取知识,并生成相应的知识表示的方法,很好的解决了构建专家系统中的中文自然语言理解接口问题,论文的主要工作如下:(1)从网上下载了50万字农业方面的网页,去除各种标记后建立了汉语农业内容语料库;(2)查阅大量文献资料,了解目前知识获取和知识表示的方法;(3)对农业内容语料库进行分词和词性标注,并对所有包含动词的句子生成格语法图(格标注);(4)根据生成的格语法图,提出向语义网络转换的转换方法和规则,并生成相应的语义网络图;(5)分别采用人工和自动的方法进行规则抽取和规则约简。最后,按照上边提出的方法,设计并实现了基于自然语言理解的自动知识获取系统;详细分析了测试结果中的错误实例,提出了模型中存在的一些问题。利用50万农业类型的语料对系统进行测试,从中能自动抽取出225条推理规则,有效规则是171条,而其中包含的实际规则数是242条。因此,有效规则数约占抽取出的规则数的76.0%,约占实际总规则数的70.7%。
其他文献
学位
随着网络的不断发展,网络在人们生活中的地位显得越来越重要,用户对网络的需求不断发生变化,要求传输的信息种类越来越多,要求提供的服务质量也越来越高。计算机网络系统的瘫痪可
粗糙集理论是波兰学者Z.Pawlak于1982年提出的一种数据分析理论。该理论建立在论域中的不可区分关系之上,用上、下近似来描述概念,无需任何先验知识或附加的信息,就能有效地分析
嵌入式计算机是现代计算机技术改造传统产业、提升许多领域技术水平的有力工具,在数字化语言学习终端上有着广泛的应用。PXA255处理器是Intel公司生产的专用标准嵌入式计算机,
大规模的数据计算需要巨大的计算资源。因此,许多计算能力有限的客户端无法完成这种计算任务。幸运地是云计算的出现为大规模的数据计算提供了有效的解决方法。大规模数据计算
随着计算机计算能力的迅速提高,计算机的广泛普及以及Internet的迅速发展,个人信息的安全性正变得岌岌可危。传统的数据加密技术可以部分的克服信息的随意散布,但随着破译技
聚类分析是数据挖掘的重要研究领域之一,在工程、商业、生命科学、社会科学以及其他许多领域得到了广泛的应用。但由于聚类对象在高维特征空间分布的复杂性,聚类效果评价的不确
在进行数字作品版权保护的某些时候或者是电子政务、军事及法律金融等领域内,有时需要嵌入很大容量的隐密信息。特别的是信息隐藏技术将是未来信息化战争对抗的焦点,作为未来
随着互联网上多媒体数据的日益增多,人们面对的信息量是以“海量”来形容的。如何从网上众多信息中检索出自己的所需,是信息检索的一个难点。传统的基于文本的检索由于其自身的
随着新型嵌入式芯片层出不穷,相应的高级语言编译器是必不可少的。然而,编译器的复杂性决定了不可能在短时间内重新为一款新型芯片开发出高级语言编译器。因此,不断出现的新型芯