论文部分内容阅读
随着信息技术的广泛普及和应用,人们对知识服务的需求越来越强烈。知识服务离不开大型知识库的支持。仅仅依靠繁重的手工劳动来建设大型知识库,必将严重影响知识服务的能力和质量。知识是智能的基础,人类现有知识绝大部分是以文本为载体的,如何让计算机更好地从文本中自动获取知识,一直是知识工程领域需要解决的难题之一。因此,目前的当务之急是寻求一种通用的文本自动知识获取方法。知识获取是智能系统开发中一个相当困难的问题。知识的获取主要涉及:领域专家、资料、文本、数据库以及知识工程师,但是,大多数项目最主要的知识源就是领域专家。从当前知识获取的研究进展来看,以领域书籍文献为知识源、直接从文本资料中获取知识的文本知识获取方面的研究进行得还很少,书本知识是知识的一个重要来源,直接从书本文献中获取知识更接近于人类的求知方式,因而有较明显的优越性和发展前景。本文采用格语法来组织句法,用语义网络进行知识表示,提出了一种从文本中自动获取知识,并生成相应的知识表示的方法,很好的解决了构建专家系统中的中文自然语言理解接口问题,论文的主要工作如下:(1)从网上下载了50万字农业方面的网页,去除各种标记后建立了汉语农业内容语料库;(2)查阅大量文献资料,了解目前知识获取和知识表示的方法;(3)对农业内容语料库进行分词和词性标注,并对所有包含动词的句子生成格语法图(格标注);(4)根据生成的格语法图,提出向语义网络转换的转换方法和规则,并生成相应的语义网络图;(5)分别采用人工和自动的方法进行规则抽取和规则约简。最后,按照上边提出的方法,设计并实现了基于自然语言理解的自动知识获取系统;详细分析了测试结果中的错误实例,提出了模型中存在的一些问题。利用50万农业类型的语料对系统进行测试,从中能自动抽取出225条推理规则,有效规则是171条,而其中包含的实际规则数是242条。因此,有效规则数约占抽取出的规则数的76.0%,约占实际总规则数的70.7%。