论文部分内容阅读
随着信息技术的广泛普及和应用,人们对知识服务的需求越来越强烈。人类现有知识绝大部分是以文本为载体的,如何让计算机更好地从文本中自动获取知识,一直是知识工程领域需要解决的难题之一。本文围绕文本知识学习映射展开了讨论和研究。首先介绍了文本结构分析和文本本体学习方法,主要针对文本的物理结构和逻辑结构,本体学习的概念、原理、方法等做了详细阐述,并提出了一种基于TFIDF(词频,逆文档频率)的中文文本特征抽取算法。接着本文提出了基于句型规则的自举本体学习方法,介绍了整个方法的框架,并对在这个框架下的几个关键的技术问题,包括文本预处理、本体片断的定义、句型规则的语法,分别做了更为详细的介绍。基于对文本单元向知识单元转化的模型和映射算法的分析,本文开发了中文文本知识抽取系统,并进行了实验分析,得到了一些有意义的结果,初步验证了文本知识学习映射方法,另外本文分析了影响结果的因素。最后,基于文章的核心——文本特征获取以及基于句型规则的自举本体学习,本文对进一步工作做了探讨和展望。本文的创新工作和结果主要有:(1)改进了基于海量智能分词的中文自动分词算法,为文本特征抽取打下基础;(2)将以词权重作为文本特征进行奇异值分解的思想运用到文本知识的获取中,并建立了一些的句型规则语法;(3)设计并实现了中文文本知识获取系统,对本文提出的方法进行了有效验证。