论文部分内容阅读
知识的文本挖掘(KAT)是当今计算机领域的一个很重要的研究课题。在本文中,给出了基于本体从海量网页文本库中获取领域知识的方法。首先,介绍了本体的基本概念与背景知识。对当今流行的本体架构与应用进行了初步的探讨。接着,着重详细介绍了在本体的基础上怎样进行领域知识的获取,包括概念获取与属性获取,介绍了用到的一些获取技术,包括文本类聚、文本分类、中文分词等;同时也介绍了知识获取出来以后怎样进行知识验证,主要包括概念验证与属性验证,并提出了一些独到新颖的算法。为了证明我们理论的正确性,以植物领域为例进行了实验,并分析了实验数据与结果。实验数据证明我们的理论是正确可行的。最后,讨论了下一步需要做的工作,怎样完善的知识获取以及验证系统,以及展望今后文本挖掘的发展方向。