论文部分内容阅读
本体(Ontology)是资源共享的基础,它提供了对领域知识的共同理解。本体的应用范围非常广泛,但本体的构建却是一项非常费时、费力的工作。目前,本体的建立基本还是采用手工静态构建的方式,而本体的构建应具备不断更新的动态特性。现实生活中信息的主要载体是非结构化纯文本数据,如何利用文本挖掘、信息抽取、机器学习等知识获取技术动态构建本体是本体自动或半自动构建所面临的挑战。
叙词表(thesaurus)作为上世纪发展起来的文献标引工具,概括了领域内绝大部分相关的术语和基本关系,并具备大量丰富的主题标引文献,是构建领域本体的重要来源。本文比较分析了叙词表与本体的结合方法,并在此基础上提出了基于文本挖掘的动态本体构建(Oynm~Ontolo~Construction based on Text Mining,DOC)模型。该模型结合叙词表提供的已有知识,将叙词表的描述形式转换为本体的概念模型,同时利用叙词标引的主题文献进行文本挖掘构建动态领域本体:从主题文献库中识别领域概念,进而挖掘并细化概念间的属性和关系。
针对文本挖掘中难以准确获取概念间关系的状况,为提高关系抽取的准确度,本文提出了领域种子关系(Seed Relation in Domain,SRD)的概念和思想,结合自然语言处理方法,通过确定种子关系进行关系挖掘。本文详细论述了SRD的抽取,基于SRD生成关系陈述集,以及通过关联规则挖掘进一步抽取属性规则的方法。
作为DOC动态本体构建模型的构建工具和检验平台,本文设计并开发了基于DOC¨Ⅵ的本体构建原型实验系统。该实验系统结合叙词表提供的现有资源,以领域叙词表和该词表标引的非结构化纯文本语料为输入,通过静态模型转换、动态概念挖掘、基于SRD的关系抽取以及关联规则挖掘,动态构建领域本体。
本文选用多语种农业叙词表 AGROVOC和中国农科院科技文献作为实验系统的输入数据,结果表明:系统实现了DOCTM动态本体构建的基本功能;领域叙词表为动态本体构建提供了质量保障;SRD是一种有效获取概念间关系的途径,借助种子关系可以从纯文本中提取概念间的关系;通过对OWl(Web Onology Language)定义的属性进行规则分析及关联规则挖捌可以得到概念间的部分规则,从而使本体初步具备了一定的推理能力。