论文部分内容阅读
语义Web提出以来,本体(Ontology)正在成为人工智能和知识工程中一种重要的工具,在知识的获取、表示、分析和应用等方面具有重要的意义。从本体开发的角度来说,由于借助本体编辑器(如Protégé)手工开发本体是一个繁重和棘手的任务,极易导致知识获取的瓶颈。因此,Web本体的可获取性已被学术界公认为是制约语义Web成功的巨大挑战之一。从现有信息源,包括文本、词典、遗留知识库、WWW文档等,获取领域知识、以自动方式构建或扩充本体,即所谓的本体学习(OntologyLearning),是开发本体的有效途径。 目前国际上在本体学习方面的研究非常活跃,虽然已经提出了很多本体学习方法,但大部分方法都不理想。由于缺乏统一的本体学习体系结构概念和方法,虽然开发了一些本体学习方法,但这些方法难以被其他系统重用。当前本体学习系统工具多是原型系统,不能大规模实时处理网上海量信息源,也缺乏中文语料处理能力。同时,目前还缺乏有效的评价本体学习结果的标准和方法,不利于本体学习方法和工具的进一步发展。 本文就是在开放的网络环境下,综合运用机器学习和自然语言处理方法,按照分层技术原理,提出了一种新的分层本体学习方法体系,并实现了一种基于Web的多策略本体学习工具GOLF,然后讨论了本体演化和评价方法,并对本体学习框架GOLF进行了实验和评价。本文的主要研究内容如下: (1)提出了一种分层本体学习方法体系,其中包括术语自动抽取、概念学习、实例学习和分类关系学习和非分类关系学习多种关键技术。在对现有学习方法做大量改进的基础上,完全实现了本体学习全过程的无缝集成,并且在本体学习系统中集成了本体评价模块。 (2)开发了基于Web的多语种通用本体学习工具GOLF,并采用Web文档作为本体学习源,进行了跨领域、多语种实验。同时,实现本体学习过程中的本体演化管理,并对学习结果进行评价和反馈。 (3)在本体学习中引入多策略学习方法,以提高学习质量。各学习算法的组合框架采用概率组合分布,可根据不同的语料特征为每个算法设定权值,从而增强了对不同领域语料的适应性。通过实验对比分析,在学习结果的准确率和召回率方面,GOLF系统都比著名的Text2Onto系统更好。 (4)实现了中文语料的本体学习。本文所提出的方法和工具能够很好地处理多语种语料,与同类系统(大多只能处理西文文本)相比,对中文的处理能力明显加强;特别针对中文的语言学特征,引入HowNet语义词典,添加了对应于中文文本的语言学模式和停用词表,性能有明显改善。 (5)提出了一种新的基于贝叶斯决策理论的本体评价方法RiMOE,并采用RiMOE