论文部分内容阅读
随着互联网技术的快速发展和海量信息的涌现,人们对快速、准确获取信息的需求越来越迫切,但传统信息检索技术仍存在很多不足之处。自动问答系统能以更加准确、简单、智能的形式为用户提供需要的信息,这使得自动问答方面的研究和应用越来越受到重视。传统问答系统以问答对为知识库、使用关键字索引方式,这种问答系统答案准确率低,而且无法满足专业领域的应用。从根本上来说,这是因为此类问答系统的知识库没有涉及到语义。针对这一问题,本文拟提供一种面向特定领域问答系统的知识库构建方法,该方法以语义网中的本体技术为基础,结合特定领域的实际情况,构建领域本体知识库,并基于此知识库完成一个领域问答系统。本文的研究内容主要包括三个部分:面向金融领域的本体构建、抽取维基百科知识并扩充本体知识库,以及基于领域本体的问答系统构建。首先针对金融领域的实际情况,建立初始的本体结构,并爬取沪深两市各上市公司的公司介绍信息,填充本体得到初始的知识库;由于初始的本体知识库只包含公司的共性信息,并且知识库的构建是一个不断扩充和迭加的过程,课题利用并抽取维基百科无结构文本中的有用信息,完善本体结构并扩充本体知识覆盖范围;最后,以本体知识库作为知识来源,构建一个金融领域的自动问答系统。本文介绍了一种设计初始本体模板、再利用领域知识不断补充本体结构的半自动本体知识库构建方法;并提出了一种以维基百科为知识来源的无结构文本信息抽取方法,该方法利用维基百科网页中Infobox信息栏知识,采用机器学习算法抽取维基百科网页正文中的相关信息。课题根据实际应用的需求,详细设计并实现了一个面向问答系统的金融领域本体知识库构建方案。实验表明,本文的维基百科信息抽取模型能满足本体扩充的要求,整体的本体构建方法能在领域问答系统有效使用。