论文部分内容阅读
石油领域的油气开采等行业随着计算机相关领域技术的飞速发展,正在向数字化、智能化靠拢,智能生产也在逐渐为人们所熟知,实现智能生产面临着巨大的挑战,其中石油领域庞大知识群的表示方法的研究困难尤为突出。最经典、应用最广泛的知识表示方法就是本体,通过从现有信息源中获取相应的文本文件进行本体学习,以手工方式或者半自动的方式构建相关领域的本体。石油领域本体的构建目前普遍存在开发系统相互独立、数据编码规则不统一、各种系统软件重复开发等问题。针对以上问题,本文提出一种基于文档检索和语义关系识别的石油领域本体自动化构建方法,主要分为以下几个内容:石油领域本体构建的首要任务是领域文档的检索,本文通过分析传统的网络爬虫方法的优缺点,采用聚焦网络爬虫与增量式网络爬虫相结合的方法进行网页的抓取,引入抓取队列,有效避免了重复;其次,在文档检索的基础上构建石油领域语料库,进行概念抽取,通过分析现有的概念抽取方法,最终提出了利用统计学方法中TF-IDF与信息熵结合的方法进行概念抽取,在不同文档数量下对三种方法进行了对比试验,实验证明本文中提出的混合的方法在抽取准确性上得到了有效的提高;然后对抽取到的石油领域内的相关概念进行语义关系识别,主要从分类关系和非分类关系两方面进行识别,根据概念抽取结果得到相似度矩阵,并以层次聚类的方法识别概念间的分类关系,通过计算概念的全局相似度确定父概念与子概念,以关联规则的方法获取概念间的支持度与置信度,通过引入兴趣度的计算筛选得到强关联规则,从而获取概念间的非分类关系,最终以互信息确定关系之间的连接动词;最后利用抽取的概念与概念间的关系进行本体的自动化构建,分析现有本体学习工具构建本文的本体学习系统,利用概率本体模型与数据驱动方法实现中文本体的自动导出,本文主要使用OWL语言,通过将导出的OWL文件导入到protégé平台上,经过进一步的反馈修正,最终实现本体的可视化表示。