基于多级过滤的领域复合概念抽取方法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yingchali
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
领域本体是人工智能领域类研究的热点内容,领域概念是领域本体的基础组成部分,因而对领域概念的识别与抽取是一项基础研究工作。随着社会进步、科技发展,新概念层出不穷,而尤以各领域内的复合概念为代表。这些领域复合概念一般都是由各领域内的原子概念或词语组合而成的名词性短语,它指代一个更为精确的领域概念信息。领域复合概念的识别与抽取是领域文本信息处理的基础,对领域本体的构建与应用、文本信息检索、文本挖掘有着重要的意义。现有的分词系统不能识别这些新的领域复合概念,也就不能满足实际的应用需求。因此,对复合概念的自动抽取已成为当务之急。针对单独使用基于统计的方法和单独使用基于语言规则的方法对复合概念抽取的不足之处,本文融合统计与语言规则的思想,构建了一个多级过滤抽取模型。该抽取模型首先利用改进的TF-IDF方法筛选出领域原子概念集;其次通过空间组合规则,利用位置标注筛选出初始的领域复合概念集;最后通过词性分析,利用词性规则模版匹配过滤得到最终的领域复合概念集。本文构建了基于多级过滤的复合概念抽取验证系统,使用基于多级过滤的复合概念抽取方法进行复合概念抽取,并计算了抽取的准确率P、召回率R及F值。同时对基于互信息的中文术语抽取方法和基于词内部模式的新词识别方法也进行复合概念抽取。对比三种方法的抽取结果,我们发现:与另外两种抽取方法相比,本文方法抽取的准确率P、召回率R及F值的值都较高,所以本文方法比另外两种.方法能更有效的对复合概念进行抽取。
其他文献
层序地层学在陆相地层划分与对比中已得到许多应用,因其时空演化较为复杂,河流相地层的划分与对比一直是层序地层学中研究的难点。本文研究目的层位为准噶尔盆地白家海凸起上
西藏拿若铜金矿床位于羌塘地块最南缘、斑公湖-怒江缝合带北缘中生代铁格隆构造岩浆弧中,是西藏继多不杂、波龙之后发现的又一大型的、典型的富金斑岩铜矿。呈岩株状产出的花
课堂教学质量好坏对于教学活动中的各个参与者而言都是至关重要的,而现阶段由于教学设备等因素导致无法最大化的增加课堂教学参与者的参与度。随着,智能手机和多媒体电脑设备
随着时代的发展,国与国之间的交流变得尤为重要。在各种交流中,经济交流有着举足轻重的作用。随着全球化的不断发展,巨大的全球市场为各国经济发展提供了一个不可多得的良机,然而这一趋势利弊兼有。在此背景之下,企业家之间的沟通和交流能缓解世界经济紧张局势,促进世界经济发展。而口译作为跨语言交流的媒介,正是搭建世界各国企业家和各国经济交流的重要桥梁,其作用不言而喻。作为最重要的一种口译工作模式,交替传译的社会
数字水印是用于保护网络多媒体产品版权的一种热门新兴技术,伴随数字水印技术研究的不断深入,数字产品的鲁棒性不断增强。但是仅仅依靠改进和优化水印算法来防止各种各样的攻
随着光通信系统容量的飞速提升,波分复用技术的广泛应用,传统电采样方案不能满足高速宽带光通信系统的需求。全光采样技术对光信号速率透明的测量优势受到极大的重视和深入的
随着我国电子政务信息化改革的不断推进,提出了加快政府职能转变,建设服务型政府的需求。为了提高政府部门的行政质量和效益,增强政府监管和服务职能,通过信息化手段整合目前
哈拉哈塘凹陷位于塔北隆起中部,文章针对该凹陷下白垩统研究薄弱,层序划分及沉积演化特征认识不清等问题,综合应用层序地层学、地震沉积学和沉积学等理论和方法,通过岩心、测
地下水封油库因其独特优点,成为石油储存的首选方式。地下水封洞库是地下储气、储油的主要方式,水封的关键是能否在洞室上方形成一个稳定的水盖层,水盖层的形成需要洞室上方
近年来,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术因其具有实现复杂度低、抗多径干扰能力强等优点被广泛运用于现代无线通信系统中。然而,传统的O