中文文本实体关系抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shizijiazuren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,网络文本中所包含的有价值的信息越来越多。由于文本中包含各种实体之间关系纷繁复杂,以人工和经验的方式进行相关知识的获取及组织已经远远不能满足应用需求。自动从互联网文本中抽取实体关系,成为自然语言处理和信息抽取研究中的重要问题。从现有的研究来看,大部分实体关系抽取方法存在目标关系类别分类较粗、不够细致的问题,同时也相对缺乏对复杂类型的实体关系抽取的研究。为此,本文主要研究了两类典型的复杂实体关系抽取方法,分别是人物实体关系抽取与金融实体关系抽取。本文主要研究工作包括以下两个部分:第一,研究人物实体关系的自动抽取方法。在对人物实体关系表达文本的特点进行深入分析的基础上,本文设计实现了一种针对特定关系单独训练分类模型的人物关系抽取方法。该方法通过提取特定关系实体上下文信息及句子的结构特征进行有无关系的分类。针对关系分布不平衡现象,采用随机过采样的方式对人物实体关系数据进行不平衡处理。这一方法在第十五届机器学习会议竞赛中的人物实体关系数据集上取得了0.6751的F值。第二,研究面向金融领域的实体关系自动抽取方法。由于缺乏公开的金融实体关系语料库,本文首先制定了金融实体关系体系以及实体关系标注的规范。在标注规范的指导下,对金融新闻进行实体关系标注。由此构建了包含有7大类关系类型,共1417条实体关系实例的金融实体关系语料库。针对金融领域实体关系表达的特殊性,提出了一种采用分块词袋模型与规则特征相结合的特征提取方法,并应用随机森林分类器实现金融领域的实体关系抽取。该方法在标注语料库上取得了0.6787的F值,相对于传统的实体关系抽取方法性能提升明显。实验结果显示了分块词袋模型能有效地提取关系描述特征,并且随机森林能够有效利用实体上下文的描述特征和组合规则特征,用于实体关系抽取。
其他文献
模型驱动体系架构(MDA)是由对象管理组织(OMG)提出的一种新的软件体系架构,它以模型为核心,模型转换为关键技术,通过模型间的转换来驱动整个软件开发。其中,模型转换是MDA开
无线传感器网络(WSN)是继因特网之后,对人们生产生活产生重大影响的IT热点技术,而网络层的路由技术负责在源节点和目的节点之间传输数据,对无线传感器网络至关重要。分簇路由
特征选择是模式识别技术的关键技术环节之一。特征选择按照和后续分类算法的结合方式可分为嵌入式、过滤式和封装式。本文主要研究了单变量的过滤式特征选择算法。本文首先引
无线Mesh网络是一种新型的无线通信网,并逐渐成为下一代无线网络的关键技术之一。它不依赖于已有的基础设施,是布置大规模无线网络的重要解决方案,它使局域网可以快速、简单
CMMI的全称为:Capability Maturity Model Integration,即能力成熟度模型集成。CMMI受到了世界各地许多公司的重视,得到了极为广泛的认可。然而,CMMI的应用不仅需要对CMMI有很深
随着计算机网络技术的迅速发展,Web正以其广泛性、交互性和易用性等特点迅速风靡全球,并且已经渗入到社会的各个应用领域。Web应用软件的规模不断扩大,使得系统软件的复杂性
无线射频识别(RFID)技术是一种无线通信技术,利用无线电射频信号识别特定物体并读写相关数据,在读写过程中不需要系统与指定物体建立机械或光学接触。因为RFID标签的成本低,
随着多媒体技术和互联网络的迅速发展,流媒体应用越来越深入和广泛,针对提供流媒体服务的流媒体系统的研究和设计的需求就非常迫切。当前提出了一些流媒体解决方案,但是这些
视频监控技术在安全防范、信息获取和指挥调度等方面有着广泛的应用,提供生产流程控制、大型公共设施安防、医疗监护及远程教育等多种服务。智能视频监控系统,是指使用计算机
由于卫星网络具有全球覆盖、24小时不间断通信等特点,在通信系统领域正发挥着越来越重要的作用。卫星网络具有长时延、高误码率、高时延带宽积等特点,因此,如果将应用于地面