实体关系抽取关键技术研究

来源 :中国人民解放军信息工程大学 解放军信息工程大学 | 被引量 : 9次 | 上传用户:jinr0op2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0的迅速发展,网络信息呈现爆炸式增长,如何从中快速准确地抽取用户感兴趣的信息成为当前智能信息处理领域亟待解决的问题。实体关系抽取作为信息抽取的核心任务和重要环节,能够实现实体对间语义关系的识别,同时对句子语义理解及实体语义知识库构建有着重要作用。本文主要研究了实体关系抽取技术,包括:有监督实体关系抽取、实体关系触发词词典构建、中文开放式实体关系抽取等三个方面。论文的主要研究成果如下:(1)研究了有监督的实体关系抽取技术,针对普通名词实体关系抽取中模糊样本边界难以确定、存在交叠的问题,提出了一种基于SVM-KNN(SVM和KNN的组合分类方法)的有监督实体关系抽取方法。该方法设计了一种双投票机制,利用SVM进行模糊样本的判定,将测试样本集分为确定区域和模糊区域;对确定区域的样本直接输出SVM分类器的分类结果,对模糊区域样本使用KNN分类器进行二次分类。实验结果表明,该方法有效判定了实体关系模糊样本,较大程度提高了实体关系抽取的性能。(2)研究了实体关系触发词词典自动构建技术,针对传统人工或有监督方式构建实体关系触发词词典耗费大量人力且无法获取完备词典的问题,提出了一种无监督的实体关系触发词词典自动构建方法。该方法首先采用层次狄利克雷过程(Hierarchical Dirichlet Process,HDP)进行建模,得到关系句子实例集的主题-词分布;然后,通过主题过滤和词语概率权重过滤获得候选触发词集;最后,采用依存句法分析对候选触发词集进行二次过滤获得关系触发词词典。该方法无需人工参与,且有效避免了有监督方法所需的初始关系触发词库。实验结果表明,该方法能快速构建任意实体关系类型的触发词词典,且具有较高的准确率。(3)研究了开放式实体关系抽取方法,针对传统方法中远程监督(Distant Supervision)假设引入大量未蕴含指定实体关系的噪声标注数据的问题,提出了一种基于主题模型的中文开放式实体关系抽取方法。该方法利用触发词窗口内的词与实体对共同构成触发词窗口关系模式,抽取候选关系句子实例集中每个句子实例的关系模式,并通过模式聚类形成关系模式组;然后,利用主题模型计算关系模式组表达实体关系的概率,实现噪声标注数据的识别;最后,训练实体关系抽取模型,实现实体关系抽取。实验结果表明,该方法能有效识别训练语料中的噪声标注,通过过滤噪声标注数据后训练的实体关系抽取模型性能有较大提高。
其他文献
随着新型多媒体业务的发展、话务量的提升等,人们对3G系统及下一代无线网络的无线传输速率要求会越来越高,用户希望能打破各种条件的制约,实现“任何人在任何时候的任何地方
随着虚拟现实技术、计算机网络技术的迅猛发展,基于图像绘制技术的全景图技术得到了广泛的应用。其中,基于手持拍摄方式获取组图进而重建全景图的方法被广泛地应用于网站建设、
传统波分复用(WDM)光网络由于采用固定频率栅格,导致了带宽资源的严重浪费,已经不能满足不断增长的互联网流量需求。相比于WDM光网络,弹性光网络(EON)具有频谱资源分配灵活和
无线通信是通信领域的一种重要方式,无线衰落信道给无线通信带来巨大的影响。所以,无线衰落信道的研究对于无线通信有着至关重要的作用。随着无线通信的发展,现今已有很多描述衰
随着对无线资源需求的与日俱增,人们已经利用了几乎所有可利用的频段,并且由于频谱分配的不合理性,使得频谱资源已经变成一种稀缺资源。认知无线电技术可以通过频谱感知等技
摄像机标定是计算机视觉领域的一项关键技术,是从二维(2D)图像提取三维(3D)空间信息必不可少的步骤,这项技术已被广泛应用于3D结构重建、导航、视觉监控等领域。多视点视频系统
基于IEEE802.16系列协议的WiMAX(Worldwide interoprabiliyof Microwave Access)是一种新兴的宽带无线接入系统。WiMAX采用了正交频分复用(OFDM)、自适应调制与编码(AMC)、混
随着被动工作方式的无源定位系统的优点日益凸显,无源定位系统受到广泛重视。本文所探讨的基于无源定位系统的数据处理是无源定位系统的重要组成部分。无源定位系统的数据处
可见光通信(VLC)与无线电通信组成的异构融合通信网络中,为了保证用户获得持续有效的通信服务,可见光通信与无线电通信垂直切换是研究重点。VLC采用强度调制/直接检测,易受遮
近年来,随着手机用户的快速普及和移动通信技术的迅猛发展,无线蜂窝网络逐渐完善。这使得利用完善的蜂窝网络经营一些要求比较高的增值业务变得可行,手机定位即是有待开发的