基于cO-training与核函数的关系抽取技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：pollyzhang15

【摘要】

：

关系抽取技术能够从自然语言里抽取出具有某些关系的实体对，从而方便人们快速查找这些知识。同时，它能帮助人们将海量的文本信息中蕴含的关系自动抽取出来，重新构建成易于计算机

【作者】

：

张一昌

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2015年期

【关键词】

：

自然语言信息处理关系抽取算法语义漂移核函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

关系抽取技术能够从自然语言里抽取出具有某些关系的实体对，从而方便人们快速查找这些知识。同时，它能帮助人们将海量的文本信息中蕴含的关系自动抽取出来，重新构建成易于计算机理解的结构，增强人们组织分析信息的能力。　　目前，关系抽取技术还没有完全成熟，本文综合当前研究成果，深入理解关系抽取问题的实质，充分调研相关领域的技术发展，提出了进一步改进半监督关系抽取问题的思路，并予以验证。本文的主要工作和研究成果包括:　　第一，设计并实现了基于co-training的关系抽取改进算法。针对语义漂移问题，本文提出了评估中间产出实体对和模板语义漂移程度的计算公式，对于质量不高的实体对和模板进行过滤，从而确保算法迭代更加有效。这项改进使得算法能够迭代更多次数而且F1值提高了0.09。　　第二，提出了word embedding的co-training关系抽取改进算法。关系抽取中充分利用特征信息是近些年研究者一直以来的工作重点之一，而深度学习在这方面具有非常强大的优势。本文将wordembedding以及其他语言学信息加入到模板之中，从而丰富了模板的表现力。深度学习技术的引进，使得co-training关系抽取算法性能有了进一步的提升，实验表明F1值提高了0.10。　　第三，提出了一种基于核函数的co-training关系抽取改进算法。根据有监督算法和半监督算法各自的优点，本文首先利用co-training进行有效迭代产出大量的模板。然后，将这些模板作为训练集并使用基于核函数的SVM对其训练，形成半监督和有监督的级联系统。通过充分利用核函数，实验显示F1值再次提高了0.05。　　最后，通过上述研究，搭建了一个在TAC会议中KBP任务的研究平台。该系统曾取得过这项任务的第一名。　　本文的研究工作对于关系抽取提供了一些新想法和新思路，对于关系抽取的进一步发展具有一定的借鉴意义和参考价值。

其他文献

基于椭圆曲线的入侵容忍数字签字方案及在CA中的应用

随着网络访问的日益普及，网络安全成为非常关键的问题。现有的许多入侵检测系统通常只能检测到已知或定义好的入侵行为，而且在性能上存在高误报率和漏检以及时间延迟等问题，本文

学位

入侵容忍椭圆曲线数字签字门限密码网络安全入侵检测系统

微博中话题的传播模型及热点预测

微博作为新兴的网络社交平台,因其信息流通速度快、信息内容丰富、人群覆盖面广吸引了大量用户的加入,这使得微博在舆论传播中的作用日益凸显。有很多微博是围绕同一相关事件

学位

微博过滤微博话题分类模型热点预测

混杂声音信号前置放大和变换的硬软件研究与实现

在现实生活中，存在着大量的信息，各种信息错综复杂地交错在一起，使人们无法直接应用这些信息。而往往人们只是关心所兴趣的信息，则需要提取出这些信息出来。然而只知道观测到混杂

学位

盲信号分离盲信号分离TLV320AIC23TLV320AIC23广义特征分解广义特征分解混合模型转换混合模型转换

浅谈提高幼儿语言能力的几点看法

本文通过对荣华二采区10

期刊

基于超宽带的无线传感器网络研究与应用

近年来，将超宽带技术应用于无线移动通信成为研究的热点。超宽带信号潜在的优势在于精确的定位，其精细的时间分辨率大大改善了多径衰落现象；极宽的传输带宽带来多路接入能力；极低

学位

超宽带通信无线传感器网络传输技术跳时调制多用户检测

交互式实时流媒体传输系统的研究与实现

网络多媒体的发展方兴未艾，这得益于两个方面：多媒体技术促进了计算机的人性化，而网络技术促进了计算机的普及化。流媒体技术是网络和多媒体相结合的产物，它的国际标准和基础研究

学位

流媒体流媒体实时传输实时传输RTPRTPRTCPRTCP同步同步流量控制流量控制

浅析初中生物教学中实验教学法的应用

本文通过对荣华二采区10

期刊

基于可重复使用免疫磁珠的抗体检测方法建立及可重复使用磁性微流体蛋白芯片初步设计

抗体检测可用于评价人和动物免疫功能的指标，对于有关疾病的诊断具有重要意义。本课题基于可重复使用的免疫磁珠技术，抗原表位分析预测技术，多肽合成及筛选技术，建立了一种简捷快

学位

抗原表位免疫磁珠多聚抗原肽抗体检测

小麦异源多倍体化诱导的基因组变异

多倍体是植物和一些动物进化的一个普遍现象。通过种间或属间远缘杂交,和杂交事件之前或之后的基因组加倍而形成异源多倍体的途径是高等植物物种形成的主要方式之一。尽管它

学位

植物多倍体异源多倍体小麦遗传变异表观遗传变异DNA甲基化ISSR分子标记

基于Java智能卡的数字电视加解扰技术

随着数字有线电视技术的发展以及节目源的逐渐丰富，人们不再满足于像传统电视广播一样只是被动地接收节目，视频点播、有线宽带等增值业务越来越受到数字有线用户的青睐。因此，在

学位

Java智能卡Java智能卡有线数字电视有线数字电视条件接收条件接收Java数据库Java数据库

基于cO-training与核函数的关系抽取技术研究

与本文相关的学术论文