基于cO-training与核函数的关系抽取技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:pollyzhang15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关系抽取技术能够从自然语言里抽取出具有某些关系的实体对,从而方便人们快速查找这些知识。同时,它能帮助人们将海量的文本信息中蕴含的关系自动抽取出来,重新构建成易于计算机理解的结构,增强人们组织分析信息的能力。  目前,关系抽取技术还没有完全成熟,本文综合当前研究成果,深入理解关系抽取问题的实质,充分调研相关领域的技术发展,提出了进一步改进半监督关系抽取问题的思路,并予以验证。本文的主要工作和研究成果包括:  第一,设计并实现了基于co-training的关系抽取改进算法。针对语义漂移问题,本文提出了评估中间产出实体对和模板语义漂移程度的计算公式,对于质量不高的实体对和模板进行过滤,从而确保算法迭代更加有效。这项改进使得算法能够迭代更多次数而且F1值提高了0.09。  第二,提出了word embedding的co-training关系抽取改进算法。关系抽取中充分利用特征信息是近些年研究者一直以来的工作重点之一,而深度学习在这方面具有非常强大的优势。本文将wordembedding以及其他语言学信息加入到模板之中,从而丰富了模板的表现力。深度学习技术的引进,使得co-training关系抽取算法性能有了进一步的提升,实验表明F1值提高了0.10。  第三,提出了一种基于核函数的co-training关系抽取改进算法。根据有监督算法和半监督算法各自的优点,本文首先利用co-training进行有效迭代产出大量的模板。然后,将这些模板作为训练集并使用基于核函数的SVM对其训练,形成半监督和有监督的级联系统。通过充分利用核函数,实验显示F1值再次提高了0.05。  最后,通过上述研究,搭建了一个在TAC会议中KBP任务的研究平台。该系统曾取得过这项任务的第一名。  本文的研究工作对于关系抽取提供了一些新想法和新思路,对于关系抽取的进一步发展具有一定的借鉴意义和参考价值。
其他文献
随着网络访问的日益普及,网络安全成为非常关键的问题。现有的许多入侵检测系统通常只能检测到已知或定义好的入侵行为,而且在性能上存在高误报率和漏检以及时间延迟等问题,本文
微博作为新兴的网络社交平台,因其信息流通速度快、信息内容丰富、人群覆盖面广吸引了大量用户的加入,这使得微博在舆论传播中的作用日益凸显。有很多微博是围绕同一相关事件
在现实生活中,存在着大量的信息,各种信息错综复杂地交错在一起,使人们无法直接应用这些信息。而往往人们只是关心所兴趣的信息,则需要提取出这些信息出来。然而只知道观测到混杂
本文通过对荣华二采区10
期刊
近年来,将超宽带技术应用于无线移动通信成为研究的热点。超宽带信号潜在的优势在于精确的定位,其精细的时间分辨率大大改善了多径衰落现象;极宽的传输带宽带来多路接入能力;极低
网络多媒体的发展方兴未艾,这得益于两个方面:多媒体技术促进了计算机的人性化,而网络技术促进了计算机的普及化。流媒体技术是网络和多媒体相结合的产物,它的国际标准和基础研究
本文通过对荣华二采区10
期刊
抗体检测可用于评价人和动物免疫功能的指标,对于有关疾病的诊断具有重要意义。本课题基于可重复使用的免疫磁珠技术,抗原表位分析预测技术,多肽合成及筛选技术,建立了一种简捷快
多倍体是植物和一些动物进化的一个普遍现象。通过种间或属间远缘杂交,和杂交事件之前或之后的基因组加倍而形成异源多倍体的途径是高等植物物种形成的主要方式之一。尽管它
随着数字有线电视技术的发展以及节目源的逐渐丰富,人们不再满足于像传统电视广播一样只是被动地接收节目,视频点播、有线宽带等增值业务越来越受到数字有线用户的青睐。因此,在