基于词向量和文本特征的事件提取

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:kmyzchenpeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,各种媒体不断涌现,文本作为数据的一种载体,数量也日益增多,文本挖掘已成为研究领域的热点。目前,随着计算机技术的迅猛发展,如何让计算机学会并理解自然语言成为文本挖掘领域的新方向。让计算机理解文本的难点在于:一、如何把文本转换成计算机熟悉的数字数据;二、如何让计算机像人一样理解文本中的含义。把文本转换成计算机熟悉的数字数据属于特征提取的范畴,本文使用了两种特征来做词特征,一是词向量,二是词的文本特征,包括词性、词根等。让计算机理解文本中的含义一般是对句子进行语义分析,本文使用了语义关系中的依存关系做特征。最近,文本挖掘已经成功应用于生物医学领域,用来提取生物事件信息,本文在生物事件提取上做了以下三个工作:(1)提出了一种基于不平衡分类指标与集成学习的不平衡数据分类方法。由于现实生活中经常遇到不平衡分类问题,本文提出了一种基于不平衡分类指标与集成学习的不平衡数据分类方法。在集成算法中,通过不平衡问题评价指标G来优化弱分类器在训练集上的错误率,并将优化后的错误率用到训练样本权重的更新和弱分类器投票权重的求取中。本文提出的不平衡分类方法提高了分类器在少数类上的分类准确率,使集成算法更适合用于解决不平衡分类问题。(2)提出了一种基于文本特征的生物事件提取方法。本文把生物事件提取方法分成了两步,第一步提取生物事件触发词;第二步提取生物分子相互关系,并结合生物事件触发词的类型生成生物事件。在提取生物事件时,本文提出了生物事件触发词样本筛选方法,并提出了复杂生物事件循环嵌套问题的解决方法。在Bio NLP ST(Shared Tasks)2013 GE(Genia Event Extraction)数据上的实验表明:本文提出的生物事件提取方法取得了满意的结果。(3)提出了一种基于词向量和文本特征的生物事件提取方法。近年来,词向量由于其低维、连续、稠密的特点,被广泛用于自然语言处理领域的各个方面。本文在提取生物事件触发词时,基于词向量以及文本特征,利用支持向量机进行分类,大大提高了生物事件提取结果。在Binding生物事件参数提取时,提出分两步进行,第一步提取出与Binding生物事件触发词有Theme关系的蛋白质,第二步检测多个蛋白质的不同组合是否能组成Binding生物事件的参数,在进行Binding生物事件修剪时,提出根据分类器的结果进行修剪,而不是随机删除。在Bio NLP ST 2013 GE数据上的实验表明:本文提出的基于词向量和文本特征的生物事件提取方法提高了生物事件提取效果。
其他文献
本文对石英晶体微天平在生物学检测中的拓展应用进行了研究。石英晶体微天平(quartz crystal microbalance,QCM)是一种非常灵敏的质量检测仪器,其测量精度可达纳克级,它传统上被用
氮(N)沉降增加及其对生态系统的影响已成为全球变化的热点问题之一。N是植物生长的必需营养元素之一,在森林生态系统的生物地球化学循环中起重要作用。作甑别环境N不同来源是N
转基因大型动物可以用于改良物种、作为生物反应器及作为器官移植中的低免疫原性供体,因此在医药学及畜牧经济等领域拥有巨大的应用潜力。而在转基因工程中,胚胎干细胞(embryon
MIMO技术能够突破香农容量公式的限制,在不增加传输带宽和发送功率的的情况下成倍的提高信道容量,然而,MIMO系统的这一性能优势很大程度上依赖于所处的无线传播环境,因此在对MIMO
种子外稃有芒和无芒是野生稻和栽培稻之间的特征差异。虽然已有很多报道对控制水稻芒性状基因和相关QTLs进行了初定位,但是还没有芒基因精细定位和克隆的报道。我们利用无芒的
推荐系统是解决信息过载的一种有效工具,经典的推荐系统一般是基于评分的,然而将标签用于推荐也成为一种趋势,标签作为表达用户兴趣和物品特征的有效方式,蕴含着丰富的信息。
帧率上转换是一种视频后处理技术,通过在原有视频帧中插入中间帧的方式,将低帧率视频转变成高帧率视频。随着高清2K视频逐渐在人们生活中得到普及,以及超高清4K视频的出现,极
在过去的这些年里,通信骨干网络经历了大幅度的增长,传统的接入网技术已不能满足各种新业务的需求。以太网无源光网络(EPON)得到了越来越多的研究重视,它凭借以太网和无源光
硝态氮污染至今仍是农业区水体中最为普遍的污染物之一。引黄灌溉保证了农业生产和农作物高产稳产,然而长期引黄灌溉对水氮运移具有重要影响。在高施肥和引黄灌溉的作用下,硝态
本文主要研究了电磁脉冲与腔体的耦合效应,由于其属于瞬态电磁学的研究领域,我们采用时域有限差分方法(FDTD)对计算机机箱进行数值模拟,其结果显示了电磁脉冲以及不同极化方