论文部分内容阅读
随着科学技术的飞速发展,各种媒体不断涌现,文本作为数据的一种载体,数量也日益增多,文本挖掘已成为研究领域的热点。目前,随着计算机技术的迅猛发展,如何让计算机学会并理解自然语言成为文本挖掘领域的新方向。让计算机理解文本的难点在于:一、如何把文本转换成计算机熟悉的数字数据;二、如何让计算机像人一样理解文本中的含义。把文本转换成计算机熟悉的数字数据属于特征提取的范畴,本文使用了两种特征来做词特征,一是词向量,二是词的文本特征,包括词性、词根等。让计算机理解文本中的含义一般是对句子进行语义分析,本文使用了语义关系中的依存关系做特征。最近,文本挖掘已经成功应用于生物医学领域,用来提取生物事件信息,本文在生物事件提取上做了以下三个工作:(1)提出了一种基于不平衡分类指标与集成学习的不平衡数据分类方法。由于现实生活中经常遇到不平衡分类问题,本文提出了一种基于不平衡分类指标与集成学习的不平衡数据分类方法。在集成算法中,通过不平衡问题评价指标G来优化弱分类器在训练集上的错误率,并将优化后的错误率用到训练样本权重的更新和弱分类器投票权重的求取中。本文提出的不平衡分类方法提高了分类器在少数类上的分类准确率,使集成算法更适合用于解决不平衡分类问题。(2)提出了一种基于文本特征的生物事件提取方法。本文把生物事件提取方法分成了两步,第一步提取生物事件触发词;第二步提取生物分子相互关系,并结合生物事件触发词的类型生成生物事件。在提取生物事件时,本文提出了生物事件触发词样本筛选方法,并提出了复杂生物事件循环嵌套问题的解决方法。在Bio NLP ST(Shared Tasks)2013 GE(Genia Event Extraction)数据上的实验表明:本文提出的生物事件提取方法取得了满意的结果。(3)提出了一种基于词向量和文本特征的生物事件提取方法。近年来,词向量由于其低维、连续、稠密的特点,被广泛用于自然语言处理领域的各个方面。本文在提取生物事件触发词时,基于词向量以及文本特征,利用支持向量机进行分类,大大提高了生物事件提取结果。在Binding生物事件参数提取时,提出分两步进行,第一步提取出与Binding生物事件触发词有Theme关系的蛋白质,第二步检测多个蛋白质的不同组合是否能组成Binding生物事件的参数,在进行Binding生物事件修剪时,提出根据分类器的结果进行修剪,而不是随机删除。在Bio NLP ST 2013 GE数据上的实验表明:本文提出的基于词向量和文本特征的生物事件提取方法提高了生物事件提取效果。