论文部分内容阅读
作为生物信息抽取的一个重要环节,生物医学领域的模糊限制信息检测旨在区分生物医学文献中的模糊限制信息与事实信息,避免将模糊限制信息作为事实信息用于信息抽取。近年来,随着大规模模糊限制信息语料库的构建,虽然模糊限制信息检测研究已经取得了一定的进展,但是模糊限制信息范围检测性能尚未达到60%,距离实用化还有一段距离。这是由于模糊限制信息范围检测任务比较复杂,具有依赖于语义和句法结构的特点,单纯基于一个统计模型难以满足模糊限制信息范围检测这个复杂任务的处理需求。融合方法可以将自然语言处理任务中的多类特征、多种方法、多个模型有效结合起来,避免了单一模型的片面性,实现准确、健壮的自然语言处理。本文针对模糊限制信息检测中的融合方法展开研究,内容主要包括:(1)研究基于复合核函数融合结构化特征与平面特征的模糊限制信息范围检测。重点研究了基于短语的模糊限制信息范围的结构化表达形式,利用卷积树核函数捕获模糊限制信息范围的结构化信息,减小结构化信息平面化时所引起的信息丢失。然后将基于结构化特征的卷积树核函数与基于平面特征的多项式核函数通过复合核函数集成起来。得到的复合核函数取得了比单独使用两种核函数都好的检测性能。(2)研究统计方法和规则方法相结合的模糊限制信息范围检测。通过统计方法和规则方法的结合,融合基于短语结构和基于依存结构的模糊限制信息范围检测系统。首先分别利用短语结构建立基于支持向量机(Support Vector Machine,SVM)的模糊限制信息范围检测子系统,利用依存结构构建基于规则的模糊限制信息范围检测子系统。然后将两个子系统的检测结果作为两个独立的特征,引入条件随机域(Conditional Random Field, CRF)模型进行融合。这种融合方法有效地利用了短语结构和依存结构,实现了统计方法和规则方法的结合,以及SVM机器学习方法和CRF机器学习方法的结合。统计和规则相结合的模糊限制信息范围检测方法取得了比单独使用两种方法都好的检测结果。(3)研究多分类器相融合的模糊限制信息范围检测。提出一种基于投票策略的模糊限制信息范围检测方法,首先分别基于SVM、CRF、最大间隔马尔可夫网络(Max-Margin Markov Networks,M3N)、以及本文的统计和规则结合的方法,以前向和后向两个解析方向构建八个基本分类器,再分别采用多数投票、分类器加权投票和词性加权投票三种投票策略融合八个基本分类器的结果。基于投票策略的模糊限制范围检测系统都取得了稳定的且比其中最优分类器更好的分类性能。本文的主要成果在于对模糊限制信息检测中的融合策略进行了深入研究,探索了模糊限制信息检测任务中平面特征与结构特征的融合、基于统计方法与基于规则方法的融合、多分类器的融合。提出了基于复合核函数的模糊限制信息范围检测方法,实现了模糊限制信息检测中结构化特征与平面特征的融合;提出了基于统计方法和规则方法的结合,有效利用短语结构和依存结构的模糊限制信息范围检测方法;提出了基于投票策略的多分类器模糊限制信息范围检测方法。这些研究有效地提高了生物医学领域模糊限制信息检测性能,对今后自然语言处理中融合策略的研究提供了有益的借鉴。