论文部分内容阅读
文本是信息的重要载体之一。随着计算机普及和互联网的发展,产生了海量的文本资源。其产生的速度已经远远超过人工对信息和知识的处理能力。通过计算机辅助,从而高效地从无结构化的文本中提取有价值的信息,成为科研人员的重要课题。信息抽取作为自然语言处理领域的关键问题之一,通过将文本中所含有的信息加以处理,转化为结构化的形式加以存储,从而提高人们从海量文献中获取知识和信息的效率。 基于统计的机器学习方法在信息抽取领域有着广泛的应用。这类方法通常利用标注语料对分类模型加以训练,从而确定模型参数,训练好的模型用以对其他未知结果数据加以判断。由于此类方法存在对大规模标注样本的依赖,当训练好的模型应用于缺乏标注数据的新领域时,其性能会出现明显下降。为此本文提出中采用最大熵模型与条件随机场模型为基础,融合监督学习、主动学习以及半监督学习等多种方式,通过使用少量标注语料与大规模新领域的未标注语料对分类器进行训练,显著提高信息抽取领域相关问题对新领域文本的适应性。本文主要研究利用多种学习方式相融合来解决文本信息抽取中三个核心任务:命名实体识别、语义关系抽取和语义角色标注。信息抽取目前被应用到很多领域当中,除了常见的用于新闻领域文本的信息抽取,生物医学也是其中一个重要应用领域。因此,本文对生物医学领域的信息抽取及其子任务也进行了深入的研究。 命名实体识别是指识别某一领域文本中具有特定含义的实体。例如,在针对新闻领域,命名实体主要包括人名、地名、机构名、其他专有名词等。该任务是整个信息抽取的基础。本文将中文命名实体识别任务看作一个序列标注问题,提出了以条件随机场模型为基础的主动学习和自学习方法。针对采用主动学习和自学习方法来解决序列标注问题时样本选择标准难以确定的问题,我们提出了基于信息密度的样本选择标准。本文提出的多学习方式融合的命名实体识别方降低了命名体识别系统对标注语料的依赖程度,从而大大提高了命名体识别系统对于新领域的适应性。 生物医学领域命名实体识别研究相较于其他领域发展较为缓慢,这主要是因为其领域中命名实体命名的不规范化以及新词较快的产生速度有着密切的关系。在这一问题的研究中,我们针对其标注语料少且标注难度高的特点,提出了基于广义期望准则的生物医学命名体识别的半监督学习方法。该方法将广义期望准则与条件随机场模型相融合,在保障了系统识别率的基础上,将所需语料库的标注方式从样本标注降改进为特征标注,降低了标注难度,提高了标注效率。 语义关系抽取是信息抽取领域的另一个核心任务,是从无结构的文献中抽取出相关知识的重要手段。考虑到目前已构建的各种知识库中所包含的信息可能有利于语义关系抽取的研究,我们以生物医学文献为例提取现有的生物医学领域知识库中的信息作为特征,提出了引入领域概念特征的语义关系抽取方法。这种方法不仅可以显著地提高生物医药领域关系抽取的识别率,还可以方便地推广到其他领域的语义关系抽取。针对现有关系抽取系统由于依赖训练语料而难以移植的问题,我们提出了将广义期望准则与最大熵模型相融合的半监督学习方法。该种方法在实现高精度语义关系抽取的同时,大大降低了对标注语料的依赖性。 语义角色标注是信息抽取技术在语义层面的深入,是重要的语义分析技术。近年来依存句法分析的发展,为语义角色标注提出了新的发展方向。本文构建了由句法解析、谓词标注和语义依存标注三个子任务组成的基于依存关系语义角色标注系统。针对语义角色分析问题中特征太多引起的模型训练速度慢的问题,本文提出了基于互信息的特征选择方法,该方法可以缩短模型的训练时间,同时获得较好的识别效果。