论文部分内容阅读
生物医学领域的命名实体识别和标准化是当前自然语言处理研究领域广泛关注的问题,是生物医学文本挖掘的基础步骤。只有正确地识别出生物医学命名实体并进行标准化,才能有效地完成蛋白质-蛋白质交互关系抽取、文本分类、假设发现等更加复杂的工作。本文的研究工作主要集中于两方面:(1)针对JNLPBA2004任务,提出了基于组合分类器和多代理策略的两阶段生物医学命名实体识别方法。该方法将JNLPBA2004任务分为命名实体识别和命名实体分类两个子任务。命名实体识别子任务就是将命名实体和非命名实体区别开来,而不对命名实体进行分类。在第一阶段,针对命名实体识别子任务,使用基于不同训练方法的四个工具包(CRF++、YamCha、Maximum Entropy和Mallet)构建了六个单个分类器,然后使用两层-叠加方法将六个单个分类器的识别结果进行组合。命名实体分类子任务就是确定识别出的命名实体的类型。在第二阶段,针对实体分类子任务,使用多代理框架对已识别出的实体进行分类。实验结果表明,本文提出的方法在生物医学命名实体识别上取得了优越的性能,在JNLPBA2004的测试语料上取得了76.06%的F评测值。(2)针对BioCreative Ⅱ GN任务,提出了整合多种有效方法的多阶段基因标准化系统。该系统包含四个主要步骤:预处理、词典查询、歧义消解和过滤。预处理就是识别出文本中的生物医学命名实体,本文使用了前述工作中所使用的方法来进行基因名识别,该方法在BioCreative Ⅱ GM测试集上取得了88.42%的F评测值;词典查询,即将经过预处理识别得到的基因与BioCreative Ⅱ GN任务提供的词典进行匹配,确定该基因对应的标识符。在这一步中,精确四配和模糊匹配方法被结合来进行基因名和EntrezGene司典的对应。在歧义消解步骤中,采用基于匈牙利算法的语义相似度计算方法;在最后的过滤步骤中,构建基于维基百科的后过滤器进行过滤。实验结果显示,整合多种有效方法的多阶段基因标准化系统在BioCreative Ⅱ GN任务上获得了90.1%的F评测值,优于当前的大多数先进系统。本文所提出的生物医学命名实体识别和标准化方法具有较高的性能,也可以应用于生物医学文本挖掘的其它领域。