论文部分内容阅读
命名实体(Named Entity,NE)识别的任务是识别出文本中特定的实体,它是信息抽取、机器翻译、信息检索和自动问答等多种自然语言处理技术的重要基础。本文研究的是音乐领域的命名实体识别,识别的实体包括音乐名、艺术家名、专辑名和艺术家别名4类。目前命名实体识别领域主要有规则和统计两类方法。规则方法简单直观,但规则的建立过程费时费力,不易移植。统计方法的健壮性和灵活性更好,可以方便地在不同领域之间移植,但统计模型的训练要求大规模高质量的标准语料库,而语料的标注工作同样需要消耗大量的人力物力。本文根据音乐命名实体的特点,在语料库规模有限、语料质量较差的条件下,提出一种规则和统计模型相结合的分类方法来进行音乐NE的识别。首先通过音乐专业词典以及两条简单的规则匹配出音乐NE的候选,然后通过最大熵(Maximum Entropy,ME)模型进行分类完成音乐NE的识别。为了更加直观地展示这种分类方法的特点,文中将它和词典匹配方法、基于隐马尔可夫模型(Hidden Markov Model,HMM)的序列标注方法以及基于最大熵马尔可夫(Maximum Entropy Markov Model,MEMM)的序列标注方法进行了比较实验。实验证明我们的分类方法的音乐NE识别性能最好。本文还着重研究了ME模型特征中词典信息对于音乐NE识别的作用,结果显示其贡献很大。总的来说,本文提出的分类方法能够使用更加丰富的特征,更加有效地利用音乐词典的信息,克服了语料库规模较小、质量较差的困难,达到了较好的音乐NE识别效果。此外,相对于MEMM序列标注,该方法还有模型小,运行效率高的优点。