论文部分内容阅读
生物医学文献中的命名实体识别是目前被国际广为关注的自然语言处理研究问题之一。虽然自然语言处理在某些领域已经获得了很好的效果,但在生物医学领域却还有不小的差距。由于生物医学的蓬勃发展,新的命名实体层出不穷,其不规则的命名,以及旧词新用,使生物命名实体识别成为一项艰巨的任务,也在一定程度上影响着生物医学领域的研究进展。目前的研究方法很多,其中,统计自然语言处理由于其基于统计的学习方法不需要研究者具有太多生物医学专业知以,从而成为生物命名实体识别研究中常用的方法。隐马尔可夫模型是现代语音识别系统中构建统计模型的重要于段。它可以在只有少量训练数据的情况下学习规则。目前国际上有不少研究者采用了隐马尔可夫模型及其变形来解决生物命名实体识别问题,虽然取得了不错的进展,但都没有达到“近乎人类”的程度,还有许多问题有待解决,而国内的研究也才刚刚起步。所以本文的研究主要采用隐马尔可夫模型,对生物命名实体识别问题进行初步的研究。进行的工作如下:1、从已标注语料库中用统计的方法训练隐马尔可夫模型。通过对已标注语料进行统计得到隐马尔可夫模型的参数:状态集、发射符号集、初始状态概率、状态转移概率、符号发射概率。在不同的试验中用不同的方法来发现发射符号(命名实体名)的一些命名规律,对其进行归并,形成发射符号集,并掘此进行各项概率的统计。在计算概率时,为了解决数据稀疏问题,采用了线性插值的方法进行平滑。在实现过程中提出了词结构相似度的概念,为符号归并提供一个量化标准。2、在未标注语料上测试训练好的隐马尔可夫模型。以未标注语料的一个自然句作为隐马尔可夫模型的输入序列,用Viterbi算法获得输出状态序列,从而得到识别出的生物命名实体。形成输入序列时,在不同的试验中采用了不同的分词方法。通过计算自然句中一组词与发射符号集中各项的相似度,确定把自然句划分为词序列的边界,并辅以简单的词性分析。3、计算测试结果的召回率和精确率,通过比较,对隐马尔可夫模型进行改进,并重复以上过程直到获得一个可以有效识别生物命名实体的隐马尔可夫模型。通过上述的研究工作,实现了在生物医学文本中对命名实体的识别,并通过实验初步验证了所设计算法的有效性。