融合外部知识的中文命名实体识别研究及其医疗领域应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:dongfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别的主要任务是将文本中的人名、地名、机构名等有特殊意义的实体识别出来,作为自然语言处理领域的基础任务之一,命名实体识别几十年来始终是研究热点之一。随着基于统计的机器学习方法的发展,在训练语料中出现过的实体的识别效果已经很好,但未登陆词的识别仍是命名实体识别的难点之一。针对这个问题,我们首先对传统的条件随机场(CRF,Conditional Random Fields)模型融入词表的方式进行研究,希望使CRF模型可以识别出词表中的实体,并使用维基词表在通用领域进行了实验。之后,我们注意到了近年来深度神经网络的迅猛发展,其中循环神经网络(RNN,Recurrent Neural Network)和RNN的一个改进LSTM(LongShort Term Memory)在自然语言处理领域有着十分优秀的表现。LSTM在训练中理论上可以使用全部的前文信息,而双向LSTM可以使用整个序列的信息。我们接下来使用双向LSTM模型进行了命名实体识别的识别器的设计,其中引入了Dropout、转移代价计算等各种技术,并按照该模型使用Python Theano实现了一个命名实体识别工具。我们使用这个工具在通用领域做了大量的实验,证明了双向LSTM模型在命名实体识别任务中效果远远优于CRF模型,在多组实验中提升了2%左右的F值。此外,我们还利用深度神经网络的预训练技巧在双向LSTM模型中添加了更多的外部信息,实验表明也有一定的效果。最后,我们利用前面提出的CRF模型和LSTM模型对医疗领域的语料进行了实验。CRF加入词表的实验对于识别出词表中的实体有效果,双向LSTM模型与CRF模型的效果相比仍有一定的提升。双向LSTM模型加入风格不一致的开放领域文本的预训练向量后,虽然牺牲了一定的性能,但能够提升模型对于非专业医疗语料实体的识别效果。
其他文献
<正>睾丸扭转是以急性阴囊肿痛为主要表现的泌尿外科急症之一,临床易延误诊治。必须及时处理,如诊断不清或者处理不当会增加睾丸坏死需行睾丸切除的风险[1]。本文对我科4年内
世界经济的发展速度增快、地球人口数量増加,人类对能源的需要也在急剧增涨,因此人们将目光投向了可持续发展的可再生能源。而太阳能和风能具有分布范围大、取之不尽、用之不
绚丽多彩的花卉以其独特的风姿形韵给人们带来精神生活的美好享受,一方面可以陶冶情操,丰富精神生活,另一方面也使人增长生物科学知识,提高文化艺术修养;与此同时,鲜花还用其
2012年3月后连续54个月的PPI同比下降与CPI同比上涨,勾勒出了国内工业生产和居民消费市场的两种不同情境。有鉴于PPI与CPI之间天然的联系,探索其背后的传导机制对于政策当局
睾丸交叉异位症是一种罕见的先天性疾病,其发病机制尚不完全清楚,本文通过1例该患者的病史及影像学资料,并复习国外文献对该疾病的诊治,现报告如下。1临床资料患者,男,44岁,
蔬菜无土栽培尤其是在营养液循环系统中,环境条件中温度与湿度保持恒定,其病害比基质栽培更多。尤以各种腐霉病危害严重,给栽培作物造成很大危害。
论述了我国汽车制造平均涂装技术现状与国际先进水平的差距,要实现自主汽车企业涂装绿色制造,必须进行节能和环保技术升级,结合汽车涂装2025年绿色制造的控制指标,提出我国自