基于统计的生物命名实体识别研究

被引量 : 10次 | 上传用户:lho001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文献中的命名实体识别是目前被国际广为关注的自然语言处理研究问题之一。虽然自然语言处理在某些领域已经获得了很好的效果,但在生物医学领域却还有不小的差距。由于生物医学的蓬勃发展,新的命名实体层出不穷,其不规则的命名,以及旧词新用,使生物命名实体识别成为一项艰巨的任务,也在一定程度上影响着生物医学领域的研究进展。目前的研究方法很多,其中,统计自然语言处理由于其基于统计的学习方法不需要研究者具有太多生物医学专业知以,从而成为生物命名实体识别研究中常用的方法。隐马尔可夫模型是现代语音识别系统中构建统计模型的重要于段。它可以在只有少量训练数据的情况下学习规则。目前国际上有不少研究者采用了隐马尔可夫模型及其变形来解决生物命名实体识别问题,虽然取得了不错的进展,但都没有达到“近乎人类”的程度,还有许多问题有待解决,而国内的研究也才刚刚起步。所以本文的研究主要采用隐马尔可夫模型,对生物命名实体识别问题进行初步的研究。进行的工作如下:1、从已标注语料库中用统计的方法训练隐马尔可夫模型。通过对已标注语料进行统计得到隐马尔可夫模型的参数:状态集、发射符号集、初始状态概率、状态转移概率、符号发射概率。在不同的试验中用不同的方法来发现发射符号(命名实体名)的一些命名规律,对其进行归并,形成发射符号集,并掘此进行各项概率的统计。在计算概率时,为了解决数据稀疏问题,采用了线性插值的方法进行平滑。在实现过程中提出了词结构相似度的概念,为符号归并提供一个量化标准。2、在未标注语料上测试训练好的隐马尔可夫模型。以未标注语料的一个自然句作为隐马尔可夫模型的输入序列,用Viterbi算法获得输出状态序列,从而得到识别出的生物命名实体。形成输入序列时,在不同的试验中采用了不同的分词方法。通过计算自然句中一组词与发射符号集中各项的相似度,确定把自然句划分为词序列的边界,并辅以简单的词性分析。3、计算测试结果的召回率和精确率,通过比较,对隐马尔可夫模型进行改进,并重复以上过程直到获得一个可以有效识别生物命名实体的隐马尔可夫模型。通过上述的研究工作,实现了在生物医学文本中对命名实体的识别,并通过实验初步验证了所设计算法的有效性。
其他文献
历览古今兴衰事,成败得失在用人。正确用人是提高党的执政能力的关键,是我们党以人为本执政理念的重要体现,也是推动改革创新、落实科学发展观、建设高素质干部队伍、推进反
期刊
基于LabVIEW图形化编程语言和其强大的数据处理能力,设计开发了一套巨电流变液减振系统。系统主要包含两部分:其一,利用模态激振器、压电式加速度传感器、电荷放大器等硬件搭
本次碾压混凝土工艺试验主要进行了C9020W8F100二级配碾压混凝土和C9020W6F50三级配碾压混凝土碾压工艺试验、C9020W8F100二级配变态混凝土和C9020W6F50三级配变态混凝土的工
自从20世纪70年代以来,计算机网络技术与医学影像技术飞速发展,很多厂商都研制了具有计算机的成像设备,制定了各自不同的图像格式,从而使得不同生产商的设备不能直接连接,不同设备
在斜拉桥结构体系中拉索寿命最短,斜拉桥在其设计基准期内需实施多次换索工程。因此有必要对退化拉索的承载力和剩余使用寿命展开分析,确定最佳换索时间。根据实桥检测研究,钢丝
某跨高速公路斜拉桥主塔为空间弧形变截面结构,拉索采用带螺纹的套筒连接。为研究这种开口拱塔斜拉桥拉索的布置及设计,首先根据该桥的受力特点,选取索力、控制截面弯矩及塔
体育舞蹈运动是由配对的男女运动员在平整光滑场地上,配以音乐,沿着逆时针方向,按照一定级别所编排的套路,借助人体动作,表现各自情感和技艺,展现心体合一美的具有极高艺术性
目的:探讨钼-锝发生器的时间淋洗曲线,为临床钼-锝高效淋洗提供指导。方法:应用母-子体系放射性活度衰减公式计算不同时间淋洗活度,并绘制时间淋洗曲线。在不同时间段实际测
胃脘痛,简称胃痛,是以上腹部或剑突下慢性疼痛为丰要表现的病证。可为持续性,也可为发作性,人群中发病率较高。因此,对本病的研究和治疗历来受到重视。通过多年临床观察,发现慢性胃
目的:分析建立非营利性大型医用设备检治中心的可行性,探讨可以操作的管理办法,并提出相关建议,为大型医疗设备的合理配置和有效利用提供参考依据。方法:本课题对2003年四川省大型