基于注意力神经网络模型的生物医学词义消歧研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:bfxj8812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学词义消歧在生物医学领域应用广泛。机器翻译、文本挖掘和基因命名标准化等都是生物医学领域有价值的研究课题。生物医学文本的复杂性和多样性,用机器进行自动处理,可能无法得到专业词汇的正确含义。因此,生物医学词义消歧是上述工作进行的基础。本文通过对生物医学词义消歧知识和多种神经网络模型的研究,将注意力机制(Attention Mechanism)、多尺度非对称卷积神经网络(Multi-scale Asymmetric Convolution Neural Network,MACNN)和双向循环神经网络(Bidirectional Long Short Term Memory,Bi LSTM)融合,提出一种基于注意力神经网络模型的生物医学词义消歧方法。该方法在MSH WSD数据集获得较高的消歧准确率,对以后的生物医学词义消歧研究有一定的参考价值。具体工作如下:(1)提出了一种MACNN模型,该模型使用多个不同大小的卷积核来处理数据,可以获得更多的特征,引入非对称卷积的思想。实验对比了卷积核在不同大小和不同数量情况下模型的消歧性能。结果表明:卷积核大小为2、3、4时,MACNN模型的消歧性能最好,消歧平均准确率达到84.54%。(2)提出了一种MACNN-Bi LSTM模型,该模型兼具MACNN提取特征的能力和Bi LSTM获取上下文信息的能力。实验对比了LSTM隐藏层中不同节点数量和层数对LSTM模型消歧性能的影响。结果表明:隐藏层节点数为100时,LSTM模型的消歧性能最佳。MACNN-Bi LSTM模型的消歧平均准确率达到85.78%。(3)提出了一种注意力神经网络模型,在半监督方法中,使用Xgboost算法和Light GBM算法扩充训练语料。使用扩充之后的训练语料来优化注意力神经网络模型。最后,使用测试语料来测试模型的消歧性能。结果表明:经过扩充语料优化的注意力神经网络模型的消歧平均准确率达到87.59%。
其他文献
随着信息时代的飞速发展,人们与互联网的联系越来越密切,近年来汇集了人工智能、自然语言处理和认知科学等多个领域的情感识别技术也随之得到了井喷式的发展。人类的情感通常通过自然语言、语音以及面部和肢体语言所共同表达出来。现如今视频社交行业飞速崛起,越来越多的用户通过短视频来输出观点,网上多模态内容的数量呈指数级增长,情感识别技术也从最初的单模态情感识别逐渐演变成多模态情感识别。对人物在多种模态下所表达出
学位
目的 明确宁夏腹泻患者致泻大肠埃希氏菌(diarrheagenic escherichia coli,DEC)的分布规律和流行趋势,掌握其耐药特征,为宁夏食源性疾病的预防控制提供科学依据。方法 2016—2021年共收集15家哨点医院门诊及住院食源性疾病腹泻患者新鲜粪便样本7 042份,进行DEC分离培养、生化鉴定、荧光PCR毒力基因分型,微量肉汤稀释法抗生素药敏试验。结果 7 042份腹泻患者样
期刊
随着社会和科技的飞速发展,道路上的车辆越来越多,智慧交通和无人驾驶汽车将成为未来交通的趋势。在智慧交通和无人驾驶汽车技术中,多目标车辆跟踪则成为不可或缺的一环。国内外众多学者在多目标车辆跟踪领域展开重点研究,虽然取得了成果,但是仍存在一些难题。例如当跟踪的车辆较多、车辆发生形变、车辆相互遮挡或者行车环境复杂时,车辆跟踪效果就会变差。本文围绕上述多目标跟踪算法存在的问题,对车辆检测和车辆跟踪的算法进
学位
图像分割是计算机视觉领域的研究重点。传统的图像分割方法基于像素点处理图像,没有考虑到像素点之间的空间与颜色等信息关联,分割效率较低。为了提高图像分割的质量和效率,本文利用图像像素点之间的信息相似性将图像划分为尺寸相当的多个区域块,即超像素。超像素把图像处理的基本单位由像素点级转变为像素块级,能够减少所需处理的信息数量,为后续的图像处理降低复杂度,提升图像分割的有效性。针对当前的密度聚类分割方法存在
学位
伴随社会的发展,车辆在现如今已经得到了广泛的应用,在给人类带来便利的同时,也产生了许多难以忽略的安全问题。尤其是在智能交通逐渐丰富社会治理体系的当下,对于车辆的分类识别逐渐成为智能交通的关键领域之一。其中,摄像头采集到的车辆信息可以加快事件处理进程,但摄像头采集到的图像易受环境的影响,造成信息量的大幅降低。因此,对于模糊图像的增强处理以及车辆图像的分类方法研究具有重要的现实意义。根据对图像增强算法
学位
在过去的十几年中,多种摔倒检测算法被相继提出,但目前的基于深度学习的计算机视觉摔倒检测算法仍存在以下问题:(1)多数方法使用两个网络对目标进行分类和摔倒判定,会导致特征被重复两次提取,造成算法的冗余。(2)现有的摔倒检测数据集中包含的小目标样本过少,造成小目标检测的准确率低。(3)网络模型的深度不够进一步造成小目标检测的准确率低。(4)网络模型仅是对状态的检测,对于类似摔倒行为会造成误判。(5)网
学位
交通标志为驾驶者提供前方道路信息,对于人们的行车安全起到保障作用,随着交通系统智能化的发展,交通标志检测与识别技术愈发受到科研工作者的关注。保证实时检测的条件下,提高交通标志检测与识别的精度,对智能化交通以及无人驾驶汽车的发展具有重要意义。目前针对交通标志检测与识别方面的研究,一些国内外相关学者已取得了一定的进展,但是由于交通标志的目标较小,并且在自然场景中容易受到复杂背景、光照、遮挡及变形等不可
学位
<正>策展,对我而言,是一种探索的方法,持续探索未知领域。策展已经不同于以往传统博物馆中策展人所做之事,策展指涉一个更大范畴的实践,跨越更多层面的实践,同时也引起了人们对策展人角色的不断思辨。在过去二十年中,人们对策展人工作的认识发生了彻底的转变。人们不再将策展人看成是作品的照管者或幕后的审美仲裁者,而是作为在更广阔舞台上发挥能量的一群人。他们将策展置于一个更广阔的政治、经济及文化语境之内去审视,
期刊
半监督学习是机器学习领域研究的一个重点方法,在只有部分数据有标签的情况下,可以利用无标签的数据进行学习。时间序列是一组按时间排序的变量,与传统的离散数据不同,时间序列数据之间一般具有某种程度的相关性,其独有的时间依赖关系是一个重要的监督信号,可以被用于半监督学习中以监督无标签时间序列数据的学习。但是现有的时间序列半监督分类方法往往忽略了时序数据的时间关系,未能对无标签的时间序列数据加以充分利用。为
学位
车辆自组织网络(VANETs)可以改善交通流,促进智能交通,并提供方便的信息服务,在辅助车辆驾驶、安全警告等诸多应用都有广泛性的表现。但是随着车辆节点与其他节点的数据共享在规模和维度上呈现爆炸性增长,传统的车联网会受到身份有效性和消息可靠性等问题的影响。同时,现有的用于近邻查询处理的可扩展增量处理技术只提供了树索引上的技术创新,而没有考虑分级的隐私保护问题,导致查询效率低下,查询精度低。基于上述原
学位