基于部分标注与强化学习的药物名识别研究

来源 :华中师范大学 | 被引量 : 1次 | 上传用户:quhongliangs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学药物名识别是药物相关任务中关系抽取,事件抽取等的基础工作,在生物医学领域具有重要的研究意义。现有的药物识别方法大多是基于有指导的机器学习方法,该方法往往需要大量人工标注的数据作为训练数据,但由于人工标注数据有限,新药层出不穷,从而制约了药物名识别模型的性能。本文针对性地分析了药物名的构成特点,提出了基于字符嵌入和药物名前后缀嵌入的神经网络模型来提高药物名的语义表达,同时利用远程监督、部分标注学习和强化学习等技术来扩展训练数据,提高了药物名的识别性能。本文的主要研究内容包括以下几点。首先,本文针对性研究了药物名的构成特点,总结了药物名的前后缀字典,并在词嵌入层增加了药物名前后缀嵌入和字符嵌入,提高了药物名的语义表达能力。药物名在构词形式上存在一些明显的特征,例如相同的药物名前缀或者后缀等。本文对此进行研究总结,并在神经网络模型的嵌入层增加了前后缀嵌入和字符嵌入,以用于捕获其构词特性,提高其语义表达,进而提高了药物名的识别性能。其次,本文采用了基于人工标注数据与远程监督数据的混合训练方法,提高了模型的鲁棒性和性能。为了抑制训练过程中的过拟合问题,本文在人工标注数据中添加了部分远程监督数据来对识别模型进行训练,以提高识别模型的鲁棒性。同时,在基于扩展数据的训练上,本文在远程监督数据中增加了部分人工标注数据,以引导模型参数往正确的方向收敛。实验结果显示本文总结的药物名前后缀字典、字符嵌入和混合数据训练方法均能有效地提高模型的性能。同时,该模型能够有效识别出一些尚未包含在字典中的新药物名,显示出了该模型良好的泛化能力。
其他文献
在国家“互联网+”的战略支持下,“互联网+教育”作为一个重要分支深受重视,该模式深度推进了信息化手段和教育的融合。其中在线教育现已成为一种必不可少的教育方式,网络课程在日常教育活动中的比重迅速增加,教师和学生对网络课程资源的需求也随之迅速加大。但海量的课程资源数据带来了信息超载问题,使得用户获取个性化的网络课程资源面临诸多挑战。在此背景下,个性化推荐技术应运而生,成为有效的解决方案。现有的协同过滤
学位
以粒子对撞机等大型科学装置为代表的高能物理实验是当今物理学的一个重要研究课题。硅像素芯片是目前位置灵敏型探测器的研究热点。随着高能实验研究的深入,像素芯片的复杂程度随之增加。现有硅像素芯片通常采用简单的片上低精度数字化与逐行扫描式读出。新型硅像素探测器在大面积像素阵列扫描控制、在线实时数据处理、低功耗和抗辐射等方面提出新要求。随着集成电路技术的快速发展,在像素芯片中集成微处理器变得可行。微处理器拥
学位
大数据与人工智能技术的发展与普及,深刻地改变了社会生产与生活的方式,促进了当今社会从信息社会迈向智能社会,并引起了教育环境与教育方法的巨大的变化,如在线学习的发展普及。信息素养是人们参与智能时代生产生活与学习的必备素养,我国已提出信息素养是高校培养高素质、创新型人才的重要内容。由于新冠疫情的影响,在线学习的发展进程被大大加快,在线学习成效成为受教育研究者关注的主题。尽管许多研究者从多方面对在线学习
学位
化学概念学习是化学教育研究的核心领域。在当前国际教育改革不断推进的背景下,我国充分借鉴国际先进改革成果,结合本国国情开始了新一轮的基础教育课程改革。新的课程标准提倡开展素养为本的教学,以学科大概念为核心建构结构化的课程内容是其表现之一。只有形成正确的核心概念才能促进学科大概念的形成,如电化学核心概念的形成对氧化还原反应这一大概念的形成至关重要。开展迷思概念探查及转变的研究是促进学生科学概念形成的重
学位
“化学平衡”是高中化学的重要学习内容,在新高考改革的背景下,本研究采用文献分析、文本研究、统计分析等方法,选取2020年高考全国卷Ⅰ、Ⅱ、Ⅲ、浙江卷、北京卷、山东卷、天津卷、海南卷、江苏卷的化学平衡类试题为研究对象,从试卷基本情况、考查视角、试题分析三个方面,对化学平衡类试题进行比较研究。研究结果显示:(1)化学平衡类试题在2020年高考试题中所占比重较大,试题的结构和比例相对一致,考查内容更侧重
学位
X射线偏振卫星是天文物理的重要研究手段。低能X射线偏振卫星的探测系统包括两部分,微结构气体探测器和具有传感与读出功能的硅像素芯片。华中师范大学研发的Topmetal硅像素芯片是低能X射线偏振卫星的备选芯片之一。目前,国内外有许多针对硅像素传感器的读出电子学方案,有用于大型实验的通用数据读出系统,也有针对小型实验的专用读出系统。大部分读出方案都是读出所有数据然后进行离线数据处理。但是空间X射线偏振卫
学位
信息技术目前已经成为高中数学课堂中常见的教学手段之一,具有十分重要的教学价值。在数学课堂中科学合理的应用信息技术,能充分调动学生的学习积极性,提升课堂教学效果。然而信息技术在高中数学课堂教学中的应用效果,受到多种因素的综合影响,如:学生需求差异化、传统教学模式惯性思维、对信息技术应用的重视程度不足等。本文立足于宜春市第九中学的实际教学情况,分析信息技术在高中数学课堂应用中存在的问题和成因,并提出一
学位
普通高中物理课程标准充分关注物理学科对提高学生核心素养的独特作用,强调对学生科学思维能力的培养。思维导图是一种能够将思维可视化表达与呈现的工具,运用大脑的联想、发散性思维等方式,思维导图可以有效地提高工作和学习的效率,已被越来越多的人所接受和应用。鉴于此,笔者尝试将思维导图引入高中物理教学,并以一些多媒体技术将物理课堂进行可视化地呈现,希望能够运用基于思维导图的方式,逐步提高学生的科学思维能力,同
学位
随着社会发展与生活水平的逐步提高,超重和肥胖已经成为全球性问题,由肥胖引起的脂肪肝、癌症以及代谢类疾病已经严重威胁人类健康。为了对人体肥胖及其程度进行精准的定量研究和综合分析,人体全身脂肪组织和肝脏图像分割就尤为重要。然而,目前大多数全身脂肪和肝脏图像分割算法存在分割效率较低及分割效果较差的缺陷。因此针对此类分割算法存在的问题,本文以全身脂肪及肝脏磁共振(Magnetic Resonance,MR
学位
用户群中的关系影响用户的情绪,是广泛存在于社交网络情绪传播中的现象,研究用户群的情感倾向有利于从影响情绪传播、情绪感染的几个节点切入,可以帮助调控网络空间的健康发展,也可以帮助减少负面情绪的大规模聚集,减少社会突发性事件的发生。因此,本文从以下几个方面展开研究:第一,针对现有的文本情感倾向性分析中存在着用户群关系逻辑的整体缺位以及被忽略的情况,本文通过提出用户群的社交可供性概念,即可连接性——用户
学位