医学域机器阅读理解研究及系统实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:tanshuyao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器阅读理解是人工智能技术的重要分支之一,旨在利用算法让计算机理解文章语义并回答用户提出的问题。在医学领域研究机器阅读理解技术有助于降低医疗成本,让更多人享受更丰富的医疗资源服务。目前关于医学领域的机器阅读理解研究较少,因此为丰富机器阅读理解领域的医学域数据集,本文首先根据网上公开的医学数据共享平台构建了面向机器阅读理解的医学域数据集;其次为提高医学域问答系统的性能,本文对基于深度学习的机器阅读理解模型进行合理的改进,同时使用BERT及其变种预训练语言模型对机器阅读理解任务进行研究和实验;最终,本文结合机器阅读理解模型和问题匹配技术搭建医学域问答系统。本文的主要研究工作如下:1、本文构建了医学域机器阅读理解数据集Medical QA。本文以爬虫和人工标注的方式构建了面向机器阅读理解的医学域数据集Medical QA。该数据集以寻医问药网和39健康网两大医疗平台为主要数据来源,爬取了近两万条问答对,内容涉及内科、外科、妇产科等9大科室,最终用于构建医学域问答系统。2、本文改进了Match-LSTM和Bi DAF模型。本文在Match-LSTM基础上采用数据重构策略,根据文本与问题相关性对文本中的句子重新排序,使文本中与问题相关的句子被优先阅读,突出相关性较大的文本的特征。最终改进的Match-LSTM模型的ROUGE-L和BLEU-4的值分别达到了33.96%和27.80%,相对于未改进的Match-LSTM模型分别提高了3.89%和3.17%。本文对改进的Bi DAF模型使用BERT预训练词向量并在注意力流层后增加自注意力层,加深文本与问题的关联,突出文本中与问题关联较深的特征。最终改进的Bi DAF模型的ROUGE-L和BLEU-4的值分别达到了33.34%和29.01%,相对于未改进的Bi DAF模型分别提高了2.93%和2.62%。3、基于预训练语言模型的机器阅读理解研究。本文使用BERT及其变种预训练语言模型在Du Reader数据集和Medical QA数据集上进行研究和实验,发现改进的掩码方式和多轮微调机制能显著提高模型在机器阅读理解任务上的表现,结果最佳的Ro BERTa-wwm-ext模型在测试集上的ROUGE-L和BLEU-4值分别达到了51.02%和48.14%。此外,针对数据规模较大且有效信息比较分散时模型表现未达到最佳的问题,本文对数据集采取根据F1-score寻找相关段落和答案模块以及特征预计算的三步预处理,使得预训练语言模型表现结果更加接近于人类平均阅读理解水平。4、医学域问答系统的构建。本文结合问题匹配算法和效果最好的机器阅读理解模型搭建了医学域问答系统,首先使用问题匹配算法计算用户问题和Medical QA数据集问题的相关度,若相关度大于分界值,问答系统直接输出Medical QA数据集中的答案;若相关度小于分界值则使用机器阅读理解模型作答。
其他文献
机器阅读理解作为智能问答技术的全新方法,让机器解析用户输入的问题,理解用户意图,通过机器阅读理解模型从文章中快速、准确地检索并查找到细粒度的答案片段。它能为广大用户提供一种高效的答案检索方式,被广泛应用到百度搜索、自动问答机器人、智能客服机器人等场景,具有良好的发展前景和应用价值。随着机器阅读理解中/英文数据集种类增加、复杂度的扩大化以及硬件图形处理器算力的大幅提升,机器阅读理解系统逐渐由传统浅层
学位
随着移动互联网的高速发展,人们也逐步由信息获取困难转变为信息过载,为了方便人们高效的获取有用信息,推荐算法应运而生。视频推荐系统作为视频平台的标准配置已广泛应用,但仍存在以下问题:视频特征未能全面的提取,例如评论,标题,简介;弹幕文本信息未得到充分利用并融入视频推荐中;视频内容与用户的兴趣喜好关联计算不足等影响推荐效果。本文针对视频推荐中存在的问题提出了融合多特征的弹幕视频推荐算法,主要研究工作如
学位
步入数字化时代,数字化的发展催生了数字经济,全方位助力社会的发展。数字经济成为经济增长的新引擎,也成为我国创新发展的新势能。“十四五”规划中提出,要促进数字技术与实体经济深度融合、推动数字经济和实体经济深度融合。在此时代背景下,本文聚焦企业数字化发展,探究制造业企业数字化水平、创新绩效与全要素生产率之间的关系具有重要的理论和实践意义。基于此,本文选取2012年-2020年A股制造业企业作为研究对象
学位
单光子发射计算机断层扫描(Single Photon Emission Computed Tomography,SPECT)借助单光子核素标记物实现全身骨骼形态和代谢的显像,通过发现病变部位的异常放射性浓聚或稀疏缺损实现疾病的无创检测,目前已成为诊断恶性肿瘤骨转移的首选方法。受限于成像技术和成像设备,SPECT骨扫描图像往往具有分辨率低,病灶区域边界模糊等缺点,使得医师诊断工作耗时、效率低并且伴随
学位
社交媒体拥有海量用户,是一种具备便捷、活跃、实时以及交互特点的社交应用。微博是国内社交媒体中最典型代表,已成为众多热点事件传播的集散地,成为网民对社会现象表达意见和分享情感的场所。本文对特定主题事件的相关信息进行采集,了解网民对热点事件的看法及其情感倾向,分析事件演化过程,使政府及时掌握时态和舆论发展,帮助引导舆论向着积极方向发展。本文研究工作包括以下内容:1)微博平台数据采集及预处理。本文以新浪
学位
中美贸易摩擦升级、新冠肺炎疫情爆发、俄乌冲突……以美霸权主义为首的西方同盟逆经济全球化的举措加剧了世界经济整体的不确定性。改革开放的四十多年来,我国经济发展日新月异,全球经济排名逐年攀升,但部分实质性技术专利仍处于被动位置,因此近年来我国始终以创新是引领发展的第一动力为指引,十分注重全行业科技创新发展;作为创新活动的重要经济主体,响应国家号召、提高创新水平的社会责任感是每一个企业应当牢记并践行的。
学位
2016年底财政部发布新审计准则第1504号,要求在上市公司的审计报告增加关键审计事项,首先在A+H股公司试点,2018年起在全部上市公司施行。关键审计事项改进了传统审计报告,研究热度逐渐增加,目前研究主要聚焦在审计师责任和投资者反应方面,研究范围有待扩大。一方面我国资本市场亟需改善关联交易治理,另一方面关键审计事项披露改变了过去审计仅通过审计意见发挥治理作用的现状,可以通过减少信息不对称、进行风
学位
在人们日常生活和交流之中,输入法是一款不可或缺的重要工具。对于藏语来说,虽然当前已经有不少输入法,但这些输入法存在的问题是只能使用传统的部件方式输入藏文,没有智能的输入引擎,输入速度慢,联想功能差等。鉴于此,本文研究、设计和开发了一种基于拉丁转写编码输入方案,提供键盘和手写两种输入方式,支持Android和Windows环境的藏文输入系统。论文的主要工作包括:(1)藏文语料库的构建和藏文拉丁输入引
学位
党的二十大报告指出,要坚持创新是第一动力的理念。我国经济进入新常态以来,创新水平虽在逐步提高,但目前仍未达到与发达国家比肩的水平,许多关键核心技术仍受制于人,继续提高创新能力仍是经济发展的重中之重。而在我国经济的发展过程中,实体企业面临市场需求减弱、生产成本上升等问题,整体盈利性变差,企业发展遇到困难,相比之下,金融业利润却一直居高不下。在资本逐利的驱使下,实体企业不断增加金融资产投资,甚至偏离主
学位
随着人工智能技术的不断发展,知识图谱已经成为人工智能领域中不可或缺的组成部分,因为它具有强大的知识表示和推理能力,备受学术界和产业界的关注。知识图谱在语义搜索、问答、知识管理等方面得到了广泛应用,但是多模态知识图谱的研究更注重于不同模态下实体及其多模态语义关系的构建。然而,现有的多模态知识图谱只能从有限的数据源中获取信息,其领域覆盖率较低。为了提高多模态知识图谱的覆盖率,一种可行的方法是整合其他多
学位