面向生物医学文本的智能问答相关技术研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:asd03071128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学的快速发展,生物医学文献的数量也在逐年增长,生物医学文本已经成为目前最重要的科学研究资源。如何充分地利用海量生物医学文献,从中获取对生物医学发展有用的相关知识,为相关医学工作者提供有价值的信息,有着重要的意义。相比于使用搜索引擎输入关键词获得信息,智能问答系统允许用户直接以自然语言的形式描述自己的问题作为输入,可以筛选或生成精确又简明的答案,有着更好的用户体验。本文以生物医学智能问答为核心,重点解决该领域内所面临的比较突出的问题与挑战。首先研究对生物医学文本中的知识进行结构化表示的关系抽取任务,然后针对标注生物医学数据成本高昂的问题提出以自训练为核心的智能问答模型,最后研究自动文摘任务并用机器阅读理解问答评价生成结果。对于生物医学关系抽取任务,由于传统的方法不能很好的处理跨句的多元关系,文本提出了结合多头注意力机制和图卷积网络的混合方法对文本和句法结构关系进行建模,有效地利用了序列文本的全局依赖关系和句子内的句法依存关系。并通过一系列实验证明模型结构的有效性。针对生物医学智能问答任务的数据集中有专家标注的数据过少,一般的深度学习模型很难通过少量样本学到充分特征的问题。本文首先采用迁移学习的方法,通过目标领域的数据集对预训练语言模型进行微调得到语义增强的模型,然后通过半监督学习中的自训练方法对大量无标签的数据进行标准并放入训练集。该方法在测试集上进行了实验验证,获得了比目前最佳方法更好的结果。针对问题驱动的生成式文本摘要任务,由于当前的方法仅对问题和上下文句子之间的关系进行建模,而忽视了上下文句子之间的关系。本文提出利用两步注意力机制和总体集成机制对问题、上下文以及对应的摘要之间的关系进行建模,并提出多视角指针网络来解决未登录词问题。为了评估生成摘要是否与原文一致,本文使用机器阅读理解问答对生成的摘要进行事实一致性的检验。实验结果表明,该方法能够根据问题生成与上下文语义一致的文本摘要。
其他文献
随着医疗信息化建设和生物科技的迅猛发展,生物医学文献和电子病历的数量呈现出指数级增长的态势,蕴含在这些生物医学文本中的信息成为生物医学研究的宝贵资源。但由于生物医学文本大都是以自然语言描述的非结构化形式存在,计算机无法直接对其进行有效的分析和利用。因此,通过生物医学文本挖掘技术对生物医学文本进行有价值信息的提取和利用,将对生物医疗技术的进步和医疗健康领域信息化建设的发展产生深远和积极的影响。生物医
学位
浩如烟海的生物医学文献中储藏着大量非结构化的信息,是生物医学信息挖掘的重要来源,对于隐含知识发现研究而言更是宝贵的待开发资源。一方面,使用自然语言处理技术和深度学习方法自动化进行药物重定位,能够极大地降低药物研发的经济成本和时间成本;另一方面,药物重定位系统作为药物研究人员研发的参考依据,其推断结果需要具备充分的准确性和可解释性。如何高效而准确地将生物医学文本中的信息结构化是生物医学文本挖掘的一个
学位
随着互联网技术的发展,越来越多的社交媒体网络平台逐渐产生,为人们带来了新的获取信息的途径,成为了人们日常生活中获取公开信息的主要来源方式。相比与传统的新闻媒体,微博、今日头条等社交媒体网络具有更好的互动性和时效性,有着更丰富的新闻表现形式,能够在新闻发生后第一时间帮助人们获取相关资讯。但是社交媒体网络中的新闻并非全部都是关键信息,包含大量冗余内容。人们可能需要花费更多的时间从新闻中获取需要的信息。
学位
神经网络中文分词系统可以在手工标注资源丰富的领域内场景下能提供最先进的分词性能。但是,当遇到医疗领域等专业文本时,由于领域内标注资源的稀缺导致中文分词系统的性能骤降。现有神经网络中文分词系统在低频术语的分词上表现不佳。针对中文分词任务在跨领域场景下的数据分布不匹配和未登录词识别困难问题,提出了一种词典增强图卷积神经网络领域自适应中文分词方法。首先,利用外部词典对输入句子进行候选词匹配,构建基于词典
学位
近年来,视频成为了各大媒体的主流数据,基于视频数据的研究成为了当下的热点。动作识别针对的是人体运动相关的视频,是目前人工智能领域中比较前沿的研究方向。动作识别已广泛应用于诸多领域,如步态分析、增强现实、人机交互、娱乐和游戏、体育科学等,因此具有巨大的研究意义和研究潜力。本文面向动作识别领域中的多粒度分类问题进行研究,当前相关算法已经取得了重大突破,然而仍存在一些待解决的问题。首先,现有方法中的自注
学位
本篇报告是一篇关于机器翻译加译后编辑模式下的翻译实践报告。原文选自《泡沫灭火系统设计规范条文说明》的前两章。该文本是中国公司为援助柬埔寨消防建设,根据相关中国标准编写的文件,需要翻译成英文供柬埔寨相关部门作为该国国家标准借鉴使用。该项目旨在提高目标读者对消防规范的了解,并在翻译过程中提供有效的翻译策略。原文用词准确、严谨、逻辑性强,内容存在较多数字和表格,属于典型的信息型文本。在译后编辑过程中,通
学位
目前,各种知识库中存储了海量的生物医学文本,其数量还在呈指数增长。这些文献是生物医学技术发展的结晶,通过信息抽取技术挖掘隐藏在生物医学文本中的有用知识是一个重要的研究课题。实体关系抽取是信息抽取的一个关键子任务,它在命名实体识别的基础上,把包含实体对的文本分类到预先定义好的关系类型中。目前,面向生物医学文本的实体关系抽取研究致力于通过构建深度学习模型来自动地从无结构化的生物医学文本中抽取出结构化的
学位
随着司法体制改革的不断纵深发展,法律文书数字化的程度不断提高,网络上可获得的法律文本信息实现了指数级的增长。但不同种类的法律文本书写规范相异较多,难以通过规则直接进行文档理解和知识分析。因此越来越多的研究者将自然语言处理技术应用到法律文本,通过信息抽取将非结构化的文本转化为结构化的数据,促进了司法信息化发展,提高了司法效率。信息抽取包括命名实体识别、关系抽取和事件抽取,目的在于抽取出文本中的实体关
学位
情感是人类心理最基本的组成部分之一,对人类的情感进行分析有助于判断个体的认知及行为,有着广泛的应用场景。由于人类实际上是结合多种信息去判断他人的情感的,那么采用多模态深度学习开展情感分析工作成为了理所当然的选择。虽然引入多模态信息提高了情感预测的性能,但与此同时也引发了诸多呈待解决的新问题。而这些问题,本质上都是多模态表示的问题。本文从多模态表示学习的角度出发,针对多模态情感分析中的一些难以解决的
学位
本文研究了亚临界星型河渠网中非稳定流的多种能控性问题,并将其结论推广到星型拟线性双曲型方程网的精确能控性.本文首先得到了非稳定流在亚临界星型河渠网中其半整体C1解的存在唯一性,实现了仅在复结点施加控制或在复结点与部分简单结点任意分配控制个数时星型河渠网络的精确能控性.在此基础上,本文进一步推广,得到了由一般拟线性双曲型方程构成的星型网的半整体C1解的存在唯一性,并采取构造性的方法通过将控制全部施加
学位