基于词嵌入和领域知识的医学问答意图识别研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:lives63712094
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能问答机器人在人工智能领域的不断发展,市场逐步发布了如天猫精灵、小米智能音箱等语音对话类产品,该类产品底层的系统逻辑与算法一直在不断积累与更新。此类产品目前对医学名词及问题还不够敏感。现有意图识别分类较为常用的方法有基于规则模板或特征等,此类方法需消耗较多人力并且覆盖面、分类能力也相当有限。针对上述问题,结合医疗领域对话文本特点,本文提出了基于主题词嵌入的意图识别模型(ETM-T)。该模型将用户的就医意图视作分类问题,首先使用ETM模型挖掘出与中文医患问答数据相关的主题语义向量表示,然后将主题向量与TF-IDF词权重进行融合,得到的句向量作为Transformer编码器模型的输入,再利用Transformer编码器提取文本语义特征并完成对用户问答数据的分类。通过对实验结果分析得出,该模型拥有较好的意图分类效果。但仅依靠问答文本内容,无法使ETM-T模型提取到与患者病情相关的并发症、忌吃食物等医学知识相关的语义信息。为解决此类问题,本文还提出了融入领域知识的意图识别模型(ETM-H-T),此模型在ETM模型提取主题语义表示的基础上,使用爬虫技术获取医学领域知识数据并构建知识库,通过Hole模型得到知识的实体词嵌入表示,将问答文本的词汇信息、主题语义信息与知识实体信息作为Transformer编码器的输入,通过聚合操作将三者语义信息进行融合,得到最终的语义表示,完成意图分类任务。其中知识实体的表示增强了问答文本的语义边界信息,使得ETM-H-T模型能够挖掘出关键医学知识的多重关系。通过实验分析,本文提出的意图识别模型在性能上有较好的提升。
其他文献
卷积神经网络在许多图像处理问题中应用广泛.它针对图像中每一个像素点进行计算,经过多层卷积后得到的高层次特征,这些特征对于图像语义分割至关重要.计算机利用这些特征可以自动从图像中分割出目标和背景,并识别出图像的目标物体的位置.由于经典的全卷积神经网络FCN和U-Net经常会在细胞核分割过程中错误地识别模糊的目标.因此在这篇论文中,本文将使用改进的U-Net网络结构解决细胞核语义分割中产生的问题,并做
针对传统工作流系统不能有效处理海量数据的问题,将工作流引擎与云计算相结合是行之有效的解决方案。然而,目前的云工作流引擎系统还存在着云资源利用率低、可移植性和可重用性差以及系统开发运营成本高等问题。为了解决这些问题,论文对IC-Flow Engine(Inner Mongolia University Cloud Workflow Engine)2.0系统的集成架构和底层云资源利用率进行改进和优化,
随着网络技术和计算机视觉技术的飞速发展,在许多实际应用中如机器人、自动驾驶汽车增强现实和物联网,视频分类已成为这些任务的核心问题。同时,视频分类任务常常需要在有限的内存资源和计算能力的设备上实时执行,以满足用户需求。而传统视频分类方法中的特征提取较为繁琐,且需要根据任务的特性尝试各种方式来决定最适合描述不同类别的特征,这是一个相当耗时的过程。另一方面,目前主流的视频分类方法是将视频完全解码成RGB
随着移动互联网信息技术的普及和蓬勃发展,网络用户及其业务需求在数量和规模上呈现急剧上升的趋势,进而导致云平台中的组合服务也变得越来越复杂化和多样化,这对云平台中组合服务的调度方法提出了更高的要求。传统的云应用供应商以虚拟机为基础来部署应用程序的方式,愈发地不能满足企业和用户对服务的迫切需求。而容器作为一种新型虚拟化服务技术,相较于虚拟机而言,具有响应速度快、资源利用率高以及更易于部署和维护等诸多优
移动群智感知网络(Mobile Crowdsensing Network,MCSN)是一种新的数据获取模式,致力于为人们提供普适的物联网服务。合理的任务定价机制不仅能够激励更多的用户参与感知任务,还有助于平台的良性发展,因而,逐渐成为群智感知领域的研究热点。现有的研究大多是根据历史交易情况或者MCSN中的某种主体交互进行定价,均未考虑两者协同定价。此外,还普遍存在未充分分析任务定价规律、定价预测模
近几年的研究表明长链非编码RNA(Long non-coding RNA,lncRNA)具有丰富强大的生物学功能,在真核生物的基因表达调控过程中发挥重要的核心作用。相对于lncRNA在哺乳动物上的研究,其在植物上的研究起步相对较晚,目前如何从大量的转录本中准确地识别出lncRNA仍然是植物lncRNA研究领域的重要问题之一。本文新建了两个数据集,一个是植物lncRNA和mRNA的数据集,另一个是单
作为云计算的基础设施,数据中心通常运行着大量多种类型的服务,在不间断工作下存在不同程度的资源空闲,直接或间接造成了一定的资源浪费和能耗开销。论文从数据中心网络角度出发,以保障云用户的需求为前提,设计一种基于休眠唤醒的网络流调度方法,提高资源利用率,降低能耗。该方法有以下创新之处:1.提出解决数据中心网络能耗优化问题的通用框架。该框架针对现有能耗优化方案在优化过程中可能降低用户服务质量的问题,引入服
深度学习凭借神经网络对语义的深度理解能力在机器翻译领域取得长足的进步。然而对于低资源语言,一个难以攻克的问题是大规模双语语料的缺乏导致的数据稀疏,以致于译文质量不佳。常见的解决思路如无监督方法会带来额外噪声,影响学习效率。为此,本文采用一种半监督的对偶学习方法构建蒙汉神经机器翻译模型,在两个对偶任务中形成一套闭环反馈系统,从未标注的数据上获得反馈信息,进而利用该反馈提高对偶任务中两个机器翻译模型的
近年来基因相关的研究备受关注。临床医学和生物实验产生海量的生物数据,目前有很多数据库都记录了基因和疾病的本体数据,但大部分数据库专一性较强,无法有效根据不同基因的关联关系发现基因潜在信息。本课题融合多个基因相关的数据源,使用改进的随机游走算法,研究并开发了基因集成资源搜索系统,并利用系统中多数据源融合的集成资源进行基因数据挖掘,发现基因的潜在功能。实验结果表明,本文提出的方法在融合了多个数据源之后
创新驱动战略是现阶段国家发展的战略目标,在此大背景下,知识产权战略作为创新驱动战略的重要支撑和保证,作用日益突显。而专利作为一种对知识产权保护(IP)的主要手段也愈加为人们所重视。同时随着新兴技术的飞快发展和专利的申请数量的急剧增长,待审查专利文本大量堆积,并且由于专利本身专业性的加强也使得对专利审查员的专业素质要求越来越高,增加了审查难度。专利侵权检测问题作为审查核心,是突破瓶颈的关键。然而手动