面向消化内科辅助诊疗的生成式对话系统研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Dark_tomato
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的快速发展,群众的压力也越来越大。不规律饮食已成为现代人的共同问题,食物安全性的问题也一直存在,这导致了患有消化系统疾病的人数不断增多。消化系统很多疾病的发病周期长,通常早期对人的影响很小,只会出现一些轻微的不适感,对现在忙于工作的上班族不构成去医院问诊的充分条件。一般在身体刚出现消化系统异常情况时,大多数人会首先选择在互联网上寻找信息帮助。传统搜索引擎在处理疾病的搜索请求时,技术原理通常为关键字匹配,存在诸多限制,例如丢失疾病的关键信息,并且整个过程耗时,甚至可能是无效的查询。在这种背景下,考虑到对话系统作为一种先进的信息检索系统,能够根据用户的输入及时返回相关的有效信息,本文探索了一种适用于消化内科领域的生成式对话系统,研究内容主要包括语料的分词、文本的分类和对话模型三个部分。1.研究一些常用的分词方法,分析各种方法的优缺点,以及对适用于中文的结巴分词工具展开研究,分析其处理消化内科语料分词时出现的问题。本文在结巴分词的基础上,构建消化内科领域的专业词典,使用双向最大匹配分词法进行分词操作,同时增加歧义消除策略。实验结果表明我们的分词策略能有效解决结巴分词在处理消化内科语料分词过程中出现的疾病名称、症状名、药名错分问题,以及降低分词歧义的产生概率。2.研究消化内科领域问答数据缺乏的问题。通过Beautiful Soup爬虫获取初始语料,在进行数据清洗和分词处理之后,对常用的关键词提取算法展开研究,本文在此基础上提出关键词联系类别的词向量构建方法,构建问句的句向量,将句向量作为支持向量机(Support Vector Machine,SVM)的输入特征,通过主动学习策略进行分类模型的训练,实现文本的分类。实验结果表明使用本文提出的句向量进行文本分类的效果比使用word2vec(Word to Vector)向量进行分类的效果要好,得到的分类模型能够获取到较均衡的消化内科五大类数据。3.研究传统的序列到序列模型(Sequence to Sequence,seq2seq),分析该模型在生成消化内科问诊答案时具备的缺陷,并对谷歌的语法分析树生成模型展开研究,在两者的基础上,通过组合多层编码、注意力机制解码、门控循环单元(Gated Recurrent Unit,GRU)和集束算法(Beam Search)形成本文提出的对话模型结构,并结合键值对向量和word2vec向量提出新的模型训练方法。实验结果表明本文提出的对话模型结构在进行消化内科疾病的答复的生成时,能够解决传统生成模型产生的回答与问句无关的问题,生成的语句结构不完整的问题,以及规定输入语句长度一致的问题,同时新的模型训练方法能够一定程度上提高模型的有效性。
其他文献
缓冲层作为传递衬底织构及阻隔衬底与钇钡铜氧(YBCO)超导层间元素扩散的重要中间层,已成为涂层导体的必要组成部分。目前常用的缓冲层的材料包括Ce02、Y203、La2Zr2O7、YSZ(
近几十年来,随着国家经济的高速发展,钢结构在建筑结构领域得到广泛应用,新的钢材材料型号、构件种类、结构样式不断出现,其中,空间网格结构公共建筑在现代化城市中星罗棋布。这些公共建筑除满足日常功能外,还要求其具有地震避难所功能,成为灾难地震时灾民避难、应急救援指挥中心与物资转运据点等。国内外的许多学者也从不同的角度对螺栓球节点高强螺栓、圆钢管杆件及高层框架梁柱节点的疲劳性能做了大量试验研究,积累了大量
对民众权力观的研究有助于我们了解赖以生存的政治社会的某些本质。本文基于4地问卷数据,探讨了中国民众权力观的类型和结构特征及其影响因素。研究发现,中国民众的权力观呈
烟草根结线虫病是由植物寄生性根结线虫侵染所引起的一种烟草土传病害,在长期连作种植模式下,烟草根结线虫病在全国各大烟区每年呈上升发展的趋势。由于其特殊的侵染性,烟农
松墨天牛引诱剂主要为液态制剂,具有挥发性,在野外直接使用时成本高,因此降低其释放速率以延长其使用效果,是引诱剂在优化使用中的关键技术之一。通过室内、外测定,研究APF-
极北鲵(Salamandrella keyserlingii)在我国主要分布于东北地区,分布范围比较狭窄,其分类地位在有尾两栖类中比较原始,在两栖动物的系统发育研究方面具有重要的研究地位。本
水椰八角铁甲Octodontanipae(Maulik)是危害我国南方棕榈科植物的重要入侵害虫。本研究基于前期的转录组数据进行了水椰八角铁甲多态性SSR位点的筛选和父权鉴定技术的开发,并
研究背景脑梗死(Cerebral infarction)是各种原因导致的脑血管供血不足,局部脑组织灌注障碍所引发缺血、缺氧以及坏死的过程,其机制涉及炎症反应、氧化应激、血管内皮细胞损
背景:近年来,不孕症的发病率逐年增加,我国不孕症的发病率约为12-15%。作为不孕症的重要治疗手段之一,以IVF-ET(In Vitro Fertilization&Embryo Transfer,体外受精-胚胎移植)为主要代表的辅助生殖技术成功率高,得到患者的广泛接受。为满足患者对治疗舒适度的追求,采用一种既简便又安全的麻醉镇痛方式非常必要。结合目前主流的静脉麻醉方式,本实验拟丁卡因联合
城市时空热点指城市居民来往次数多、交通流量大的时空区域。确定城市时空热点在城市基础设施建设、交通规划、商铺选址、打击犯罪等公共服务领域有大量的应用。目前的热点检测通常是在收集到的全部出租车轨迹上,采用Getis-Ord G_i*统计方法,把轨迹按照时空立方单元划分,计算所有轨迹数据覆盖下的热点单元,作为城市时空热点。随着实际应用的扩展,人们对于城市时空热点检测有了更高的要求,希望根据需求定制城市时