基于自动文摘的医疗问答答案生成方法研究

来源 :昆明理工大学 | 被引量 : 1次 | 上传用户:alexkent
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗领域一直是信息化发展的重要方向,随着医疗信息化的跃进式发展,医疗数据的类型和规模呈现出一种井喷式的增长,数据爆炸让医疗领域正在一步一步步入大数据时代。但是,搜索引擎会返回一系列相关结果,没有考虑不同习惯和兴趣的人们的需求差异性。相较于传统的搜索引擎只能反馈给用户一系列相关文档,问答系统能够使用户以自然语言输入问题,并且反馈给用户一个简洁、准确的答案,而不是一系列相关文档,这表明和传统的搜索引擎相比,问答系统更加方便、准确,由此可见,问答系统在医疗领域是一个迫切的需求。通过对医疗问答语料的分析我们可以看出医疗问答语料的类别标签存在着层次化的特点,这就为下一步答案生成带来了挑战。因此论文将医疗问答语料的问题分类和答案生成做为论文的主要研究点,提出了基于层次化多标签的医疗问句分类方法和基于相似问答集的自动文摘医疗问答答案生成方法。具体如下:针对医疗问题以树状结构构建,并且在标签分布上存在着不平衡的现象,即叶子节点中在某些标签下的样本较多而另一些标签下的样本则很少,在高层节点下虽然也存在着标签分布不均衡的现象但是总体样本数目还是较大的特点。本文结合深度学习和传统机器各自的优点,设计了基于混合神经网络模型的层次化分类模型。在高层节点部分,本文使用词向量矩阵构成的问题文本作为输入,使用卷积神经网络(Convolutional Neural Networks,CNN)结合深度信念网络(Deep Belief Network,DBN)作为高层节点的分类器以保持高层节点之间的依赖性。针对医疗问答中叶子节点中在某些标签下的样本较多而另一些标签下的样本较少的特点,本文使用支持向量机(Support Vector Machine,SVM)作为底层节点的分类器。实验表明本文所提出的方法相较于简单的CNN,SVM堆叠模型在层次多标签分类问题上有着较优的表现。针对医疗自动问答中用户以自然语言提出的问题句式结构复杂并且存在多种语义的特点,本文提出了基于相似问答集的自动文摘答案生成方法,该方法计算问题文本的主题概率向量后计算问题文本间相似度。获取由与用户问题相似的问答对的答案构成的原始答案集后,利用改进的基于编码-解码结构的序列到序列学习模型(sequence to sequence,seq2seq)对原始答案集进行摘要生成答案句。实验表明本文的模型在自动问答答案生成的准确度上有一定程度的提高。最后,设计并实现了医疗自动问答系统,同时将论文所提出的基于层次化多标签的医疗问题分类技术和基于自动文摘的医疗问答答案生成技术集成到自动问答系统中。
其他文献
三相网络的主要特征就是输出恒定的无功功率和有功功率,并且要保证它们不能受到负载的不对称性或非线性影响。众所周知,高次谐波会导致电缆、电动机和变压器过热,断路器误动作,电容器过热失效,中性线复位,传输和能量转换效率显著降低等各种问题。考虑到目前电驱动器的发展趋势由未调节型变成了调节型,实际情况更加复杂,因为受控转换器(直流电机的晶闸管转换器,晶闸管电压调节器和交流电机的变频器)本身就是电网高次谐波的
太阳能级硅是光电转换材料,在制备过程中发现,磷元素脱除难度高。电磁悬浮精炼技术是一种无坩埚、无接触、对熔体无污染技术,在精炼金属方面体现出重要作用,是作为硅铁合金和冶金级硅脱磷机理研究的良好手段。因此,本研究旨在为太阳能级硅生产过程除去磷杂质提供新思路,为电磁悬浮技术理论奠定基础。本文结合了理论研究、数值模拟研究和试验研究等研究方法,研究了电磁悬浮强度对冶金级硅和硅铁中去除磷影响。主要研究结果如下
本研究以转Psc-AFP基因抗病烟草(T-PA)、转LJAMP2基因抗病烟草(T-Lj)、野生型亲本烟草(WT)和转空载质粒烟草(T-Vi)根围土样为研究对象,研究烟草根际土壤可培养微生物数目、土壤酶活性、理化性质和细菌群落多样性的变化。同时,还探讨了连作2年、10年和15年甘蓝根围土壤微生物的变化。其研究结果如下:1.转抗病基因烟草对土壤微生态的影响1.1转抗病基因烟草对土壤可培养微生物数量、土
转移性黑色素瘤占皮肤癌死亡人数的60%左右。肿瘤细胞转移到肺、脑和肝等重要脏器,并引起这些脏器衰竭是黑色素瘤患者致死的主要原因。虽然国内外基础和临床研究者已经做出了很大的努力来治疗转移性黑色素瘤,但收效甚微,针对黑色素瘤转移性的有效药物在临床上仍然缺乏。长期以来黑色素瘤的治疗手段主要还是通过外科手术的方式切除,及通过化疗放疗来辅助治疗,对早期非转移性黑色素瘤患者取得了较好的疗效,但对转移性黑色素瘤
当今的云计算中心往往通过虚拟化技术在一台物理服务器上运行多台虚拟机以达到充分利用昂贵的硬件资源的效果。而且,随着分布式计算、分布式存储等技术的发展,在云计算中心中虚拟机之间的网络通信负载正变得越来越繁重。在这一背景下,网络虚拟化技术逐渐成为制约云计算中心提升整体效能的关键瓶颈所在。虚拟化技术的实现方案一般分为软件模拟的方案与硬件辅助实现的方案两种。一般而言,通过硬件辅助实现的虚拟化方案会比通过软件
母乳系婴儿最健康理想的营养来源,含有丰富的蛋白质、脂肪酸、维生素和矿物质等,但或许与大众直觉相悖的是母乳中也含有大量微生物。最新的宏基因组学研究表明母乳含有高达数百种细菌,而且其中包括一些常见的“机会性”病原菌。正常情况下,母乳微生物不会对婴儿和母亲有任何不良作用。我们认为,母乳微生物之间形成了复杂的生态网络,物种间的相互作用决定了群落的稳定性和抗干扰能力。但目前母乳微生物的研究还仅限于群落物种组
文章第一部分构建了以排污权交易、节能减排和污染存量危害为基础的跨界污染微分博弈模型,首先在目标函数中创新加入了干中学效应,其次运用最优控制理论研究出模型所对应的最
异柠檬酸脱氢酶(isocitrate dehydrogenase,IDH)是三羧酸(tricarboxylic acid,TCA)循环的一个关键酶,控制着TCA循环和乙醛酸旁路(glyoxylate cycle)中碳流的分布。异柠檬酸裂解酶(isocitrate lyase,ICL)是乙醛酸旁路的一个重要的酶,通常与NADP-IDH共存。大部分细菌基因组只编码一种IDH,小部分细菌基因组同时编码两
随着互联网的快速发展,一种新型的消费模式O2O诞生并迅速发展起来,各行各业相继采用此模式进行产品的推广和销售,产品的线上线下结合是大势所趋。另一方面,在以人为中心的市场经济环境下,产品必须同时满足通用的功能需求以及顾客的个性化需求和情感需求。在场景设计领域,传统的线下聘请设计师的方式存在需求交流鸿沟的问题,导致设计结果不符合期望,而使用本地三维建模软件难度高,专业性强,两者都存在设计周期长的问题,
禾谷孢囊线虫是危害温带禾谷类作物的重要病原线虫,严重影响禾谷类作物的产量和质量,该病害症状与黄矮病、施肥不均、缺肥、缺素等生理性病害的症状十分相似,以前经常被忽略,现在已经确认在我国16个省(自治区、直辖市)均有禾谷孢囊线虫病害的发生并产生危害,严重威胁我国的粮食安全,并且有不断加速蔓延的趋势。经过多年研究表明选育和种植抗病品种是防控该病害最为经济有效的措施,而禾谷孢囊线虫致病型的鉴定对于抗病品种