【摘 要】
:
随着大数据时代的到来,互联网上的各种信息以及各式各样的搜索引擎层出不穷,民众可以快速借助电脑或智能手机随时随地搜索自己想学习了解的事物,但是互联网搜索引擎中除了有效信息外往往会伴随着许许多多的冗余信息,这给用户的使用体验带来了很大的负面影响,在医疗领域更是如此,人们在患上疾病或有不适症状时,除了去医院检查之外,在大多数情况下都会先在互联网上搜索相关疾病的知识,进行自我诊断,但是互联网上的不准确、不
论文部分内容阅读
随着大数据时代的到来,互联网上的各种信息以及各式各样的搜索引擎层出不穷,民众可以快速借助电脑或智能手机随时随地搜索自己想学习了解的事物,但是互联网搜索引擎中除了有效信息外往往会伴随着许许多多的冗余信息,这给用户的使用体验带来了很大的负面影响,在医疗领域更是如此,人们在患上疾病或有不适症状时,除了去医院检查之外,在大多数情况下都会先在互联网上搜索相关疾病的知识,进行自我诊断,但是互联网上的不准确、不专业的信息往往会给用户带来很大的困扰,甚至耽误病人的最佳治疗时机,用户在互联网上成千上万的信息中有效筛选出正确的、适用的医疗知识是不现实的。针对上述问题,本文就医疗领域实体识别与意图分析方法展开了研究,并基于上述研究构建了医疗智能问答系统,帮助用户高效、准确的检索医疗知识。本文的主要工作包括以下三个部分:(1)实体识别是自然语言处理的重点研究领域之一,但是,过去大部分的实体识别工作都是建立在英文基础上的,专门针对中文医学领域的实体识别研究相对较少。传统的RNN模型、LSTM模型等神经网络由于其梯度消失、梯度爆炸等问题在中文医疗领域往往表现不佳,基于此,本文提出了一种ALBert+Bi LSTM+CRF模型,不仅能够更好地适应医疗文本普遍较长、难以学习上下文关系的情况,也解决了Bert模型体量大、参数多、训练时间长的问题,并且针对中文医疗命名实体识别任务与各模型进行了对比试验,该模型在医疗数据集上的综合F1值达到了91.40%,在与各项模型的对比实验中均处于领先地位。(2)意图分析任务可以看作是一个多分类任务,但是用于医疗领域意图分析的数据集寥寥无几,并且传统的朴素贝叶斯模型、Text CNN模型等方法针对医疗意图分析任务的预测准确率偏低。本文针对现有数据进行了人工筛选和标注,构建了适用于医疗问答系统的意图分析数据集,解决了该领域数据集短缺的问题,而后提出了一种ALBert+Text CNN模型,弥补了Text CNN模型对于上下文信息不敏感、只能提取局部特征的不足,并且针对医疗文本中一些药物、疾病等词语偏长的问题,将Text CNN的卷积核大小扩充为5种。经过对比实验,本文提出模型的准确率达到了90.24%,相比基础的Text CNN模型提升了1.52%。(3)在上述两项研究的基础上,本文构建了一个基于问句解析的智能问答系统。首先对医疗健康网站进行数据爬取,构建了一个包含4.4万个实体、29.4万个实体关系的知识图谱作为问答系统的数据基础;其次,将上述的训练后的命名实体识别模型及意图分析模型进行整合,设计了一个问句解析器,作为问答系统的核心模块;最后,使用flask开发框架,设计了方便用户使用的前端可视化界面,完成智能问答系统的构建工作。
其他文献
在BIM与GIS融合发展已成为业内一种趋势,针对当前BIM模型与GIS平台融合过程中坐标转换流程混乱的问题,本文梳理了在生产环境下BIM模型的现状和特点,并对BIM模型作为一种数据源加载到GIS平台正确位置过程中涉及的坐标转换问题进行探讨,厘清了BIM模型精确上图的坐标转换流程。通过这套流程,可使BIM模型无缝融合到GIS场景中,这对于充分挖掘BIM和GIS的各自优势,促进相关行业的数字化建设具有
随着集成电路的广泛应用和日益发展,芯片的集成度越来越高,集成电路生产工艺也日渐复杂,可能在芯片生产过程中出现各种不同的系统性工艺故障,从而在晶圆针测图上形成不同的故障图案。晶圆图故障图案(Wafer Map Defect Pattern,WMDP)为工程师检测半导体制造过程中的故障根本原因提供了重要线索,因此晶圆图故障图案识别(Wafer Map Defect Pattern Recognitio
意图识别和语义槽填充是自然语言理解的两个关键任务,主流研究方法是建立意图和语义槽联合识别模型,通过参数共享的方式来体现二者的相关性。然而现有的方法缺少了对文本词级特征的关注,难以获取细粒度的分类特征。在联合建模方面,现有方法也忽略了两个任务之间的双向信息流,不能很好地建模二者的相关性。因此本文开展了多维特征融合的意图和语义槽联合识别研究,主要工作如下:1.基于多维度语义表征的特征提取模块针对传统词
选取2014—2019年创业板制造业315家上市公司的数据,基于印象管理理论,探讨发明专利申请对研发信息印象管理的影响,以及企业内外部监督在其中的调节作用。综合运用系统GMM模型和PSM模型进行估计后发现:发明专利申请与研发信息印象管理水平存在显著的负向关系。尤其在企业发明专利申请较少时,研发信息印象管理水平会显著上升,具体表现为研发成果与资源等正面信息在研发信息中的比重增加。企业内部和外部监督均
基于城乡收入差距的视角,从理论和经验两个方面系统分析了城镇化与经济增长之间的关系。研究发现,尽管各地区之间的城乡收入差距存在显著差异(东部地区最低,中部地区次之,西部地区最高),但是均呈现出持续下降的趋势。进一步的研究发现,城乡收入差距会影响城镇化与经济增长之间的关系,导致两者之间呈现出明显的非线性特征。具体来说,只有当城乡收入差距缩小到一定程度后,城镇化才能够促进经济增长。否则,城乡收入差距越大
<正>在2010年以前,我国也曾经出台过一系列有关资源节约利用的措施和法律,这也意味着国家在继续把经济建设作为中心的同时,也抓紧时机向建设环保功能强的现代社会转化,尽管当下整个社会的重点关注方向都放在了经济发展上,但是环境保护仍然是所有大中型工程必须引起重视的问题,通信业也不例外。中国通信业应该注意节约能源、降低污染的意识。
利用单细胞分选技术(PRECI SCS单细胞分选仪)在自然环境中分离、筛选出适合培养利用的高质量微藻ZM-4,并对其进行了鉴定、生长特性观察、理化性质测定和单因素实验分析,探究了其在不同养猪废水浓度、pH值、光照时间、光照强度、温度、碳氮比条件下对养猪废水降解能力的影响.结果表明:微藻ZM-4属于Desmodesmus abundans藻属,细胞内油脂产量、蛋白质产量、多糖产量分别为108.3,1
财务管理是经济领域当中非常重要的科学内容之一,企业在当前日渐复杂的市场经济环境之下,必须要注重财务合并报表编制科学性,体现集团的整体经济财务情况,并且对现金流量等诸多重要信息资料进行把控,进一步提升企业的经济效益。文章将针对财务合并报表内涵以及财务合并报表编制方法优化的意义进行详细分析,结合财务合并报表编制存在的问题,探究出财务合并报表编制方法的优化措施。