在线医疗社区问答文本的知识图谱构建研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lanrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,Web2.0时代的到来,人们获取知识的途径愈发多样。当今快节奏的生活让人们更加关注医疗健康问题,较之于去医院咨询医生这种传统的咨询方式,人们逐渐习惯于通过在线医疗社区来获取相关的医疗信息,以解决自身或家人的一些简单的健康问题,同时提高对相关疾病的认知与预防。在“好大夫在线”,“寻医问药网”,“39健康网站”等具有一定用户规模的医疗社区问答版块中,积累了成千上万条的文本记录,这些记录是一种非结构化的文本形式,具有数据量大、规范性差、数据稀疏的社区文本特性,又兼顾专业性和复杂性的医疗文本特性,具有很好的研究价值。知识图谱(Knowledge Graph)作为一种知识表示的方式,本质上是一种语义网络技术,在医疗方面,应用知识图谱的研究多集中在电子病历(Electronic Medical Record,EMR),对于在线医疗社区问答文本的研究却并不多。因此,基于医疗社区的问答文本,本文综合利用双向长短记忆神经网络(Bidirectional Long Short Term Memory,BiLSTM)、条件随机场(Conditional Random Field,CRF)、双向门控循环单元(Bidirectional gated recurrent neural network,BiGRU)和注意力机制(Attention)深度学习模型,成功构建了在线医疗社区乳腺癌知识图谱。首先,本文选取“寻医问药网”中的乳腺癌版块作为研究对象,爬取了该版块页面中共计12626条问答数据;通过切词分词和去除停用词对数据进行简单的预处理;接着利用Word2vec对词向量预训练;然后进行实体识别和关系抽取,在实体识别过程中,利用词云(Word Cloud)对实体作了进一步客观性细分类,接着利用BiLSTM-CRF模型对BIO标注的数据集进行实体识别,实验发现细分实体比未细分实体在结果上表现更好;接着利用BiGRU-Attention模型抽取各实体间的关系,实验结果显示,该模型无论是在准确率、召回率还是F值上都比BiLSTM-Attention抽取模型有较大的提升;之后对所有识别实体进行实体对齐操作;最后利用Neo4j图数据库构建了一个可视化的知识图谱,并从展示层面和管理应用层面对其进行了分析。研究总结与贡献:本研究将非结构化的社区文本转化为结构化数据,成功构建了在线社区医疗问答文本的知识图谱;其次,首次利用词云工具将实体标注类型进行客观性细分,使得实体识别更加准确;最后,本文所构建的在线医疗社区问答文本知识图谱,在医疗社区的智能知识服务、知识表示、个性化知识推荐等方面具有推动作用,为个性化医疗和其他网络社区研究提供了一个新方向和服务思路。
其他文献
针对异步电动机的矢量控制原理和SVPWM 技术,以16 位DSP 芯片TMS320F2812 为核心,构建了基于异步电动机矢量控制的变频调速系统,描述了各硬件功能单元的组成结构和设计,运用
【正】数学是自然科学的基础学科。数学课程旨在把学生培养成为基础扎实且具有科学的思维方式、创新精神和应用意识的高素质人才。由于传统的数学教育以应试为主,学生往往能
南京大屠杀期间,德国人拉贝不仅设立"南京安全区",其留下的《拉贝日记》(中文版先由江苏人民出版社、江苏教育出版社于1997年出版,后又由新世界出版社于2009年出版)也成为南
会议
近年来,随着国民经济水平的提高,人们越来越注重食品的营养和健康,而乳制品的需求量也日益增长,达到了质的变化。乳制品具有鲜活易腐性等特点,因此采用冷链物流技术对乳制品产业链进行运输,保证其在每个环节都保持在低温环境下,从而保障乳制品的质量安全。本文在RFID和WSN研究的基础上,利用物联网的相关技术构建乳制品冷链物流预警系统,可以进行事前预警和事后追溯,保证了乳制品质量的安全。首先,采用HACCP危
【正】现代培训的含义是指通过练习和实践来教授职业活动所需要的知识和技能,使受训者能够在行为、效率、体能等方面达到预期的标准,是获得与工作要求相关的知识和技能的过程
1发病情况和临床症状2003年2月21日,凌海松山镇某养殖户来我站动物门诊部求诊,其饲养的12日龄雏乌鸡自3日龄开始发病,患鸡表现精神沉郁,羽毛松乱、垂翅,食欲不振,甚至废绝.病
目的探究血清糖链抗原125(CA125)和铁蛋白(SF)在脑梗死患者中的表达水平及临床意义。方法选取我院收治的108例脑梗死患者作为疾病组,根据梗死面积分为大面积组(43例)与小面积组(65例
由于某车型在高原标定过程中冷却液从膨胀水壶的泄气孔处向外大量的喷冷却液,且连续多次发生,影响标定试验进展。为解决此问题,利用FTA故障树分析方法,成功找出由于冷却系统