论文部分内容阅读
随着互联网的快速发展,Web2.0时代的到来,人们获取知识的途径愈发多样。当今快节奏的生活让人们更加关注医疗健康问题,较之于去医院咨询医生这种传统的咨询方式,人们逐渐习惯于通过在线医疗社区来获取相关的医疗信息,以解决自身或家人的一些简单的健康问题,同时提高对相关疾病的认知与预防。在“好大夫在线”,“寻医问药网”,“39健康网站”等具有一定用户规模的医疗社区问答版块中,积累了成千上万条的文本记录,这些记录是一种非结构化的文本形式,具有数据量大、规范性差、数据稀疏的社区文本特性,又兼顾专业性和复杂性的医疗文本特性,具有很好的研究价值。知识图谱(Knowledge Graph)作为一种知识表示的方式,本质上是一种语义网络技术,在医疗方面,应用知识图谱的研究多集中在电子病历(Electronic Medical Record,EMR),对于在线医疗社区问答文本的研究却并不多。因此,基于医疗社区的问答文本,本文综合利用双向长短记忆神经网络(Bidirectional Long Short Term Memory,BiLSTM)、条件随机场(Conditional Random Field,CRF)、双向门控循环单元(Bidirectional gated recurrent neural network,BiGRU)和注意力机制(Attention)深度学习模型,成功构建了在线医疗社区乳腺癌知识图谱。首先,本文选取“寻医问药网”中的乳腺癌版块作为研究对象,爬取了该版块页面中共计12626条问答数据;通过切词分词和去除停用词对数据进行简单的预处理;接着利用Word2vec对词向量预训练;然后进行实体识别和关系抽取,在实体识别过程中,利用词云(Word Cloud)对实体作了进一步客观性细分类,接着利用BiLSTM-CRF模型对BIO标注的数据集进行实体识别,实验发现细分实体比未细分实体在结果上表现更好;接着利用BiGRU-Attention模型抽取各实体间的关系,实验结果显示,该模型无论是在准确率、召回率还是F值上都比BiLSTM-Attention抽取模型有较大的提升;之后对所有识别实体进行实体对齐操作;最后利用Neo4j图数据库构建了一个可视化的知识图谱,并从展示层面和管理应用层面对其进行了分析。研究总结与贡献:本研究将非结构化的社区文本转化为结构化数据,成功构建了在线社区医疗问答文本的知识图谱;其次,首次利用词云工具将实体标注类型进行客观性细分,使得实体识别更加准确;最后,本文所构建的在线医疗社区问答文本知识图谱,在医疗社区的智能知识服务、知识表示、个性化知识推荐等方面具有推动作用,为个性化医疗和其他网络社区研究提供了一个新方向和服务思路。