论文部分内容阅读
随着移动通信技术的发展,越来越多的人在面对健康问题时会通过手机、电脑等电子设备在互联网上搜索相关问题。针对这一现象,各大医疗平台纷纷开发了多个在线医疗问答社区平台,但是面对着越来越多的健康问题,医生的资源是有限的,因此如何通过分析现有的医疗健康问答数据来快速自动回答患者所提出的问题是一个关键的问题。针对这个问题,医疗问题答案如何正确选择是构建自动医疗问答系统的关键内容,因此我们研究了一系列方法尝试从众多候选答案中找出与问题相对应的准确答案。本文主要研究了中文医疗健康领域的问答匹配问题,主要包括两个关键问题:1.如何将文本信息准确的表示为计算机可以处理的向量形式。2.如何构建神经网络模型可以在文本的向量表示中准确捕捉其中的语义信息。针对第一个问题,我们尝试了“分词”与“分字”两种文本表示方法,发现针对中文医疗领域由于目前的分词工具分词的不准确性,直接表示为字向量的方式既可以减少表示矩阵的维度,减少内存和计算需求,还可以提高最终模型的准确率。针对第二个问题,首先我们验证了传统的CNN、RNN以及其变种LSTM与BiGRU神经网络模型在cMedQA、cMedQA2数据集上的问答匹配性能,分析了不同模型的优缺点。然后将多种神经网络模型相结合构建多尺度卷积神经网络模型与BiGRU-CNN模型,验证不同组合模型在多个数据集上的性能,分析不同组合模型的特点。为了进一步评估与提高医疗问答领域问答匹配模型的准确率与泛化能力,我们利用爬虫技术收集了多个医疗健康网站的医疗问答数据,构建了据我们所知目前最大的中文医疗健康问答数据集cMQA,并在上面验证了上述提到的模型。最后将注意力池化与传统神经网络模型相结合构建新的组合模型BiGRUATT与BiGRU-CNN-ATT,验证不同注意力池化组合模型在多个数据集上的性能,证明了引入注意力池化机制后模型的准确率有了一定程度的提升,为构建自动医疗问答系统提供了一定的理论与算法支持。