论文部分内容阅读
随着互联网医疗的发展,平台上出现大量的患者留言文本。通过患者留言的文本挖掘,分析出患者的情感信息,对患者和医院有重要的意义。本文主要从两个方面对患者留言文本进行研究,第一,基于深度分层神经网络的情感极性分类研究,第二,基于LDA模型的情感主题分类研究。主要的创新成果如下:(1)提出了基于卷积神经网络(CNN)模型和长短期记忆(BLSTM)模型的双道融合层。传统融合的方式,将CNN模型和LSTM模型训练出的词向量进行简单向量拼接,缺点是模型在多特征信息的句子训练时,分析出的情感结果常常被非特征方向的信息影响。双道融合层引入权重矩阵,使得改进后的LSTM模型在训练时,在CNN模型分类出的特征向量方向的情感信息被放大,而在非特征向量方向的情感信息被削弱。实验证明,双道融合层对多特征信息的句子的情感分类更加准确。(2)提出了深度分层网络模型。CNN模型和BLSTM模型在情感极性分类领域擅长的方向不同,CNN模型不善于处理时序信息,却在短文本的情感极性分类中表现效果好,而BLSTM模型擅长处理时序信息,但是不能处理好短文本的情感极性分类。改进后的模型分为区域CNN层、BLSTM词语层两层输入,保留语料中的时序信息和特征信息。最后,通过双道融合层进行词向量的拼接,实验证明,新的模型比改进后的模型准确率增加了7.84%,召回率增加了3.35%,F1值增加了2.45%。(3)提出了词向量替换层。针对短文本的主题模型分类会出现上下文依赖性差和词汇量不足的问题,实验对比了词嵌入模型和词袋模型,提出利用词嵌入模型训练出符合整篇文章主题的词向量空间,目的是补充短文本情感主题分类时的词汇量,同时,解决短文本的上下文依赖性差的问题。(4)提出改进的LDA模型。针对LDA模型进行短文本分类时,吉布斯采样层的采样词汇单一的问题,提出在吉布斯采样层以一定概率λ从词向量替换层采样余弦距离最近的词向量,并通过调参,获得最优的概率λ。实验证明,改进LDA模型模型的困惑度下降了1.42%,主题一致性增加了3.75%。