论文部分内容阅读
互联网技术的快速发展丰富了大众的发声渠道,论坛愈加成为聚集舆论舆情的窗口,以评论为代表的主观情绪表达不断以海量且分散的形式出现在其网页之中,基于此,从信息冗余、形式多样的论坛网页中精准挖掘出有价值信息用于舆情分析具有深刻的社会意义,这也是开展此研究的重要立足点。本文以论坛网页为研究对象,对论坛信息抽取算法与情感分析算法进行了研究,主要研究内容如下:
(1)针对论坛网页中普遍存在大量噪音信息导致抽取准确率低的问题,本文先采用基于HTML标签的网页分块算法完成论坛网页分块,通过计算各文本块链接密度比识别出网页正文块,并有效去除论坛网页中广告、导航栏等噪音信息。随后本文引入标准值的概念,即将所识别的论坛网页中评论信息楼层数作为标准值。最后结合论坛网页中评论信息的位置结构具有相似性以及DOM树中深层次节点的相似度更能代表整体相似度的特点,本文提出基于深度加权的DOM子树相似度算法抽取评论信息,并将抽取到的评论信息数量与标准值进行比较,以提高抽取准确率。
(2)针对基于传统神经网络的情感分析无法充分学习文本的语义信息,本文提出一种基于多种注意力机制的BiGRU(Bi-directional Gated Recurrent Unit)情感分类模型:BiGRU+Multi-attention。针对预处理后的Web文本,首先根据Word2vec模型将其文本向量化,继而在BiGRU模型上进行语义特征筛选,通过引入情感词注意力机制、程度词注意力机制以及否定词注意力机制,提取深层次情感特征,突出文本中对情感极性判别起关键作用的词语,从而弥补单一注意力机制的不足,并通过调整神经网络模型参数,得到分类模型的最优性能,最后使用公开数据集验证本文提出方法的可行性与有效性。
实验结果表明,基于网页分块和深度加权DOM子树的Web信息抽取算法能够很好地解决论坛网页中存在大量噪声的问题,抽取准确率得到明显提升。同时基于多种注意力机制的BiGRU情感分类模型的F值达到了94.5%,相比基于BiGRU的情感分类模型提升4.5%,有效提高了情感分类准确率。
(1)针对论坛网页中普遍存在大量噪音信息导致抽取准确率低的问题,本文先采用基于HTML标签的网页分块算法完成论坛网页分块,通过计算各文本块链接密度比识别出网页正文块,并有效去除论坛网页中广告、导航栏等噪音信息。随后本文引入标准值的概念,即将所识别的论坛网页中评论信息楼层数作为标准值。最后结合论坛网页中评论信息的位置结构具有相似性以及DOM树中深层次节点的相似度更能代表整体相似度的特点,本文提出基于深度加权的DOM子树相似度算法抽取评论信息,并将抽取到的评论信息数量与标准值进行比较,以提高抽取准确率。
(2)针对基于传统神经网络的情感分析无法充分学习文本的语义信息,本文提出一种基于多种注意力机制的BiGRU(Bi-directional Gated Recurrent Unit)情感分类模型:BiGRU+Multi-attention。针对预处理后的Web文本,首先根据Word2vec模型将其文本向量化,继而在BiGRU模型上进行语义特征筛选,通过引入情感词注意力机制、程度词注意力机制以及否定词注意力机制,提取深层次情感特征,突出文本中对情感极性判别起关键作用的词语,从而弥补单一注意力机制的不足,并通过调整神经网络模型参数,得到分类模型的最优性能,最后使用公开数据集验证本文提出方法的可行性与有效性。
实验结果表明,基于网页分块和深度加权DOM子树的Web信息抽取算法能够很好地解决论坛网页中存在大量噪声的问题,抽取准确率得到明显提升。同时基于多种注意力机制的BiGRU情感分类模型的F值达到了94.5%,相比基于BiGRU的情感分类模型提升4.5%,有效提高了情感分类准确率。