【摘 要】
:
随着国内互联网的高速发展,网络舆情分析对于维护社会经济发展变得越来越重要。网络舆情分析技术主要包含了网络数据搜集、数据预处理、舆情分析三个重要部分。其中主题事件演化模型通过对时间序列的网络舆情数据进行分析,提取到数据集中主题随时间的变化情况。而深度学习技术的快速发展给基于主题模型的情感分析带来了新的发展,主题模型作为一种文档主题生成模型,可以和深度学习序列建模的特性实现优势互补。微博、电商以及各种
论文部分内容阅读
随着国内互联网的高速发展,网络舆情分析对于维护社会经济发展变得越来越重要。网络舆情分析技术主要包含了网络数据搜集、数据预处理、舆情分析三个重要部分。其中主题事件演化模型通过对时间序列的网络舆情数据进行分析,提取到数据集中主题随时间的变化情况。而深度学习技术的快速发展给基于主题模型的情感分析带来了新的发展,主题模型作为一种文档主题生成模型,可以和深度学习序列建模的特性实现优势互补。微博、电商以及各种论坛的快速发展,给大众表达自己的观点带来了极大的便利。用户规模和数据量随时间的不断增加,给网络舆情分析带来了新的挑战。因此,本文以主题事件演化模型为研究对象,结合深度学习技术的发展,开展主题事件演化模型在主题演化和情感分析方面的研究,实验表明深度学习技术在提高数据分类准确率方面可以给主题演化和情感分析的研究带来新的提升和发展。本文关于主题演化模型的网络舆情分析的研究内容主要包含以下三个方面:(1)本文围绕网络数据的获取和自然语言处理中的预处理技术进行了研究,重点研究了现有爬虫框架、网页数据解析技术以及数据去重的方法,数据预处理过程中的分词、去停用词以及词的编码方法、特征提取方法、相似度度量方法等。通过对网络数据爬虫技术的研究保证了舆情分析的数据来源,自然语言处理中的预处理技术的研究发现了传统方法上的不足。(2)在现有主题演化算法的基础上,建立了基于主题情感极性的主题演化算法。通过构建语料集的词嵌入模型,提高主题情感极性的分类方法,计算主题情感因子,将主题情感因子引入到主题演化的过程中。实验表明,本文提出的融合词嵌入的主题情感极性分类方法准确率高于传统的主题情感极性判断方法,在此基础之上的主题演化算法的困惑度优于改进前的方法。(3)研究了融合LDA(Latent Dirichlet Allocation)和自注意力机制(Self-Attention mechanism)的情感分类方法。通过将主题事件演化模型简化为LDA模型,然后进行情感分析研究。针对LDA模型的基于整体文档主题生成过程,将每条评论数据和主题信息进行拼接输入到词嵌入模型进行训练,使得在进行自注意力机制分类之前的词向量空间中相同主题信息的数据余弦相似度更小。在公开的短文本情感分类数据集上实验表明,本文提出的融合主题信息的情感分类方法优于当前主流的基于LSTM(Long Short-Term Memory)和注意力机制相结合的集中方法且模型复杂度更低。
其他文献
阳离子脂质体对阴离子型聚电解质阴离子敏感,对带负电荷的DNA有较高的转运能力,还能转运RNA、核糖体及其他大电荷的分子和大分子物质进入细胞,其转运效率比其它脂质体高出许
KRAB框锌指蛋白中的锌指基序在进化过程中通过快速增加和频繁丢失形成了哺乳动物最大的转录因子家族。锌指蛋白基序的反复性和结构的灵活性使得锌指蛋白识别DNA结合位点的能
自20世纪60年代以来,以美国和前苏联为代表的月球探测计划,得到大量的月岩和月壤参数分布等数据,使人类对月球地形、成分、结构等特性有了更深入的认识。月球表面覆盖着一层厚厚
当今社会,人们认为的爱情,是以一种浪漫爱情神话为准则的关系。影响到现实生活中,常常因为与期望不符而产生挫败与矛盾。随着人们对生活品质和精神的追求,爱情逐渐成为当代许多哲学家和社会学家非常关注的话题。其重点探讨的是建立健康的心理和人际关系。在过去的半个世纪里,不同的替代方法被付诸实践,以帮助个人从心理和情感的角度改善他们的生活质量。本研究通过分析艺术治疗和心理魔术的不同方法,研究艺术的治疗质量。通过
心脏发育是一个复杂的过程,受一系列心脏发育基因在时间和空间上的精确调控。这些基因的突变或异常表达都会导致早期胚胎死亡或者各种心脏病。鉴定在心脏发育过程中起调控作
磷是生命的核心元素之一,阐明磷调控基因的功能,对认识生物体内磷代谢的基因表达网络和发现磷高效利用基因都具有重要意义。at5g55690是属于MADs-Box蛋白家族的转录因子基因,
随着国内外畜禽养殖集约化程度的不断提高,大量使用抗菌素治疗动物群发性疾病导致细菌耐药性增加和动物性食品药物残留等问题日趋严重的情况下,开发绿色安全的新型饲料添加剂来代替抗菌素预防动物群发性疾病已成为畜牧业健康发展的必然趋势。中草药制剂和微生态制剂具有作用广泛和毒副作用小等优点,在代替抗菌素成为新型饲料添加剂方面具有巨大的应用前景。本研究选取25周龄金定蛋鸭800只,随机分成8组,每组5个重复,每个
RNAIII激活蛋白的靶蛋白(target of RNAIII-activiting protein,TraP)是一种由167个氨基酸残基构成的金黄色葡萄球菌(Staphylococcus aureus,S.aureus)的膜相联蛋白,其基因序
低温冷害是玉米生产上发生频率高、不好预测的自然灾害,已成为我国玉米生产上的典型非生物胁迫因素。筛选和培育优质玉米耐冷品种是最为直接有效降低低温冷害的方式。发现和挖掘耐冷性基因是培育耐冷性品种的首要任务,创建准确、快捷、稳定的耐冷性鉴定与评价体系对筛选和培育优质玉米耐冷品种、解决生产冷害问题意义重大。在玉米种质耐冷性方面,随着分子标记技术的不断提高,能够快速地进行深入发掘,并提高培育优质品种的效率。
嗜麦芽寡养单胞菌是医院院内感染的重要条件致病菌,对目前首选治疗药物磺胺类具有耐药趋势,给临床治疗带来了较大的困难和挑战。大肠杆菌是人和动物体内常驻菌群,是耐药基因的重要储存库和中转站,常被作为耐药指示菌。磺胺类药物由于价格低廉,广谱高效而被广泛使用于兽医临床,导致动物源细菌对磺胺类药物产生较严重的耐药,因此,考察猪源细菌的磺胺类药物耐药性及其耐药基因(Sul)能否传递给人源嗜麦芽寡养单胞菌,对人医