【摘 要】
:
针对离线学习处理海量网络舆情数据时,内存受限、训练速度过慢等问题,本文提出两个在线学习分类模型来对网络舆情数据进行处理:一个是基于在线学习的网络舆情情感分类模型,另
论文部分内容阅读
针对离线学习处理海量网络舆情数据时,内存受限、训练速度过慢等问题,本文提出两个在线学习分类模型来对网络舆情数据进行处理:一个是基于在线学习的网络舆情情感分类模型,另一个是基于在线学习的网络舆情主题分类模型。针对在线学习算法FTRL-Proximal的学习率会随着训练次数的增加逐渐消失的问题,提出一种改进的学习率优化算法,将学习率的分母项设置为累积梯度的均方根,分子项设置为累积参数更新量的均方根,并对梯度的一阶和二阶矩估计以及参数更新量的均方根进行偏差修正。采用Doc2vec模型来对情感数据进行训练得到特征向量,使用改进学习率的FTRLProximal算法更新逻辑回归的参数,得到在线学习逻辑回归分类模型,结合Doc2vec模型构成一个完整的在线学习网络舆情情感分类模型,并验证改进学习率算法的效果以及在线学习情感分类模型的有效性。针对CHI算法进行特征选择时只考虑特征词文档频率的问题,提出改进算法TDFCHI,通过计算特征词的文档频率及词频与类别的相关程度来进行特征选择。利用TDFCHI算法进行特征选择,去除冗余特征,再通过RFFS算法度量剩余特征的重要性,进行二次特征选择,得到优化的特征集合。采用改进算法进行特征选择,向量空间模型训练得到特征向量,使用改进学习率的FTRL-Proximal算法求解Softmax回归模型的参数,得到在线学习Softmax模型,结合向量空间模型构成一个完整的在线学习网络舆情主题分类模型,并验证改进特征选择算法的效果以及在线学习主题分类模型的可行性。
其他文献
<正>高血压是最常见的心血管病,是全球范围内的重大公共卫生问题。据世界卫生组织预测至2020年非传染性疾病将占我国死亡原因的79%,其中,心血管病将占首位[1],这说明了以控制
聚苯并嗯嗪是在传统酚醛树脂的基础上发展起来的一种新型热固性树脂。此类树脂除具有酚醛树脂优良的耐热性和阻燃性外,还在一定程度上改善了酚醛树脂的脆性和尺寸不稳定性,最
本文先对我国城市燃气管道的安全现状做了简要介绍,进而深入分析了城市燃气管道存在的问题,最后提出相应的预防措施,以便能够确保燃气管道安全运行,发挥出其应有的价值。
随着我国经济的发展,人民对医疗水平的要求不断提高,针对这一趋势国家不断对医疗制度进行完善。在我国,除了各地的公立医院外,还存在许多私立医院,医院之间的竞争日益激烈。
论文结合科研项目进行选题研究,研究了宽频带圆极化微带天线和弹载小型化圆极化天线的设计方法。论文研究内容可概述为:首先说明了文中所用到相关概念,讨论了国内外研究现状及存在问题,阐述了宽频带圆极化微带天线和弹载小型化圆极化天线研究的选题背景及意义;论述了文中所用到的相关基础理论与方法。其次对宽频带圆极化微带天线和弹载小型化圆极化天线进行了研究,具体研究工作为1、宽频带圆极化微带天线设计(1)依据宽频带
本文借鉴国际上先进的时变参数理论和方法,从时变效应的角度研究中国货币政策传导渠道的变化与发展问题。本文的研究将有助于深入探讨体制转轨过程中中国货币政策传导渠道的
艾滋病是影响人类健康的重要公共卫生问题。目前,治疗艾滋病的主要措施是终身进行抗反转录病毒治疗(antiretroviral therapy, ART)。随着科技的不断进步和公共卫生体系的不断
私募股权投资基金作为私募股权投资的主体,其运作效率的高低很大程度上决定了其投资的成败,而投资机构的运作效率又取决于机构本身的组织形式和制度安排。因此,如何设立和构
通过分析新疆纺织服装行业结构及产业用纺织品发展现状,对产业用纺织品从政策、市场空间和成本等方面在新疆的发展优势下进行了探讨,并提出一定的见解。
侧耳属是一类广为分布的木腐生真,种类较多,分类较为混乱。近年来,随着科学技术的发展,许多分子生物学技术已广泛用于蕈菌的分类和系统发育研究中。本文在传统的形态分类鉴定基础