中文短文本情感分析的研究与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:chenfengling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国互联网持续的发展和普及,越来越多的用户选择在网络上发表他们关于企业产品、政策法规、突发事件的见解和讨论。近年来,网络舆论信息的监测成为政府、企业获取大众意见的重要手段。分析网络舆论信息的情感态度,是舆情监控研究领域中关键的问题之一。目前主流的中文情感分析方法,大多数是基于词语特征进行建模、运算,但用户在网络发布的评论信息存在文本短、语法结构不完整等特点,导致中文分词的准确性降低,从而影响了情感分析的结果。针对以上研究意义和存在的问题,本文进行中文情感分析和舆情监控方面的研究,主要的工作内容包括:(1)提出了基于字符特征进行建模的方法,并结合朴素贝叶斯模型、支持向量机模型、随机森林模型、卷积神经网络模型等多种机器学习模型,进行中文文本情感分析问题的研究和实现。(2)在公开数据集上,对不同特征组合、不同参数配置条件下的多种模型、算法进行训练和测试,结果表明,基于字符特征的模型取得了很好的准确率,同等条件下优于基于词语特征的模型。(3)针对舆情监控及算法研究的需求,结合研究成果和主流的技术解决方案,设计并实现了一个舆情监控与实验平台,系统从网易新闻获取内容及用户评论,通过分析新闻内容的关键词和新闻评论的情感态度,得到近期舆论对热点问题的看法。本文的研究的算法和模型表现良好,系统设计综合考虑了多方面工程要素,研究成果具有一定的理论参考价值和应用前景。
其他文献
分离均衡问题是非线性问题的推广同时它应用到多个领域,例如经济、物理.广义分离相等变分包含问题是在分离可测问题的基础上推广而来.分离可测问题在很多的领域有着广泛的应
水体富营养化导致的蓝藻水华已成为全球性的环境问题,蓝藻的生长受到环境因子的影响,环境因子发生变动时可能会成为蓝藻生长的限制因素。微囊藻是我国常见的水华蓝藻。水华爆
本文主要利用几个不动点定理讨论几类区间值函数的分数阶微分方程解的存在性与唯一性,并构造实例来论证所得结论。全文主要分为六章。第一章,主要介绍了区间值函数和分数阶微
本文定义了一类新的弱化Hopf代数:Hopfπ-拟群,并对其展开了一些研究,其中π是有单位元的离散群.文章首先回顾了π-余代数的相关概念;然后定义了Hopfπ-拟群与Hopfπ-拟模,并
进化论是现代生物学中的基础理论,被科学共同体普遍接受。但是美国公众对于进化论有较低的接受度,一半以上的美国公众不同意人类的进化起源。这种现象引起了科学哲学家、社会
干旱等非生物逆境是玉米生产的主要限制因素。培育推广耐旱品种是克服干旱威胁最为经济有效的措施。但是,玉米整个物种对水分敏感,耐旱性强的种质资源缺乏,常规育种对耐旱性
设F是特征为零的代数闭域,g是F上一个有限维Killing型非退化的经典李超代数。我们证明了g上的每个2-局部自同构都是自同构。我们还给出了两个非经典李超代数上的2-局部自同构
关于矩阵方程的极秩解研究,是数值代数领域的热点问题.目前有关四元数矩阵方程通解复分量集的极秩讨论甚少,值得深入探讨.本文运用四元数矩阵复表示算子,以及M-P广义逆等工具
翼手目(Chiroptera)蝙蝠科(Vespertilionidae)管鼻蝠属(Murina),因其鼻部延长呈管状而得名,分布于整个亚洲大陆。该类群为典型森林型蝙蝠,飞行灵活,且常栖息于远离人烟的区域
“黑障”问题是在航天事业发展中需要面临的一种极为关键的难题。它是指高超声速飞行器再入大气层返回地球途中,会在飞行器表面形成一定厚度的等离子体鞘套,导致信号在一定的