基于特征自主学习的社交网络的情感分析

来源 :福州大学 | 被引量 : 0次 | 上传用户:gm_686
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web文本数据的高速增长,挖掘和分析这类文本的情感倾向,尤其是用户的在线评论,可以有效地帮助我们理解用户的习惯和公众的观点,同时也对企业和政府做决策起到了帮助。但是,中文文本情感倾向分析也存在着一些问题,一方面在采用向量空间模型来表达海量短文本的过程中,数据将面临数维灾难问题,同时向量空间模型将词语作为原子单元,并不考虑特征词之间的关系,无法很好地表达文档的上下文语义;另一方面由于评论文本数量巨大导致其情感分析过程中训练时间消耗很大,很难达到理想的效果。为了解决上述问题,本文提出了一种通用的特征提取与情感分析相结合的方法,特征提取包括底层特征提取和中层特征自主学习。其中,底层特征提取模块主要通过卡方统计量计算词的相关度进行选择而非使用全部词来建立情感词典。这一模块的意义在于将原始文本中最具有代表性的特征提取出来,降低了文本表达的维度。但是仅依靠基于词频统计的底层特征仍然无法很好的表达特征词之间的语义关系,因此本文加入了中层特征自主提取模块。这一模块的意义在于无需人为的参与,可根据输入数据自主的完成特征学习的过程。中层特征提取是一种无监督式的特征自主学习方法,以神经网络为基础完成特征词的分布式表达,结合我们提出的选择性词向量相加以及Pooling表示法,解决了特征词之间相互独立的问题。在最后的情感倾向分析模块,本文采用单隐层神经网络作为分类器并使用超限学习机(Extreme Learning Machine,ELM)算法来训练该分类器。与传统的分类器相比,ELM算法具有泛化能力好、不易陷入局部极值等优点。本文的主要贡献在于:一、在中层特征学习到的词的分布式表达之后,结合我们提出的选择性词向量相加以及Pooling表示法,对文本数据起到再降维的同时解决了特征词之间相互独立的问题。二、本文选用了超限学习机算法来构建分类器,在保证精度的同时提高了海量数据下情感倾向分类的效率。本文提出的方法在来自社交网络的中文酒店评论语料和新浪公司提供的微博数据中进行验证。实验结果表明,数据经过中层特征自主学习后的文本表达相比单一的底层特征识别精度有了小幅提高,特征维度大幅度降低,分类器网络结构紧凑且保持较高性能。
其他文献
本报北京10月8日电 (记者赵晓霞)中国农业科学院今天发布消息,联合国教科文组织2日公布了2016年生命科学领域的5位“世界杰出女科学家成就奖”获得者名单,中国农科院哈尔滨兽医研
报纸
目的探讨基于MDT模式下一例下颌骨骨折伴全身多发性骨折合并吸入性肺炎患者的护理方法。方法回顾性分析2019年2月在上海交通大学医学院附属第九人民医院口腔颅颌面科收治的一
当非典型性肺炎在我国部分地区开始肆虐时,烟台消防支队在上级党委的领导下,行动迅速,周密部署,投身到抗击“非典”的斗争中。他们在非常时期,用实际行动展示了消防部队的良好形象
于颖撰文《舞龙文化在日本的传播——以长崎舞龙为中心》探讨了中国舞龙文化对日本的影响,指出,日本长崎舞蛹的历史可以推溯到日本元禄时代以前。古代唐人(中国人)从大陆渡日,1
乡镇供电所是我们电网企业营销业务执行的最小单元,也是直面市场、服务亿万农村客户的最前端,关乎农民增收、农业增长和农村稳定。2017年,面对新形势、新业务,国家电网公司提
<西游记>是一部以神话小说为载体,通俗地图解佛学思想,弘扬佛法,点化众生的教科书,也是作者针对中国现实社会的各种弊端开出的改造国民性的一剂良方.孙悟空在这个佛学著作中
大学生群体由于社会生活经验的匮乏,导致他们在面对大型突发性事件时缺少心理准备而给个人和群体带来巨大的心理压力,对大学生的健康成长造成极大的负面影响.针对大型突发事件,应
本文简要分析了实施钢结构企业市场营销管理的意义,对中国钢结构企业市场营销现状展开了简单的介绍,并创新性地提出了一系列促进我国钢结构企业前进的市场营销管理措施。 Th
随着社会经济的快速发展,我国建筑业取得了较快的发展,建筑企业在发展的过程中往往会同时投资多个项目,为了推动项目的有效运行,企业需要投入大量的资金,并要对资金进行合理
给定半正定矩阵B,考虑矩阵可交换问题ATBA=ABAT的可解性.运用Schmidt正交化的方法,给出并证明了一个实用的充分必要条件.在此基础上,充分运用矩阵分解和分块矩阵运算的技巧,