基于主题模型和集成学习的情感分析研究

来源 :北京林业大学 | 被引量 : 0次 | 上传用户:knik120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国网民数量的不断增加,互联网普及率的不断提高,各大互联网平台和移动互联网终端的技术逐步成熟,导致互联网用户的大量增长。那么针对互联网文本数据进行分析与挖掘,提取作者的情感倾向,从中发现用户隐藏的信息并加以引导与利用,在市场情报、舆情预测等诸多领域都具有很强的现实意义。本文在一些学者研究的基础上,提出了一种基于LDA2vec主题模型的集成学习分类器用于情感分析。本文主要进行了以下两个部分的工作:第一,由于传统LDA主题模型基于词袋模型,对文本中词序等重要的语义信息有所忽略。所以本文尝试两种方法解决这个问题:第一种方法是使用LDA2vec主题模型进行信息提取;第二种方法是提出一种基于n-gram算法的LDA主题模型。本文通过实验验证了两种模型在情感分析领域的有效性,可以提高情感分类的准确性。并对模型结果进行对比,得出LDA2vec主题模型在情感分析领域效果相对最好的结论。第二,提出一种基于LDA2vec主题模型的集成学习分类器。在使用LDA2vec主题模型进行情感分析的基础上,将多个基学习器的预测结果进行组合,完成分类任务。首先通过LDA2vec主题模型所计算提取语料库中的“文档-主题”分布,然后根据其概率划分训练数据子集进行基学习器的拟合,采用多数投票法汇总基学习器的预测结果,得到最终分类器的分类结果,完成情感分类任务。通过模型对比试验,证明了基于LDA2vec主题模型得集成学习分类器的效果,在情感分析领域,可以有效的分辨出作者的情感,且结果具有一定可用性。
其他文献
二战以来,经济全球化进程逐渐加快成为世界经济发展主流,在知识、技术和全球化力量地推动下,全球服务业迅速发展,服务业在一国经济中占据越来越重要的位置,并成为衡量一国国
人体姿态估计是计算机视觉中的一个重要研究领域,在人们对体验感、新鲜感、安全感不断追求的当前,人体姿态估计及其应用具有极大的商业效益和人文意义。本研究课题着眼于由Ma
老年人痴呆主要是老年性痴呆(AD)及血管性痴呆(VD).为了深入了解AD与VD,特作两者的比较研究如下.
三晋平遥道虎壁王氏妇科是全国中医妇科十大流派之一,据考证相传至今已有近千年的历史,传承二十九代,名医辈出。王金权教授作为国家级非物质文化遗产平遥道虎壁王氏妇科第28代传
蓝莓酒因其独特风味和良好保健功能在果酒市场颇受青睐,是一款极具潜力的蓝莓副产品,但现阶段国内外蓝莓酒的酿造过程中,大多采用葡萄酒加工工艺酿制而成,且多采用葡萄酒通用
目的探讨老年男性人群血浆IL-2活性与睾酮含量随龄变化及相关性.方法以50岁以上男性为研究对象,应用放射免疫法和生物测定法分别检测了血浆IL-2活性和睾酮含量.结果 (1)血浆I
随着国家卫生计生委下发的《关于进一步改善医疗服务行动计划(2018-2020年)的通知》,将医务社会工作作为一级考核指标,要求配备医务社会工作,设立医务社会工作岗位,医务社会
介绍了巷道过切割灰岩断层及近灰岩掘进探查钻孔设计、封孔原则及支护方案。通过淮北童亭煤矿1011轨道下山近灰岩掘进过CF8∠60-70°H=30-40m断层,该断层切割灰岩的成功实
应急照明是保障人们生活、工作环境安全、可靠的重要设施,包括疏散照明,安全照明和备用照明,是必不可少的照明系统。本文介绍了应急照明控制的要求、特点及用三菱FX2N型PLC(可
对发射率的测量研究是辐射研究的基本问题之一。近十余年来,由于热释电探测器及傅里叶光谱仪技术方面的发展,发射率测量有了较好的结果。发射率测量方法有两大类,即直接法与