基于机器学习的文本情感分类研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:Raistlin_M
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于机器学习在文本情感分类任务中的突出表现,基于机器学习的情感分类方法已经成为文本情感分类的主流方法。在基于机器学习的情感分类方法中,文本特征提取和训练分类模型是两个关键问题,能否从文本中提取有效特征并训练优秀的分类模型直接决定了文本情感分类的效果。大部分研究者主要关注于文本中简单的词汇特征,而忽略了在许多自然语言处理任务中非常重要的文本语义特征。此外,传统的机器学习算法建模时使用的函数相对简单,属于浅层次学习,这类算法对复杂函数建模时表达能力受限,模型泛化能力差。同时,传统的情感分类方法很多都是针对小数据集进行测试,这些方法没有考虑太多并行效率问题,无法用于真实生产环境中海量数据的处理,实用价值较低。为了解决基于机器学习的情感分类方法中存在的问题,本文总结现有的研究方法,从以下几个方面进行了研究:(1)本文提出了一种基于语义特征和深度学习的情感分类方法。为了更加充分地利用文本中的语义特征,该方法基于Word2vec提取文本语义特征,然后以文本语义特征作为输入,训练基于深度学习的多层感知神经网络分类模型并对文本进行情感分类。基于深度学习的分类算法能够更好的刻画样本的规律,可以解决传统机器学习算法表达能力受限的问题,并且可以提高模型的泛化能力。(2)本文提出了一种基于特征融合和模型融合的情感分类方法。首先从不同的角度提取词汇特征和语义特征,然后分别使用梯度提升决策树算法(GBDT)和多层感知神经网络分类算法(MLPC)训练情感分类器,最后以各分类器的输出作为逻辑回归算法(LR)的输入训练情感分类器并对文本进行情感分类。该方法解决了文本特征单一和单一模型表现力有限的问题。(3)本文采用基于内存的并行计算框架Spark实现了本文提出的两种情感分类方法。基于Spark实现的情感分类可以充分发挥Spark集群的资源优势,提高计算任务的并行度,实现海量数据的处理,从而增加情感分类方法的实用价值。本文采用开源数据集评估了本文提出的两种情感分类方法,实验结果验证了这两种情感分类方法的有效性。
其他文献
法治文化是树立法律权威、形成良法善治的关键因素。文章从分析法治文化的内涵着手,在阐述西方法治文化历史发展的基础上,总结其中对社会主义法治文化建设仍然具有积极启示的有
今天的山东古称齐鲁,是中国古老文明的发祥地之一,它的历史演变形成了独特的人文思想、艺术文化、民俗风情等表现汉民族特色的地域文化内涵,其中,民间服饰色彩是表现这种传统文化
[目的]检测表皮生长因子受体蛋白(EGFR)在喉癌组织中的表达,观察金纳米棒(GNRs)以及抗表皮生长因子受体功能化修饰金纳米棒(EGFR-mAb/GNRs)对细胞的增值抑制作用,探索金纳米
进入2004年,除了继续推出广受好评的易美系列,熊猫还积极研发新型号的手机,造型简单功能实用的M18应运而生,如今熊猫又推出了M18的后续产品M88,作为了M18接班人的它表现如何
期刊
M88
目的:观察益气通络方联合格列齐特治疗2型糖尿病性周围神经病变的临床效果。方法:选择我院2012年1月—2013年12月期收治的糖尿病性周围神经病变患者85例,随机分为观察组与对
冬笋味道鲜美,营养丰富,是佐餐的上品。它含水分少,易运输、贮藏,又是加工冬笋罐头的好原料。1吨冬笋罐头出口日本、美国,可获人民币5000多元。现将宁波市竹区农民多年积累贮
目的探讨I-II期宫颈癌发生盆腔孤立性淋巴结转移对预后的影响以及影响孤立淋巴结转移的高危因素。方法1999年1月至2005年12月,对188例临床分期(FIGO分期)为I-II期宫颈癌患者
摘要:大豆胞囊线虫(soybeancystnematode,SCN)引起的病害能给大豆生产造成极大损失。目前在SCN抗性机制研究方面的结果表明,大豆通过分泌一些小分子物质,如防御酶系、酚类代谢物质
中国化马克思主义伦理观是马克思主义伦理观与时代特征、中国实践相结合的产物,是对马克思主义伦理观的继承、创新和发展。无论是其中国特色含义还是对世界的积极影响,都具有重
基于马克思在《资本论(第二卷)》中提出的流通费用的概念,研究了电子商务的发展对于我国商品流通费用的影响。认为电子商务发展能够同时减少纯粹流通费用和生产性流通费用,前