基于集成学习的中文情感分类研究

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:newhing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着国内的互联网行业的飞速发展,各种电商平台,社交平台的出现,网络用户也日益增多。互联网给人们的生活带来了很大的便利,人们可以通过电商平台选购商品,并对购买的商品作出评价。这些评价内容,蕴藏着消费者对商品的看法和态度,这些信息对商家制定营销策略和用户作出购买决策有重要的参考价值。庞大的网络用户群体,产生了海量的评论数据,如何从这些评论型文本数据中挖掘出其中蕴含的情感倾向,是近年来研究的热点之一。本文针对中文情感分类研究,利用集成学习的方法,以提高分类准确率为目的,提出两种中文情感分类模型:(1)提出一种基于差分进化优化个体分类器权重的集成分类算法,在三个领域的语料集上进行中文情感分类实验。通过研究在情感分类任务上常用的分类方法,选择表现较好的五种分类模型,以分类准确率为适应度值,使用差分进化算法优化五种个体分类器的权重组合,寻找五种分类器在情感分类任务上的最优权重组合,通过加权投票的结合策略,得到集成模型。实验结果表明,经过优化权重后的集成模型在中文情感分类任务上有更高的准确率。(2)提出一种基于Bi-LSTM的集成分类模型,用于中文情感分类任务。首先用word2vec在语料集上训练语言模型,得到所有词汇的词向量表示,用词向量表示文本;然后利用Bi-LSTM网络学习文本特征更充分的优势,构建多个BiLSTM模型,在构建单个模型时,引入Dropout机制,对每个Bi-LSTM模型随机生成不同的Dropout保留概率,分别训练多个网络结构不同的Bi-LSTM模型,通过这种参数扰动的方法增强集成模型中个体网络的多样性;最后,通过简单平均的结合策略将所有模型结合起来,得到最终的集成模型。在三个领域的中文评论语料上进行了中文情感分类实验,验证了提出模型的有效性。
其他文献
温度测量与国防、军事、科学研究、工业生产等活动密切相关,不同的测温场景,对测温精度和温度显示效果的要求也不一样。本文基于双色测温理论,结合数字图像处理技术,实现燃烧
本文利用表面等离子体共振(也叫SPR,英文全称Surface Plasmon Resonance)检测技术来实现痕量检测溶液中的汞离子。该检测法的优点是检测灵敏度高,检测速度快并且可以重复利用多
二茂铁具有独特的空间结构能够构建平面手性,具有平面手性的二茂铁已经成为手性二茂铁膦配体的骨架而被应用。其中,最著名的是具有平面手性和中心手性的二茂铁膦配体Josiphos
随着互联网的高速发展,人类进入到信息爆炸的时代,机器学习技术得到了广泛的研究与应用。多标记学习问题是机器学习的重要研究问题,存在于现实生活中的很多地方。在多标记学
能源短缺和环境污染问题已成为当今世界的两大焦点问题。质子交换膜燃料电池(Proton Exchange Membrane Fuel Cell,PEMFC)由于具有清洁、高效、可持续、工作噪声小、工作温度
微机电系统(Micro-Electro-Mechanical System,MEMS)是一个涉及多学科的,量级通常在毫米级以下的微型机械器件,其中静电驱动MEMS扭转微镜具有结构简单、功耗低、扫描频率高的
在过去的几十年中,全世界经历了气候变化带来的多种影响,如气温飙升,健康问题,生活方式的改变,资源的稀缺及多变的气候模式。包括加纳在内的撒哈拉以南的非洲地区正在经历着
无线纳米传感器网络是一种新型的网络,纳米传感器可用于检测纳米尺度的新事件,有着传统无线传感器网络无法应用的场景,未来将广泛用于生物医学、工业、环境和军事等领域。石
长余辉材料在光子激发下,可将能量储存在陷阱中,停止激发后仍可持续发光。鉴于长余辉材料具有良好的余辉特性,目前已经广泛地应用于消防标识、仪表显示以及防伪标记等领域。
可吸入颗粒物,特别是空气动力学直径≤2.5um的可吸收细颗粒物已成为许多城市的首要污染物。而湿地和林地在减少颗粒物方面有着很重要的作用。为探讨湿地和林地调控颗粒物的作