不平衡数据分类方法研究及其在慕课课程评论情感分类中的应用

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:seajelly001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,越来越多的人在慕课学习平台上选择课程进行学习。然而,慕课学习平台存在“低完成率”的问题。针对这个问题,有研究指出给学习者提供人性化的学习支持服务可以促进学习者的持续学习。此外,有研究指出情感支持服务是学习支持服务的重要部分。为了帮助学习支持服务者观察学习者在学习过程中的情感变化并给学习支持服务中的情感疏导应用提供研究基础,本文采用文本情感分类方法对慕课课程评论进行情感分类。然而,不平衡数据分类问题是当前文本情感分类研究面临的主要挑战之一。基于不平衡数据的训练使得分类结果严重偏向样本数量较多的情感类别,忽略样本数量较少的情感类别,从而大大地降低分类性能。而有研究指出绝大多数慕课课程评论持积极情感。基于不平衡数据的训练使得分类结果严重偏向积极情感,忽略消极情感,从而大大降低消极情感的召回率。在情感疏导应用中更需要准确识别消极情感学习者。因此,慕课课程评论情感分类中的不平衡数据分类问题是一个亟需解决的问题。本文针对不平衡数据分类问题,以慕课课程评论情感分类为应用背景,在数据预处理层面和分类算法层面做了以下工作:(1)数据预处理层面。本文提出了一种基于注意力机制的不平衡数据欠采样方法。首先,该方法将多数类样本平均分成n(n=少数类样本数量)组;其次,引入注意力机制得到每一组样本总的词向量表示;最后,将每一组样本总的词向量表示和少数类样本的词向量表示输入CNN(convolutional neural network)训练。实验结果表明该方法在分类性能上优于基于质心空间的不平衡数据欠采样方法和基于样本权重的不平衡数据欠采样方法。(2)分类算法层面。本文提出了一种融合CNN和EWC(elastic weight consolidation)算法的不平衡文本情感分类方法。首先,该方法使用随机欠采样方法得到多组平衡数据;其次,按顺序单独使用每一组平衡数据输入CNN训练,同时在训练过程中引入EWC算法用以克服CNN中的灾难性遗忘;最后,把使用最后一组平衡数据输入CNN训练得到的模型作为最终分类模型。实验结果表明该方法在分类性能上优于基于欠采样和多分类算法的集成学习框架、基于预训练词向量的文本情感分类方法和基于多通道LSTM(long short-term memory)神经网络的不平衡情感分类方法。
其他文献
材料是制约很多科技发展的重要因素之一,加快新型功能材料的开发速度具有重要的应用背景。传统新材料的开发是实验上不断试错的过程,成功与否很大程度上取决于实验者的化学直觉和实验经验。随着第一性原理计算方法的发展和计算机性能的不断提升,计算模拟成为开发新材料的强大工具。计算模拟相较于实验不需要经历不断试错的过程,具备更加高效和廉价的特点。因此,基于第一性原理计算模拟新材料引起了广泛关注。改变材料的物理环境
苏州邮政金融网点销售化转型自2012年起如火如荼地开展着,通过近六年的摸索与实践,我们认识到,在不断投入网点建设资金、优化上层管理办法的基础上,真正能调动网点全体员工投
在工程领域,可靠性试验是对产品的可靠性评估起重要作用的一种试验方式,可靠性试验的最优设计是在一定的条件下为了准确评估产品的可靠性而产生的失效产品数量的分配问题。目
在金融、工业生产领域,经常遇到大量非对称数据,其具有厚尾、有偏等性质,并不服从正态分布。若简单地假设其服从正态分布,将会产生误差,此时,需要寻找更合适的分布拟合数据。
苯并呋喃类化合物,特别是萘并呋喃类化合物,是一类有价值的杂环化合物。很多天然物质和药物都含有苯并呋喃或萘并呋喃结构单元,具有显著的生物活性,因此对其合成研究一直是有机化学合成领域的研究热点。关于苯并呋喃类化合物的合成方法很多,其中最简单快捷的合成路线是以萘酚为原料与α-卤代酮反应生成α-酚取代羰基化合物中间体,然后再酸催化脱水成呋喃环。而此次我们的工作是用一步法直接区域控制合成苯并呋喃类化合物。本
棉花是重要的纤维作物,在特定杂交组合中表现出显著的杂种优势。细胞质雄性不育(cytoplasmic male sterility,CMS)是植物杂种优势利用的重要途径。但由于棉花CMS类型较少,其
具有苯并呋喃核心结构的化合物用途广泛,存在于许多重要的天然产物和药物中。科学家们从一些天然产物中研发出了许多含有苯并呋喃结构的临床候选药物。涵盖的主要治疗领域有癌症,神经系统疾病和糖尿病等。由于上述重要性,化学合成苯并呋喃及其衍生物也一直是个热点话题。目前,已经报道了使用各种路易斯酸或布朗斯特酸来促进芳氧基酮的环化脱水,以获得相应的苯并呋喃产物。然而,上述合成苯并呋喃和萘并呋喃的方法在其底物范围上
风机主轴作为传动系统中的关键组件之一,在运行过程中承受着来自风轮轮毂的多种复杂载荷,其结构设计的合理性将直接影响传动系统乃至整个机组的性能。根据风电行业的要求,风
随着计算机的发展,软件在各行各业已扮演着越来越重要的角色。自2007年“可信软件基础研究”重大研究计划启动以来,我国投入了大量的科研经费,其中可信软件相关开发工具及其支撑平台、可信软件的构造及验证是该研究计划的主要目标。算法是计算机软件的灵魂,对非线性复杂结构(如树、图)算法的研究一直是国内外研究的热点。树形结构是一种典型的非线性数据结构,它能够支持强大的搜索算法、有效的分配内存空间和提供有规则的
肝纤维化是由于长期受到损伤因子刺激后,细胞外基质(extracellular matrix,ECM)过度沉积,导致结缔组织异常增生的过程。肝星状细胞(hepatic stellate cell,HSC)是ECM的主要来源。