基于深度学习的文本情感分析并行化算法

来源 :西南交通大学学报 | 被引量 : 0次 | 上传用户:xiaogouku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在训练集和测试集数据量大的情况下,半监督递归自编码(Semi-Supervised Recursive Auto Encoder,Semi Supervised RAE)文本情感分析模型会出现网络训练速度缓慢,以及模型的测试结果输出速率缓慢等问题。因此本文提出采用并行化处理框架来解决这些问题。在大训练集情况下,本文提出的算法采用“分而治之”的方法先将数据集进行分块划分并将各个数据块输入Map节点计算每个数据块的误差,并利用缓冲区汇总所有的块误差,Reduce节点从缓冲区读取这些块误差并用于计算优化目标函数。然后,L-BFGS(Limited-memory BFGS)算法被调用来调整参数,更新后的参数集再次加载到模型中,重复以上训练步骤逐步优化目标函数直至收敛,从而得到最优参数集。在测试集大的情况下,模型的初始化参数为上述步骤得到的参数集,Map节点对各句子进行编码得到其向量表示,然后暂存在缓冲区中。最后,在Reduce节点中分类器利用各语句的向量表示计算各自语句的情感标签。实例验证表明,在标准语料库MR(Movie Review)下本文算法精确度为77.0%,与原始算法的精确度(77.3%)几乎相同,并且在大数据量训练集下,训练时间在一定程度上随着计算节点的增加而大量减少;同时在大数据量测试集下,本文并行化算法也表现出了较好的执行效率。
其他文献
论文界定了汽车产业竞争力的概念,从生产成本、劳动生产率、产品质量、开发能力4个方面研究和分析了我国汽车产业的竞争力现状,并提出了提升我国汽车产业竞争力的重点和方向
目的:评估风湿免疫科长期口服糖皮质激素(GC)患者服药依从性现状,分析影响患者服药依从性的因素;探讨门诊药师的药学干预能否提高其服药依从性,促进其合理用药。方法:收集201
中国现代文学的反异化精神汲取了老庄道家思想的有利资源,或者从反面批判了都会生活的异化与人性的扭曲或者从正面建构了一种优雅从容、闲静自适的日常生活图式;或者从乡野田
文中通过采用不锈钢管模拟金属套管,细铜棒模拟供电电极,高阻绝缘板代表油层,紫铜板代表水层,并利用128道网络电位记录仪器水槽模拟实验,获得单一模型、横向和纵向组合模型的地面
<正> 近年来随着离子交换技术的发展。在树脂合成方面除凝胶型树脂性能有很大改进外,还合成了交换速度快,机械强度大,抗污染性能强和化学稳定性好的大网孔(MR)型树脂,和具有
在全球增暖的背景下,近50年全球极端气候事件频发,对气候变化的响应具有区域差异。为了提升区域适应和应对气候变化的能力,中国的高敏感区亟待甄别。土壤湿度是地表综合体现水分和能量交换及循环的物理量,能直接监测干旱事件。本文首先利用观测数据定量评价了多套长时间土壤湿度产品,而后选取质量较优的一套资料,从极端干旱事件和骤发干旱事件等角度探究了中国近40年高敏感区及其时空演变特征。基于资料的可获得性,开展了
为研究井地电法在确定异常体边界时电场的分布规律,笔者对室内水槽固定位置的低阻体(铜板)直接供电,并对充电低阻体形成的电场在地表的电位分布特征进行观测。研究不同方向电位
现代科技变革更新的速度令人惊叹,不断地改变着我们的生活,人们获取实时新闻信息的方式逐渐从口口相传到报纸再到新闻到现在的实时手机信息,新闻的传播方式发生了巨大的转变,
核心员工流失是企业面临的最大威胁.企业通过构建预防机制、强化激励机制、完善维护机制和健全约束机制,可以有效规避核心员工流失的风险.