基于深度学习的中文文本分类研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:chcer1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着自然语言处理相关应用逐渐走向落地,文本分类技术作为其基础技术之一,向来是被广泛研究的对象,提升文本分类的准确率是推进技术落地的重要举措。让计算机来完成文本分类的前提是要使得计算机能够识别文本。文本表示技术就是将文本转换为计算机能够识别的数据。但是在将文本进行转换的过程中会存在信息丢失,从而导致分类有误差,因此,降低文本表示环节中信息的损失也显得至关重要。通过分析当前的文本表示研究现状,发现国内的研究受国外研究影响较大,国外英文文本研究以词作为语义单元,因此国内对中文的研究也多是基于词进行的。但是中文和英文是不同的,汉字经过数千年发展,自身就蕴含着信息。传统的文本分类技术多是基于浅层机器学习技术,随着深度学习的兴起,其逐渐被应用到了自然语言处理领域,尤其是卷积神经网络和长短时记忆网络最具代表性,但是这些网络在文本分类中都具有各自的缺陷。对于文本来说,有序性是十分重要的,但是卷积神经网络提取的文本特征是无序的;突出文本的主要信息是有助于提高文本分类准确率的,但是长短时记忆网络提取的文本特征却是无法突出文本的主要信息。本文通过改进文本表示方式来降低文本表示环节中信息损失,从而提高文本分类准确率。改进的文本表示同时以字和词作为语义单元,在词汇空间和字符空间中使用了基于skip-gram模型的word2vec技术预训练字、词向量。将字、词向量进行组合得到新的文本表示方式并利用机器学习算法对改进的文本表示方式的数据分类。基于改进文本表示方式在机器学习算法上的应用,本文进一步探索改进文本表示方式在深度学习中的适用性,并利用深度学习算法在机器学习算法基础上进一步提升文本分类准确率。一般应用于文本数据的神经网络都是单层embedding层,以单一文本表示数据作为输入,为了在神经网络中使用改进文本表示方式,本文在神经网络中设计了双层embedding层,其中一层以字向量数据作为输入,另一层以词向量数据作为输入。文本是连续性数据,有序性显得十分重要,但是卷积神经网络提取的文本特征是无序的,而长短时记忆提取的特征是有序的;突出文本的主要特征是有助于提高文本分类准确率的,但是长短时记忆网络提取的文本特征却是无法突出文本的主要特征,而卷积网络却能够提取文本主要特征。因此,本文基于卷积神经网络与长短时记忆网络的优缺点进行取长补短设计了三种新的混合网络结构,即C-LSTM网络、lstm-CNN网络以及CNN-LSTM-Parallel网络,并设定了第三个目标,即改进网络在卷积网络与长短时记忆网络的基础上再次提升文本分类准确率。根据实验结果,在机器学习算法以及深度学习算法中,就macro-F1值来说,改进文本表示方式较词向量表示的分类准确率提升了1%左右,在搜狗实验室数据上甚至提升了3%左右,而比字向量表示普遍提升了3%以上。同时,通过对比同一文本表示下的分类结果,深度学习算法的分类准确率普遍比机器学习算法高出1%到2%。在改进的网络中,lstm-CNN网络在所有的文本表示数据中分类准确率均是最高的,其分类准确率较机器学习算法高出3%左右,比卷积网络与长短时记忆网络的分类准确率高出1%到2%,说明该网络很好的结合了卷积网络与长短时记忆网络的优点。
其他文献
随着环境中射频能量密度的增长以及硬件功率需求的降低,利用空间中的射频信号进行无源通信的方式得到了越来越多的关注。本文研究了微波输能和后向散射这两大关键技术,实现了无源环境中的信息传输。该系统避开了有限功率容量的电池设备和有线传输线缆,极大地减小了嵌入式设备以及可穿戴设备的硬件体积,降低了系统的通信成本和维护成本,更能满足移动可穿戴设备和传感器网络的供电需求,极大地促进了物联网的发展。因此,对于无源
企业档案记录着历史的轨迹,印刻着未来的规律,作为当今社会一种重要的信息资源和无形资产,在企业管理等各方面发挥着更加积极的重要作用。伴随着信息技术与数据网络的日益成熟,国有企业档案管理方式也趋向平台化、信息化、智能化。作为自然资源大省,黑龙江省由于国家战略定位、历史遗留等因素,国企改革进度相较全国平均速度较为缓慢,做好国有改制企业档案管理工作将会为国企改制的全过程增强基础性、稳定性与可靠性,另一方面
随着中国进一步的全球化发展,与国际接轨更加紧密,英语的应用场合和应用环境也越来越多。然而,英语作为第二语言,只有从少儿和青少年时代抓起,才能够在工作和生活中更加灵活的运用和掌握。目前不仅中小学开设了英语课程的学习,许多的课外培训机构也将英语作为重点学科。教育行业发展迅速,新兴企业如雨后春笋般涌现,竞争更加激烈的同时也出现了鱼龙混杂的局面。本文拟从公司所处的行业环境出发,通过政策环境、社会环境和技术
2020年5月28日,十三届全国人大三次会议审议通过了《中华人民共和国民法典》(以下简称民法典),2021年1月1日正式施行。习近平总书记指出:"民法典在中国特色社会主义法律体系
电动汽车主动制动横摆稳定控制系统是一种主动安全技术,它可以有效的防患于未然,以保证车辆在失去稳定时不出现甩尾、侧滑等危险的情况,现在这项主动安全技术已经成为研究电
随着全球经济的稳健复苏,基础设施建设行业蓬勃发展,工程机械行业迎来黄金增长期,中国的工程胎企业如何做才能抓住矿业和建筑业发展的战略机遇期?ET公司面临全球工程机械行业新的竞争格局和市场需求,在营销策略方面也面临着诸多的困难与挑战。如何通过市场营销策略的提升,为客户提供优质产品和服务,提高客户满意度和忠诚度,使价值营销策略成为企业长久健康发展的新动力。同时也为其他同类轮胎企业甚至其他行业实施价值营销
我国在城镇化发展的关键时期提出构建新型城镇化的战略,并将“以人为本、集约智能、绿色低碳、城乡一体”作为战略目标。在此背景下,营造协调发展、相互助益的城乡区域关系有
共价有机骨架(COFs)是由C、O、N等轻元素利用共价键连接,经热力学控制的可逆聚合形成的一种具有有序多孔结构的新型晶态材料。由于其具有孔道大小可设计、较高的热稳定性和较大的比表面积等特点,近年来在气体储存与分离、多相催化、储能材料和光电材料等方面的应用被广泛的报道。COFs材料目前在光催化合成领域的应用主要集中在一些简单的氧化还原反应,因此开发COFs材料在其它化学反应中的应用具有十分重要的意义
随着世界经济的不断发展,传感器在生产生活中的重要性日益彰显,光纤传感器因其高灵敏度、抗电磁干扰等优良特性而应用广泛。BOTDA技术是光纤传感领域中的一大研究热点,该系统中用于产生扫频信号光的双边带信号源对系统的整体性能至关重要。论文结合BOTDA系统需求,完成了双边带光信号源控制系统的部分软件设计工作,具体研究成果如下:1、结合主控芯片和射频芯片完成了微波源模块,主控芯片通过SPI协议和射频芯片建
近年以云计算为代表的新兴技术已为解决传统IT信息化建设困局找到了突破性的解决方案,以兴业数金和平安科技为代表的金融行业云的成功运营,反映出行业云在共享行业资源、提高
会议