基于改进卷积神经网络的短文本分类研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:xiaozhao550
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科技的不断提升,人类的生活和思维要领也发生了深刻的变化,尤其随着网络社会媒体的普及,每个个体作为数据的生产者与传播者,以“小我”的形式促使了网络数据的爆炸式增长。在如今的大数据信息时代,一种新型的文本格式——短文本——逐渐成为目前最为主流的传递个人情感、意见和观点的信息载体。短文本数据体现了用户对于社会现象、商品等事物的看法和评价,是用户自我的日常行为和社会经验总结,其中蕴含着的大量的普遍规律,对企业和用户来说都具有着重要的参考价值。不同于传统长文本,短文本有其独特的几个特性:1)文本长度较小;2)稀疏性强;3)实时性强;4)文本格式不标准。短文本的特征使得传统机器学习模型不能有效的提取短文本的特征,进而限制了传统的机器学习算法在短文本分类问题上的应用。深度学习网络在计算机视觉、语音识别等领域中已经取得了巨大的成功,在自然语言处理领域,深度学习网络虽然没有取得系统性的突破,但也得到很多研究人员的广泛关注。近些年来,基于卷积神经网络的短文本分类模型相继被研究学者提出,并取得了令人满意的分类效果。基于CNN模型提取特征的特点,本文提出两种改进的模型,主要内容如下:1.基于稀疏自学习卷积神经网络的短文本分类模型:目前的分类模型中卷积层的输入通常是人为约定的,这往往需要事先知道关于数据的先验知识,存在着一定的人为因素的干扰,虽然取得了不错的效果,但往往偏离最优值。在该分类模型中,在卷积层引入自学习策略,通过训练数据自己学习卷积层节点的输入组合,从而排除了人为干预的因素;在模型训练时,对于卷积层节点的参数学习,添加了L1、L2范数,从而使得大多数卷积层节点处于被抑制的状态,而只有少数节点处于被激活的状态,降低模型复杂度的同时,有利于有效特征的选择;2.基于集成深度网络的短文本分类模型:该分类模型将短文本看作词的序列,从而计算短文本中词汇之间复杂的关联性。在卷积神经网络提取特征的基础上,进一步使用递归神经网络抽象短文本数据内的复杂的依赖关系,从而实现对短文本语义信息的建模。本文通过在开源短文本数据集上进行分类实验,并与目前现有的模型进行对比,实验结果显示本文提出的模型具有较好的分类效果。
其他文献
“存天理、灭人欲”,这是南宋时期以朱熹为代表的理学家所极力倡导的国家治理之根本原则。而也就是在理学蒸蒸日上,繁荣发展之时,浙东地区又涌现出了一批受朱熹严厉批评的著
非织造土工织物是一种极具生命力的土建工程材料,被广泛应用于防治荒漠化、水土保持、增加植被、水利建设等,这些应用都需要土工织物具有良好的渗透性能。以往的渗透模型包含
收入不平等会造成贫富分化,影响一国经济发展和社会稳定。近年来,伴随着各国收入不平等的普遍加剧和通货膨胀目标制在世界范围内的广泛采用,通货膨胀对收入不平等的影响越来越受到理论研究者及政策制定者的重视。然而已有文献对二者之间关系的研究还远未达成共识。因此,本文运用理论研究与实证分析相结合的方法探讨了通货膨胀与收入不平等之间的关系。理论研究的结果表明,通货膨胀主要通过价格刚性及工资粘性、消费的再分配渠道
本论文以氢氧化钙和卤水为原料制备阻燃级氢氧化镁,考察了制备过程中的工艺参数对于生成氢氧化镁粉体各项指标的影响,研究了其制备工艺、反应设备及有利于工业化的合成条件。
随着产业结构的调整,劳动者受教育程度的提高,白领阶层在不断壮大。在表面风光的同时,白领员工的劳动权利普遍受损,且表现形式多样化,其劳动纠纷受到了社会的广泛关注。本文
利用沼液曝气地下滴灌对大棚芹菜进行试验。结果表明,沼液曝气地下滴灌技术明显提高了芹菜产量和品质,沼液浓度为80%和曝气系数为1.0时,产量最高,为6 410kg/667m2,比对照增幅
民营企业在东部沿海地区,已经成为了国民经济中比重最大,活力最强,影响最广的经济因素。然而随着"用工荒"的出现以及大量同类型企业的竞争,如何留住员工,提高绩效,成为摆在这
网络媒体自在20世纪90年代中期在中国普及,品牌是营销学和广告学使用的概念。本文介绍了门户网站的概念及发展趋势,论述了网站的形象设计及推广策略。
龟纹瓢虫Propylea japonica(Thungberg)属鞘翅目Coleoptera,瓢虫科Coccinellidae,广泛分布于中国、日本、印度、俄罗斯等地区,不仅对各类蚜虫、低龄叶蝉、飞虱若虫、木虱成虫
近年来,随着大学生对职业生涯规划的需求不断提高,对职业生涯规划课提出了更高的要求。活动教学法丰富了传统的教学模式,激发了大学生学习职业生涯规划的兴趣,发挥了学生的主