基于卷积神经网络的文本分类

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:dgfm1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,随着互联网的高速发展,网络用户的不断增加,互联网上涌现了大量蕴含着情感信息的文本。这些文本具有很高的价值,可以用于舆情控制,商品推荐,事件预测。因此文本情感分类问题成为研究人员关注的重要问题之一。有研究者提出将word2vec和卷积神经网络(convolutional neural network,CNN)相结合用于文本情感分类任务。由于网络中文本的特征呈现长度较短,情感明显的趋势,本文对上述方法进行改进,以提高分类正确率。主要的工作内容如下:首先为预先训练好的词向量增加情感信息。根据word2vec词向量距离可计算性,余弦值越大的词语相似度越高,具有相同情感极性的可能性越高,使用word2vec词向量对经典的情感词典进行扩充。将word2vec词向量和词语的情感向量相融合,得到全局词向量。然后为全局词向量增加本地信息。使用TFIDF(term frequency–inverse document frequency)对word2vec词向量进行调整。引入可信度,对情感向量进行改进。最后通过双通道卷积神经网络,微调一组词向量使得词向量提供更多的本地信息,另一组词向量保持不变。对两组词向量分别进行学习可以得到更多的特征。通过使用多卷积核对词向量不同区域进行自动的特征提取。并使用最大池化方法对特征进行进一步抽取,通过softmax函数进行分类。使用theano深度学习框架对提出的方法进行验证。实验结果表明本文提出的方法具有更好的分类效果。
其他文献
通过对脉冲式YAG激光器在Al N陶瓷表面制备铜基金属覆层工艺进行优化,调整激光熔覆工艺参数,并进行熔覆前预热和熔覆后缓冷的工艺措施降低陶瓷基体的开裂倾向,引入活性金属钛
方杰是我的得意门生,不,应该说是各科教师的得意门生。他的各门功课都非常好,为人谦逊认真,而他的刻苦,也早已使他成为许多人的榜样。特别让老师和同学刮目相看的是,他的家庭非常贫
【正】 对于李岩其人的有无,近年来史学界颇有争议。据浅见所及,记载李岩事迹的史书,除正史《明史》外,其他稗官野史很多。明史专家吴晗同志,对明末清初史学家谈迁很推崇,对
<正>研究目的:4X100米接力项目是田径运动中为数不多的团队项目之一,与其他单人项目不同,接力项目除了单人的跑步技术,还对运动员交、接棒技术的要求极高,成绩的获得更加依靠
会议
现如今,随着竞技水平的提升,高水平运动员在技能之间的差距越来越小,心理素质对比赛成绩的影响越来越深,因此,本文的研究便极具意义。本文首先对心理疲劳的内涵进行了详细分
目的:报道前列腺腺癌伴神经内分泌分化患者术后复发1例,希望能引起病理诊断医师及临床医师对前列腺腺癌是否伴有神经内分泌分化的高度重视。方法:报道我院收治的前列腺腺癌患
大学生思想政治教育是一项长期而艰巨的任务,只有根据时代和现实的变化不断创新思路和方法。完善各类教育体系、健全机制才能取得良好的收效,而主题教育是在实践过程中探索出来
举办世博会对城市发展具有重大的推动作用。2010年上海世博会通过对城市主题的演绎,推动了城市更新和可持续发展,促进了上海市的再城市化进程。后世博时代中国城市与建筑应走
<正> 在近几年的小学数学奥林匹克竞赛中,经常出现这样一些题目:它们看似是统计问题,若按照题目叙述的情节逐一统计下去,也能找到问题的答案,只是采用这种方法,既浪费时间,又
本文分析了目前我国公司治理结构中薪酬制度存在的问题,指出薪酬制度造成的激励不足问题是一个突出问题,因此本文提出了薪酬制度改革的六点建议.