基于神经网络的中文文本分类技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:foreststonezgdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代信息科学技术的发展,互联网用户数量的大幅持续增长,对海量数据的处理是现在对于数据研究的热点,而人工神经网络(Artificial Neural Network,ANN)在大数据的筛选处理方面起到了极为关键的作用。人工神经网络在计算机视觉、机器翻译、自动驾驶等领域已成功地解决了许多困扰人们多年的实际问题,因而人工神经网络也越来越多的被应用到自然语言处理(Natural Language Processing,NLP)中的文本分类问题上,这是目前自然语言处理的一个热点以及难点。使用人工神经网络不仅可以快速高效的处理海量数据,并且还在一定程度上提高了处理数据的精确性。然而英文与中文在字符级以及词级上存在许多的差异,相比较于英文,中文数量在字符级以及词级上都要大于英文数量,中文文本分类技术目前仍然存在处理速度,精确率以及分词方面的问题。本文提取了由新浪新闻数据整理成的THUCNews的数据集中的部分内容用于文本分类。先是提出了一种基于字符级的词嵌入矩阵,每个字的向量维度只有13维,通过实验对比发现本文提出的基于字符级的词向量比通过word2vec训练的词向量具有更为优秀的分类效果。还设计了一种塔型的三层双向基于LSTM(Long Short-Term Memory)的网络结构,再连接上3层的DNN(Deep Neural Networks)网络组成的全连接层,通过实验对比发现本文所设计的网络模型所达到的效果优于Text CNN网络。在卷积神经网络方面,本文针对卷积核对于边缘信息的忽略问题提出了一种权重补偿方案并推广于更高维度,针对传统的最大池化以及平均池化所造成的错误提取信息问题提出了一种优化的池化结构,通过实验对比本文设计的优化池化在训练收敛速度,分类效果方面都要优于最大池化。另外,还设计了一种基于一维卷积的五路并联连接的卷积神经网络,通过实验验证与分析,本文所设计的并联卷积神经网络所达到的效果优于Text CNN网络结构。最后设计了一种CNN(Convolutional Neural Networks)与RNN(Recurrent Neural Network)结合的CRNN(Convolutional Recurrent Neural Networks)网络,通过实验验证与分析,对文本分类效果同样优于Text CNN网络结构。
其他文献
论文研究了聚苯乙烯负载硒酸催化氧化制备醛类化合物、1,2-二醇化合物和叔胺类氮氧化合物的方法及其机理。研究发现聚苯乙烯负载硒酸试剂具有高效、稳定、易于回收利用的特性
随着大数据的到来,网络用户的规模呈现爆发式增长。面对海量繁杂的网络大数据与千差万别的网络用户,如何从海量数据中精准的推荐给用户感兴趣的信息是十分重要的。推荐方法在一定程度上解决了信息过载问题,但传统推荐模型在挖掘数据特性和多样性推荐方面有待改进。为此,本文从挖掘数据特性和多样性推荐方向出发对基于马尔可夫决策过程的推荐方法开展了研究。首先介绍了本课题的研究背景及推荐系统的相关研究,阐述了本课题研究的
随着社会的发展,日益突出的环境问题使人们迫切渴望一种绿色能源。因此,氢能作为一种清洁能源受到人们的广泛关注。然而,传统制氢技术严重依赖于化石燃料。由于太阳能资源总量极大且利用方便,所以人们希望利用太阳能资源和可循环的原料产氢。在这种情况下,光催化制氢技术吸引了人们的广泛关注。然而,许多单组份光催化剂存在着电荷载流子分离程度较低、太阳光谱利用率不足、光稳定性较差和制备成本较高等劣势,这些问题极大得限
随着Android移动智能终端的普及,Android应用在改善人们生产生活的同时带来许多安全问题。现阶段针对Android Java层的安全保护技术已初步成熟,但Native层的代码保护还在发展中,因此本文对Android Native层的代码保护技术进行研究,利用替换混淆和控制流混淆技术,设计并实现面向Android Native层的代码保护方案。本文对整数这个常见的数据类型设计一种拆分方式,通
手性是自然界中广泛存在的现象,手性药物有着极其相似的物理化学性质,但部分手性药物在人体内的生物活性却有所差异,甚至截然不同,因此手性识别具有重要意义。用于手性识别的
物源分析在盆地沉积研究中一直占有很重要的位置,是盆地分析和古地理分析不可忽缺的内容,对确定物源区的位置、性质、沉积物搬运路径及整个盆地的沉积构造演化等方面有显著影
我国是一个海洋大国,舰船目标检测对于保卫我国领土主权有着重要意义。合成孔径雷达(SAR)作为一种不受天气状况影响、探测范围大的遥感成像系统,被广泛应用在舰船检测任务中。但SAR图像由于分辨率较低、噪声大并且同一目标在不同角度下的成像结果有较大差异,导致对SAR图像舰船目标进行检测时存在一定难度,在近海及岛礁区域容易出现虚警现象。随着深度学习方法在光学图像的目标检测问题中取得飞速发展,越来越多的研究
医学影像科学和人工智能在其各自领域内飞速发展,使得越来越多的国家将其上升为国家战略,以此来推动产品革命和社会革命。医学影像数据量大,专业的解读往往需要花费专家大量
真核细胞中,物质在细胞内各细胞器之间的转运主要依赖于膜泡运输。膜泡运输过程主要包括囊泡的出芽、转运、拴留、锚定和膜融合。运输囊泡与靶位膜的最初接触是通过拴留过程
碳纤维增强复合材料具有较高的比刚度和比强度,而且在减振、抗疲劳、耐高温、可设计性方面也优异于传统材料,在航空航天、建筑、汽车等领域拥有着广泛的应用前景。对于复合材料结构,在服役期间会因为外界冲击荷载以及长期的疲劳荷载作用造成结构损伤。且随着损伤的积累,结构的危险程度也逐步增大。因而找到一种损伤定位的方法,可以帮助人们尽早采取措施,避免结构突然发生破坏。本文以服役中复合材料结构健康监测和检测为工程背