基于神经网络的中文短文本分类研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:zhjipi07
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年人工智能在众多领域的大范围应用,促使深度学习的运用领域也越来越广泛。文本数据尤其是短文本数据信息的有限性和语言使用的不规范性,使得实现对短文本快速准确的分类成为值得研究的课题。本文在深入了解文本分类的现状及具体流程后,结合相关理论知识将目前在图像处理方面较为流行的卷积神经网络模型应用于短文本分类中。再对原模型参数和结构进行优化改进,得出相应结论。论文首先就文本分类和卷积神经网络的相关研究现状进行阐述,同时分析文本长度对文本分类的影响。并对文本分类的流程及论文中涉及的算法原理做充分的介绍。其次收集整理新闻文本作为短文本分类问题的实验数据,并对数据进行预处理。采用Jieba分词工具对文本分词并划分成词向量语料库以及训练和测试数据集。得到分词后的文本去除其中的低频词、标点和数字,再通过Word2Vec完成固定的词向量训练用作文本的特征信息。建立短文本分类的卷积神经网络模型,并优化相关参数,实验结果表明了模型的有效性。最后,提出基于词向量相似度的短文本扩充方法改进模型结构。在得到新文本后将其和原文本分别放入原模型中训练得到低维的向量表示后进行拼接,通过全连接层和softmax函数预测输出,并与原模型对比分析。最终的实验表明,改进后的模型有效,在准确率上优于原模型2.36%。
其他文献
供应中断是供应链管理中的一个重要问题,近年来引起了学术界和工业界的广泛关注.本文基于由两个不可靠供应商、一个后备供应商和一个零售商组成的供应链,建立了单周期最优库
任务调度作为云计算的核心技术,在云计算处理任务的过程中,任务调度是不可避免的重要环节之一,因此,优化任务调度机制是强化云计算综合性能的重要方法。为了更有效地改善云计
[目的]肉鸡腹水综合征(AS)严重影响着养鸡业的经济效益和肌肉品质。以往的研究主要集中于缺氧引起的肺动脉高压环节,部分地解释了本病的发生发展过程,尚不能完全揭示其发病机
法律英语是指在立法、司法等过程中使用的规范且具有特殊表达方式的语言,这种语言经历过长期的发展具有强制性、准确性、程序性的特点。在词汇上,法律英语多外来词和古语词,
血管内皮素生长因子受体 3(vascular endothelial growth factor receptor 3,VEGFR-3)又叫FLT4(fms like tyrosine kinase 4)与黑色素瘤细胞的生长有关,其可能对毛色及色素生
“孔颜之乐”是宋明理学中一个非常重要的问题,关系着儒家内在思想的精要。本文从船山“于道而乐”的观点中,总结船山对儒家之“乐”的认知,以及儒家之道与佛老之道的细微差
中国的鬼神观念自古就有,儒家对于鬼神的态度为“不语”,这不仅是对“鬼神”的敬畏,更是因为“鬼神”之一物难以说得清楚、讲得明白。朱子所讲的鬼神观念,是放在其理气观念中
随着多处理器计算机的飞速发展,处理器规模的日趋庞大,处理器发生故障是在所难免的。在多重处理器系统当中,对处理器进行故障鉴别的过程称为故障诊断。网络系统的故障诊断方
量子信息是量子物理和信息科学的交叉学科,是近20年国际上研究的热点。随着10个超导量子比特计算机的实现,量子信息处理与量子计算受到越来越多的人的关注。其中,信息的存储
改革开放以来,我国的民营企业在推动经济增长、减少失业等诸多方面发挥了巨大的作用,与此同时我国的民营企业也得到了长足的发展。而十八大以来的新一轮深化改革也必将带来我