论文部分内容阅读
随着社交网络上活跃人群的增加,以及电子传媒对传统纸媒传播领域的占据,造成了社会人群习惯于通过较短篇幅的网站新闻获取时讯,网络信息变得细碎庞大。在社会急剧膨胀的信息量面前,由于高速的社会节奏,人们迫切需要精准地进行信息定位。另外,在一些面临挑战的社会时期,越快地定位信息方向类别,越能够更快地接近现场,对避免灾难、获得及时救助、实行援助等做出争分夺秒的反应,提供以科技为支撑的解决办法。此时在海量涌入的文字信息中,高效梳理出符合需求的求助、预警、紧急信息就成了重要的需求。在基于传统算法的分本分类中,多是以统计的视角通过主题词频作为分类依据,这种方式存在许多难以忽视的弊端:词向量表示造成在后续处理中的向量空间维度爆炸;传统机器学习方式需要人工对文本特征进行手动处理与标签标注,并且这种标注的准确性无法保证;面对不均衡样本无法通过数据切分保证数据平衡;划分过程时间空间成本过高,在以迅速更新为特征的社交媒体文本的处理中损失了时效性。本文选择新闻文本作为实验数据,将统计、词向量主题模型、机器学习、深度学习的神经网络运用于短文本分类中,旨在增强各类算法对文本处理的可扩展性,提升文本分类时的特征提取利用效率,更好地推断文本的类别;通过建立良好的特征表征体系,构建高效的文本分类器。具体完成了以下工作:以数据算法更新换代为脉络构建了文本分类的处理流程。使用深度学习中能够处理或者预测序列数据的神经网络,挖掘短文本中上下文信息对某个词语含义的影响,通过使用该序列表达存在的语义联系,完成高效文本分类器的构建。在训练过程中经过自底向上的逐层训练和参数调优过程,训练过程自底层输入无标签向量数据,逐层向下一层构筑网络,并且经过相反方向完成模型中各参数的调整,完成分类模型的优化。并且通过与工业应用的文本分类算法的结果比对,思考复杂算法落地的适用性。最终验证了本文所设计的基于CNN与GRU的神经网络,在短文本分类任务上的效果提升,同时经过训练的模型能预测任意输入的文本类别。