基于深度学习的社交媒体短文本分类研究

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:shaokangtian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络上活跃人群的增加,以及电子传媒对传统纸媒传播领域的占据,造成了社会人群习惯于通过较短篇幅的网站新闻获取时讯,网络信息变得细碎庞大。在社会急剧膨胀的信息量面前,由于高速的社会节奏,人们迫切需要精准地进行信息定位。另外,在一些面临挑战的社会时期,越快地定位信息方向类别,越能够更快地接近现场,对避免灾难、获得及时救助、实行援助等做出争分夺秒的反应,提供以科技为支撑的解决办法。此时在海量涌入的文字信息中,高效梳理出符合需求的求助、预警、紧急信息就成了重要的需求。在基于传统算法的分本分类中,多是以统计的视角通过主题词频作为分类依据,这种方式存在许多难以忽视的弊端:词向量表示造成在后续处理中的向量空间维度爆炸;传统机器学习方式需要人工对文本特征进行手动处理与标签标注,并且这种标注的准确性无法保证;面对不均衡样本无法通过数据切分保证数据平衡;划分过程时间空间成本过高,在以迅速更新为特征的社交媒体文本的处理中损失了时效性。本文选择新闻文本作为实验数据,将统计、词向量主题模型、机器学习、深度学习的神经网络运用于短文本分类中,旨在增强各类算法对文本处理的可扩展性,提升文本分类时的特征提取利用效率,更好地推断文本的类别;通过建立良好的特征表征体系,构建高效的文本分类器。具体完成了以下工作:以数据算法更新换代为脉络构建了文本分类的处理流程。使用深度学习中能够处理或者预测序列数据的神经网络,挖掘短文本中上下文信息对某个词语含义的影响,通过使用该序列表达存在的语义联系,完成高效文本分类器的构建。在训练过程中经过自底向上的逐层训练和参数调优过程,训练过程自底层输入无标签向量数据,逐层向下一层构筑网络,并且经过相反方向完成模型中各参数的调整,完成分类模型的优化。并且通过与工业应用的文本分类算法的结果比对,思考复杂算法落地的适用性。最终验证了本文所设计的基于CNN与GRU的神经网络,在短文本分类任务上的效果提升,同时经过训练的模型能预测任意输入的文本类别。
其他文献
学习率衰减策略是深度学习算法优化中常用的学习率设定方法,好的学习率设定方式可以训练出更好的深度神经网络模型。因此,如何设定好的学习率衰减是深度学习领域的一个前沿问
本文主要对离散时间非线性系统的模型未知问题和控制问题进行了研究,提出了局部线性化方法,以此为基础设计了一系列智能自学习控制方案。论文的主要研究内容总结如下:第一,针
随着潜艇下潜深度的不断突破,实现大深度发射成为了水中武器发射系统发展亟待解决的问题。假海试验平台是支撑大深度水中兵器发射关键技术研究的重要基础试验设施,假雷接收装
生物传感技术对生命科学研究、临床医学检测、环境安全评估、食品卫生检测等具有重要的作用。近年来,随着工艺技术的进步、检测手段的发展,生物传感器的检测范围和灵敏度也取
随着智能时代的来临,汽车工业正经历着一场重大变革。以自动驾驶与辅助驾驶系统为代表的产业革命在快速推进的同时,也面临着巨大的挑战。特别是在安全问题上,如何让系统在不
生物传感器是生物活性材料(酶、蛋白质、DNA、抗体、抗原、生物膜等)与物理化学换能器有机结合的交叉学科,是发展生物技术必不可少的一种先进的检测方法。因其具有选择性好、灵
近年来,随着电动车辆及无线充电技术的快速发展,采用无线充电方式对电动车辆进行电量补给成了未来电动车辆发展的一个必然趋势。而无线充电效率较低,尤其是在车载接收装置与
现如今高速发展的智能化生产领域中,目标检测算法逐渐成为许多计算机视觉研究中的重要课题。基于深度学习理论的目标检测任务旨在帮助人类能够高效且快速的找到需要定位的物
目前,社会的发展严重依赖化石燃料,然而,化石燃料的过度燃烧造成了一系列的环境问题和能源危机。因此,开发新能源取代旧能源是人类亟待解决的问题。氢气、氨气作为环保和可再
基于现代神经网络的煤炭质量数据分析与预测是采用神经网络结合深度学习的方法对煤质数据的发热量及销量进行分析和预测,以期达到对煤矿生产经营活动的辅助指导作用。煤质化