基于深度学习的新闻短文本分类研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:heiefei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来使网络新闻文本爆炸式增长。面对海量的新闻文本数据,人工处理的方式已经无法满足对网络文档信息的标识、归类等工作。因此,利用统计建模或深度学习方法将混乱无序的网络新闻文本分门别类地整理并挖掘其中的重要信息,不仅能够节省人力物力,还对新闻的用户推送、分类导航、舆情监测、垃圾信息过滤等有重要意义。由于新闻短文本存在语句短、特征不明显等特点,如何有效提高新闻短文本分类准确率是如今新闻媒体工作面临的一大挑战。随着深度学习技术在自然语言处理领域的广泛应用,越来越多的研究工作者采用深度神经网络解决文本分类问题。本文从文本表示和特征提取的角度出发,将文本表示方法和深度学习模型中的算法加以改进,提出了PTF-IDF加权Word2vec文本表示模型和Bert-LSTM混合深度模型,并对分类结果进行比较分析,提高新闻短文本分类的精度。在文本表示方面,针对Word2vec模型无法区分出影响力大的特征词、TF-IDF模型忽视了特征词在类间和类中分布不均匀等问题,本文通过引入词性贡献因子对TFIDF模型进行改进,根据词性的不同赋予词权重,与Word2vec模型训练的词向量相结合,构建出基于PTF-IDF加权Word2vec的文本表示模型。并与其他文本表示模型在相同数据集上的分类表现进行比较,验证了该方法能够有效提高新闻短文本分类的准确率。在特征提取方面,针对Bert模型弱化文本位置信息的不足,LSTM模型能够有效学习观测序列上的依赖关系,提取出前后文的全局特征。因此,本文将Bert和LSTM两个模型相结合进行特征提取,并引入Attention机制对提取出的特征进行深度的筛选和融合,构建出Bert-LSTM模型,将该模型与Bert模型在同一数据集上的分类结果进行对比,证明了新的混合深度模型能够提高新闻短文本的分类精度。
其他文献
教育部在最新颁布的《普通高中生物学课程标准(2017年版2020年修订)》中明确指出课程改革的方向和任务是发展学生核心素养,实现教育教学育人的价值。生命观念作为核心素养的重要内容之一,是实现其他核心素养的前提,也是最具精华和价值的生物学内容。生命观念的建立主要以细碎的、烦琐的概念性知识的教学为基础,而概念建构的过程也是模型建构的过程。因此,本研究尝试应用模型建构教学以期培养高中学生的生命观念。本研
学位
全基因组关联分析(GWAS)是研究复杂疾病的一种重要方法,旨在全基因组范围内检测出与疾病相关的单核苷酸多态性(SNP)。由于其涉及的数据规模大,已有研究考虑利用高维的统计工具来筛选致病基因。然而,随着数据复杂度的提升,有些学者进一步考虑到数据存在异质性,提出利用高斯混合模型进行基因关联分析,但是此类研究并未充分考虑到基因模型存在不确定性。在这种情形下,模型往往是未知的,那么错误的模型使用可能会降低
学位
旋转机械在工业的实际生产应用广泛,且发挥着重要的作用,在石油、化工、煤炭、电力、装备制造等行业都有着对旋转机械的应用,具体如汽车发动机、汽轮机风力发电机、变速箱等。旋转机械设备故障的出现,对企业的实际生产会造成重大影响,生产效率与产品质量降低、企业的市场竞争力下降,而且会造成难以估量的经济损失,甚至造成人员伤亡。通过查阅相关文献可知,转子部位是旋转机械故障发生的主要原因。而以往对转子故障的诊断不仅
学位
金融市场上,投资者购买股票或债券最关心的是股票对数收益率,它是反映股票收益水平的指标.另外,通过用在险价值VaR和条件在险价值CVaR对股票对数收益率进行风险度量,从而对金融资产进行风险管理.以往,很多学者在研究对数收益率时,通常是假定数据服从正态分布,但事实上,股票对数收益率的分布很多都是非对称的,具有偏斜、尖峰厚尾的特征,用正态分布来拟合并不合适.在1985年,Azzalini提出的偏分布能够
学位
中国的资源禀赋决定了煤炭在消费结构中的主体地位,作为高污染高碳的能源品种,煤炭在支撑中国经济高速发展的同时,也带了日益严重的环境污染问题,尤其是大气污染问题日趋严重,这严重阻碍了我国的经济发展。二氧化硫是大气中主要污染物之一,也是衡量一个地区大气质量状况的重要指标,减少二氧化硫在大气中的排放是环境保护的重要内容之一。虽然近些年来二氧化硫的排放量呈下降趋势,但环境空气质量仍然与人民的期待有着一定的差
学位
折叠分布主要研究于20世纪60年代,其中最著名的就是折叠正态分布.Leone在1961年提出了利用矩估计求折叠正态分布参数的一种估计方法,且研究了折叠正态分布的性质.此后,Psarakis首次对t分布进行折叠处理,从而推导出折叠t分布.值得一提的是,Cooray在2006年利用在均值处对逻辑分布进行折叠得到折叠逻辑分布,并给出了参数估计的相关方法.广义逻辑分布有I型II型Ⅲ型和IV型广义逻辑分布四
学位
巨型水轮发电机定、转子接地故障是水轮发电机常见故障之一,如何选择正确的试验方式确定故障类型,并迅速定位故障部位对机组抢修及减少经济损失至关重要。在对各种故障查找方法开展比较分析及试验研究的基础上,把定、转子接地故障分为三大类:金属性、低阻、高阻接地故障。对各种故障查找方法基本原理及适应类型进行了深入分析,从而使巨型水轮发电机定、转子接地故障查找工作避免盲目应对,在方法选择上更具针对性。
期刊
2014年7月,国务院批复实施《珠江-西江经济带发展规划》(以下简称《规划》),华南地区区域经济协调发展迎来了难得的机会。《规划》高度重视珠江-西江经济带旅游业的发展,提出发展的总体格局:规划“一轴、两核、四组团、延伸区”空间布局,着力打造交通综合大要道,建设珠江-西江生态走廊,建立旅游战线联盟,打造特色精品线路。《规划》实施以来,珠江-西江经济带的旅游经济发展迅速,但是区域发展差异较大,为了改善
学位
科学知识迅速发展的社会,学生在有限的时间无法掌握全部的信息。高中生物学顺应时代发展的需要,在《普通高中生物学课程标准(2017年版2020年修订》(以下简称新课标)中强调“内容聚焦大概念”,教学内容要突出重点,让学生能够深刻理解和应用重要的生物学概念,并主张通过探究式的教学方式培养学生的科学探究能力。重要概念教学对于学生综合能力的培养具有重要意义,但在一线教学实践中的开展较难。探究式教学模式可以加
学位
基因分析方法对遗传疾病的研究与治疗具有重要意义,在已有文献中通常采用的是全基因组关联分析,这一基因分析方法能够对患病个体中的基因进行分析。全基因组关联分析通常情况下认为个体患病的基因模型是确定的,但在实际问题中,往往无法确定影响该疾病的基因模型,若指定一个错误的基因模型,有可能导致模型的统计功效降低。其次,并不是所有的基因位点对个体患病均有影响,即高维的基因数据存在稀疏性,因此在需要进行变量选择,
学位