基于LSTM-Attention的中文新闻标题分类研究

来源 :中南财经政法大学 | 被引量 : 0次 | 上传用户:lyaner
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据2018年8月中发布的《中国互联网络发展状况统计报告》显示,中国在2018年上半年的网民规模已经超过8亿水平,其中手机网民规模可占98%之多,这也意味着人们在移动互联网时代关于信息的获取偏好逐渐从传统互联网转向移动互联网,人们对移动终端的偏好也越来越强。而关于中国网民对于各类互联网应用的统计表明,有超过6.6亿近83%的中国网民在生活中会使用网络新闻类应用,其使用率高居所有应用类别的第二,仅次于即时通讯类应用。关于新闻行业的发展前景较为广阔,如何在移动互联网时代末期将网络新闻相关技术与人工智能等前沿技术结合,为用户呈现更好更有价值的内容,这是非常值得研究的一件事。新闻是人们对时事、最新行业相关消息了解的重要途径,而新闻的信息分类有助于实现新闻的有序化,对新闻文本进行挖掘,从而达到对决策提供引导。由于新闻分类本质上是一个文本分类问题,而且文本分类作为自然语言处理领域研究的一个重要方向,所以至今为止,人们对新闻文本分类已经有大量的研究。目前大部分文本分类问题都局限于使用常规的机器学习算法,所以对深度学习算法的研究应用还比较有限,所以本文旨在研究这个方面的问题。本文将新闻标题作为新闻分类的切入点,由于新闻标题属于文本中的短文本类别,所以本文主要通过利用深度学习相关方法对新闻标题短文本进行分类,针对前期分类出现过的问题,结合深度学习网络并引入最新的Self-Attention模型,解决新闻分类以及短文本分类过程中的常见困难问题。对于解决新闻标题分类这个具体问题,本文选用借助自注意力机制SelfAttention来处理LSTM的词向量输入序列并以此加强LSTM的分类效果。对于实验数据集,由于新闻标题中的可能总会出现一些新词,所以本文的数据集选择由NLPCC 2017 Task2 Chinese News Headline官方数据集与通过爬虫技术获取的近一年今日头条、新浪等门户网站各类新闻标题组成的补充数据集组合而成。通过实验后,本文模型在新闻标题分类问题上取得了较为不错的分类效果,相较于常用短文本分类模型Bi-LSTM,CNN-LSTM,LSTM-Attention以及CNNAttention,本文分类模型的对于中文新闻标题短文本的归类准确率最终达到了85%左右,也就是接近86%的分类准确度的水平,总体来说还是有着不错的分类效果。
其他文献
1996年世界核电统计截至1996年底,全世界在运行中的核电机组共437台,装机容量共3678412MW。这些机组遍布在30个国家,其中运行机组台数超过9台的国家有美国(109台)、法国(56台)、日本(52台)、英国(35台)、俄罗斯(29台)、加...
德国电业联合会对可再生资源发电利用情况进行了广泛调查,结果表明:1996年全国可再生能源发电的供电量达21.1TWh,其中公用电业的供民量为17.3TWh,非公用电业的供电量为3.8TWh,这一总供电量相当于全国总用电
【正】 我组在前一阶段,大干41天,完成了原计划需要三年才能完成的俄语八种体育专业书籍的词汇普查工作.编出了俄华对照体育专业辞典,调查出了占重复率90%以上的一千三百多个
【正】 这难忘的时刻,给我们带来了兴奋和欢乐.这欢乐的日子里,我们要用感激的心情,我们要用热情的歌声,歌颂党的英明领导,歌颂社会主义总路线.在那些苦战的日子里,亲爱的党
骨质疏松症是一个世界性的健康问题,其治疗药物被分为抗吸收类及抗合成代谢类。抗吸收类药物通过抑制破骨细胞活性减少骨吸收,目前包括二磷酸盐类,选择性雌激素受体拮抗剂,降
据德国《明镜在线》报道,关于数字教材使用版税问题的讨论日前得出初步结论:大学生暂时可以继续免费使用电子教材和资料.大学代表、各州的文教部长和言语版税征收协会(VGWort)达
目的探讨加速康复营养护理对结肠癌患者围手术期胃肠功能状态和生活质量的影响。方法选取2012年9月至2015年9月陕西省咸阳市二一五医院收治的90例结肠癌患者,采用随机数字表
<正>近年来,由于气候、原材料等多种因素的综合作用,国内羽绒服市场变脸的频率逐年加快,很多羽绒服企业经历大起大落的现象也被司空见惯。在这样的行业背景下,北京亿都川服装
随着现代信息技术的不断发展,RFID(Radio Frequency Identification)技术正以其独特的优势在各个行业中扮演重要的角色,尤其在现代物流仓储管理领域,RFID技术的引入实现了对
点开网页,如果你看见的内容是竖排版繁体字,那么,不要惊讶,更不要以为是网页出了问题,其实,这是网络新近的流行元素。