论文部分内容阅读
根据2018年8月中发布的《中国互联网络发展状况统计报告》显示,中国在2018年上半年的网民规模已经超过8亿水平,其中手机网民规模可占98%之多,这也意味着人们在移动互联网时代关于信息的获取偏好逐渐从传统互联网转向移动互联网,人们对移动终端的偏好也越来越强。而关于中国网民对于各类互联网应用的统计表明,有超过6.6亿近83%的中国网民在生活中会使用网络新闻类应用,其使用率高居所有应用类别的第二,仅次于即时通讯类应用。关于新闻行业的发展前景较为广阔,如何在移动互联网时代末期将网络新闻相关技术与人工智能等前沿技术结合,为用户呈现更好更有价值的内容,这是非常值得研究的一件事。新闻是人们对时事、最新行业相关消息了解的重要途径,而新闻的信息分类有助于实现新闻的有序化,对新闻文本进行挖掘,从而达到对决策提供引导。由于新闻分类本质上是一个文本分类问题,而且文本分类作为自然语言处理领域研究的一个重要方向,所以至今为止,人们对新闻文本分类已经有大量的研究。目前大部分文本分类问题都局限于使用常规的机器学习算法,所以对深度学习算法的研究应用还比较有限,所以本文旨在研究这个方面的问题。本文将新闻标题作为新闻分类的切入点,由于新闻标题属于文本中的短文本类别,所以本文主要通过利用深度学习相关方法对新闻标题短文本进行分类,针对前期分类出现过的问题,结合深度学习网络并引入最新的Self-Attention模型,解决新闻分类以及短文本分类过程中的常见困难问题。对于解决新闻标题分类这个具体问题,本文选用借助自注意力机制SelfAttention来处理LSTM的词向量输入序列并以此加强LSTM的分类效果。对于实验数据集,由于新闻标题中的可能总会出现一些新词,所以本文的数据集选择由NLPCC 2017 Task2 Chinese News Headline官方数据集与通过爬虫技术获取的近一年今日头条、新浪等门户网站各类新闻标题组成的补充数据集组合而成。通过实验后,本文模型在新闻标题分类问题上取得了较为不错的分类效果,相较于常用短文本分类模型Bi-LSTM,CNN-LSTM,LSTM-Attention以及CNNAttention,本文分类模型的对于中文新闻标题短文本的归类准确率最终达到了85%左右,也就是接近86%的分类准确度的水平,总体来说还是有着不错的分类效果。