论文部分内容阅读
随着互联网的普及与发展,网络上信息的数量正以爆炸式的速度增长。人们也习惯于通过网络去浏览和获取信息,网络新闻就是网络信息的一个重要传播途径。各新闻门户在给用户提供新闻浏览外,往往也给用户提供了评论的渠道,用户可以通过网络发表对相应新闻的评论。新闻网评也成为了新闻的重要组成部分。通过网络爬虫技术可以对需要的新闻和评论数据进行针对性的采集,能快速有效的在海量数据中获取所需要的数据。而机器学习的兴起及应用,为更好的进行预测分析提供了理论支持。目前针对新闻及网评的研究相比微博、论坛等的研究相对较少,缺乏量化分析及相应的应用研究。新闻及网评的传播往往与社会热点事件、社会舆论走向等相关联。本文主要通过利用网络爬虫技术采集网络新闻及其相应网评;研究新闻及网评的分布及产生规律;在此基础上,利用机器学习相关技术预测新闻热度,从而能够为新闻网评采集、热点事件分析、大众关注行为特征分析以及舆情监控等提供重要的理论支持。本文的主要研究成果如下:(1)通过对通用网络爬虫技术的研究,结合网络新闻网评生成的时序特征,针对网络新闻及其网评的采集需求,提出并实现了特定目标网站的网络新闻及其网评的高效采集系统。(2)研究新闻网评的在时间和空间上的分布特征及其规律;然后,进一步根据新闻内容对新闻分类,比较分析了不同类型新闻的网评分布特征;最后,根据用户发表网评的行为特征,对新闻热度进行分类,深入研究热点新闻的形成和分布规律。(3)基于新闻及网评分布特征的研究成果,通过多种机器学习分类算法,利用网评生成序列以及新闻发布的时间等一些特征信息,研究了新闻的热度预测方法。在此基础上,提出了结合多种评价指标的特征选择方法和结合多种集成方式的集成学习算法,能够显著提高新闻热度预测效果。