论文部分内容阅读
随着互联网的普及和快速发展,其信息发布成本极低、信息发布与传播极为迅速、实时交互性强的特点,使互联网成为各大新闻媒体发布新闻及人们获取新闻信息的重要平台。网络新闻数量呈指数级增长,新闻内容纷乱复杂,媒体平台越来越难以组织管理海量新闻话题,人们也越来越难以快速准确获得自己感兴趣的新闻话题。因此,为方便媒体平台对于新闻话题的管理,满足用户快速准确获取感兴趣新闻话题的需求,有必要对于一段时间新闻热点的高效且准确发现方法进行研究。本文的研究内容主要分为三部分:文本特征降维模型、文本聚类模型、新闻热点识别及排序模型。
⑴由于海量新闻文本特征过高,同时存在过多冗余特征及噪音特征,构建了一种文本特征降维模型。目前,文本建模采用向量空间模型(VSM)的表示方式,并使用TF-IDF算法计算文本特征权重,将文本表示为关键词及其词频权重的数值型空间向量。本文基于VSM及TF-IDF算法,通过分析影响新闻文本特征区分能力的相关因素,引入特征词符号、特征词词性、特征词位置及特征词长度四项加权因子以优化TF-IDF算法,实现多因素特征选择,降低VSM特征维度。
⑵由于网络新闻话题发现的关键技术是文本聚类技术,构建了一种文本聚类模型。本文基于K-means聚类模型及果蝇优化算法(FOA),从编码方式、适应度函数、自适应步长及群体适应度方差四方面构造改进果蝇优化算法(AFOA),利用AFOA优选K-means初始聚类中心,采用优化后的K-means进行新闻话题聚类,实现新闻话题准确发现。
⑶构建了一种新闻热点识别及排序模型。新闻热点识别模型使用本文提出的文本特征降维模型,实现新闻热点有效识别。新闻热点排序模型基于TOPSIS模型,通过分析新闻热点影响因素,引入“话题文本报道数量”、“话题文本评论数量”、“话题文本评论最长时间间隔”、“话题文本来源数量”四项排序指标,实现新闻热点有效排序。
基于复旦大学李荣陆提供的中文文本分类语料库,本文提出的文本特征降维模型及文本聚类模型,得到有效验证。基于腾讯新闻网爬取的2018年5月的新闻语料,本文提出的新闻热点识别及排序模型,得到有效验证,能够提升新闻热点发现的效率及准确率。
⑴由于海量新闻文本特征过高,同时存在过多冗余特征及噪音特征,构建了一种文本特征降维模型。目前,文本建模采用向量空间模型(VSM)的表示方式,并使用TF-IDF算法计算文本特征权重,将文本表示为关键词及其词频权重的数值型空间向量。本文基于VSM及TF-IDF算法,通过分析影响新闻文本特征区分能力的相关因素,引入特征词符号、特征词词性、特征词位置及特征词长度四项加权因子以优化TF-IDF算法,实现多因素特征选择,降低VSM特征维度。
⑵由于网络新闻话题发现的关键技术是文本聚类技术,构建了一种文本聚类模型。本文基于K-means聚类模型及果蝇优化算法(FOA),从编码方式、适应度函数、自适应步长及群体适应度方差四方面构造改进果蝇优化算法(AFOA),利用AFOA优选K-means初始聚类中心,采用优化后的K-means进行新闻话题聚类,实现新闻话题准确发现。
⑶构建了一种新闻热点识别及排序模型。新闻热点识别模型使用本文提出的文本特征降维模型,实现新闻热点有效识别。新闻热点排序模型基于TOPSIS模型,通过分析新闻热点影响因素,引入“话题文本报道数量”、“话题文本评论数量”、“话题文本评论最长时间间隔”、“话题文本来源数量”四项排序指标,实现新闻热点有效排序。
基于复旦大学李荣陆提供的中文文本分类语料库,本文提出的文本特征降维模型及文本聚类模型,得到有效验证。基于腾讯新闻网爬取的2018年5月的新闻语料,本文提出的新闻热点识别及排序模型,得到有效验证,能够提升新闻热点发现的效率及准确率。