基于Spark的多领域网络新闻热点挖掘技术研究与实现

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:jwqpl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术持续不断的快速发展,信息产生与传播的速度与日俱增,与此同时,移动互联网技术的更新迭代与智能终端的大规模应用,使人们获取信息的方式也变得简单快捷。在此背景下,报纸、电视等定时新闻播报方式的影响逐渐式微,门户网站、新闻网站以及社交媒体等新闻传播平台成为人们关注时事热点的主要渠道。然而,互联网中的资讯平台不断增加,新闻报道的数量呈指数式增长,网络新闻资讯逐渐变得杂乱和臃肿。对于单用户来说,虽然能够从新闻客户端的个性化推荐中获取热点新闻,但其“量身定制”的新闻信息存在同质化严重、限制用户阅读选择自由等问题,使用户自主及时地从互联网中获取其感兴趣领域的新闻热点并追踪其发展趋势变得愈发困难。因此,应用先进的大数据技术处理和分析海量的新闻信息,使用户能够自主选择关注不同领域的热点话题,具有重要的研究意义。基于上述分析,本文结合网络新闻热点话题的特点和大数据处理平台的优势,设计并实现了基于Spark的多领域网络新闻热点挖掘系统,有效提升了新闻热点挖掘与追踪的性能。本文完成的主要工作包括:(1)针对多领域网络新闻分类问题,提出基于混合采样的集成fastText新闻自动分类模型,使用户能够自主选择其感兴趣的领域(如科技、体育、娱乐等),并重点关注其中的热点话题;(2)针对新闻热点话题挖掘,提出基于NE-LDA和Word2Vec相结合的改进型文本特征表示模型,而后利用Single-Pass聚类算法进行热点话题的自动发现;(3)针对热点话题展示与追踪,利用熵权法从时间、媒体和用户三个角度全面客观地评估话题的热度,同时基于用户的位置属性进行热点话题的推荐与展示;(4)设计并实现了基于Spark的多领域网络新闻热点挖掘系统,该系统包括数据的采集与存储、新闻分类、热点话题挖掘与展示等模块,并通过多角度的实验验证了本文方案的可行性与有效性。
其他文献
基于渭北旱塬长期定位田间试验,研究了保护性耕作下春玉米不同器官的生物量、养分吸收量及土壤肥力变化。结果表明:与传统耕作不覆盖(CT)相比,保护性耕作能显著提高春玉米籽
临床资料患者,女,23岁。发现外阴褐色扁平丘疹1个月, 于2018年4月来我科就诊。患者既往体健,2个月前曾有高危性行为。系统检查无异常。皮肤科情况:外阴可见多个绿豆至黄豆大
慕课对高校教学改革带来诸多挑战,冲击高校以教为主的教学理念,对教师能力提出更高的要求,迫使教学评价面临困境.慕课背景下高校教学改革需要采取相应策略,如建立传统高校教
脑梗死是脑血管病中最常见的一种,患病率和病死率随着年龄的增长而增多。关键的治疗是迅速解除闭塞的血管,重建脑血液循环,其中早期溶栓治疗及中药治疗是一种有效的治疗方法。我
如今,传统的广电媒体面临着激烈的市场竞争和新媒体带来的冲击,为了提高信息传播效率、吸引更多受众关注,需要创新与纸媒融合的新思路。两者融合有助于广电媒体扩大知名度,强
本文从学习汉语的重要性和教学词汇的意义等方面入手,对学习汉语的重要性以及汉语词汇教学在学习汉语中的重要作用作一些初步探讨。 This article starts with the importan
高中历史应抛弃应试教育的就史讲事,以兴趣和激情来活跃气氛,培养学生动脑、动手、实践,创新的能力,培养学生正确的人生观、价值观,形成良好的生活心态。改变古板式的填鸭式的教学
随着人们生活水平的提高,一个媒体要覆盖和穿透所有的人群越来越难,即使能够覆盖所有的人群,要想捕获这些目标人群的心也难上加难——就好像高露洁设计师所说,要想设计一把牙刷并
2015年5月9日,“周秦汉唐经典读书会”第三次学术讨论会在上海复旦大学举行。中国社会科学院文学研究所刘跃进研究员,《复旦学报》(社会科学版)编辑部汪涌豪教授,复旦大学中