基于Hadoop的新闻事件融合分析算法的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:raincy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网发展速度的不断加快,网络已经逐步变为信息获取的重要途径。中国互联网信息中心(CNNIC) 2016年8月发布的《第38次中国互联网络发展状况统计报告》中的数据表明,到2016年6月为止,使用网络新闻的用户的数量增加至5.793亿,其使用率高达81.6%[1]。由此可见,网络新闻已经逐渐成为人们获取新闻事件信息的一种不可或缺的来源。如何从急剧增长的海量互联网新闻信息中获取核心新闻事件,掌握社会信息动态,也逐渐成为人们关心的问题之一。然而,由于网络的虚拟性和网络新闻信息的复杂性,使得用户在获取自己感兴趣的新闻事件时遇到了很大的困难。因此,研究并实现一种从海量网络新闻数据中发现重要新闻事件,并向用户有组织、有条理地展现出事件之间的关联关系的算法具有重要的现实意义。本文旨在研究并实现一个新闻事件融合分析算法,从海量新闻信息中抽取关键事件,并挖掘事件之间的关联信息。本文主要工作如下:1.采集网络新闻数据,使用开源工具完成对数据的预处理,并基于改进的向量空间模型完成新闻报道建模。考虑到新闻数据的特征,本文提出了基于新闻要素识别的特征选择算法,在根据TF-IDF算法选择特征词的基础上进行了优化。2.提出一种结合新闻要素识别的新闻事件发现算法,并针对新闻事件发现的结果,从事件标题、事件核心词群、事件核心报道集等方面多角度地展现事件的信息,达到以友好的方式描述新闻事件的目的。3.提出一种新闻事件关联分析方法,以共词网络为基础,挖掘事件间的关联,构建事件关联网络,并采用Louvain算法在共词网络中发现社团结构。4.将本文算法应用于多源数据分析系统中,实现了系统中的事件发现和事件关联分析功能,从实际应用角度验证了本文算法的有效性。
其他文献
质子交换膜燃料电池(PEMFC)商业化面临的一个主要问题是电池的耐久性问题,催化剂的稳定性下降是影响其寿命的关键因素之一。从Pt的溶解再沉积,Pt的团聚长大及碳载体的腐蚀等
可处置性是2008年金融危机后为解决系统重要性金融机构(G-SIFIs)"大而不能倒"问题提出的一个新概念。提高G-SIFIs的可处置性是目前金融稳定理事会加强G-SIFIs监管的重要内容
目的探讨国内外有关重型颅脑损伤(TBI)患者医院获得性肺部感染的危险因素,为肺部感染预防策略的制定提供依据。方法计算机检索CNKI、万方、维普、Pub Med、Cochrane Libranry
广播发射机在广播系统中占有很重要的位置,是广播系统关键的发射设备。随着科学技术日新月异的发展,广播发射机有着向数字化、频率调制、智能化、大功率等方向发展。本论文是
本文通过对一些称呼的分析 ,来揭示社会角色集与个人行为模式之间的关系 ,并试图通过这一方式 ,从微观到宏观地探索一种社会和文化所具有的某些价值观。
鄂尔多斯式青铜器凭借其自身独特的造型及浓厚的草原风格、艺术展现形成反映着北方文化的历史发展过程,吸引了世界各个国家的专家学者对鄂尔多斯式青铜器的深入探究,接下来,
介绍了神华天津煤炭码头含煤污水处理系统的改造背景,因地制宜地设计了改造方案,取得了含煤污水回收利用自动化的改造效果。
HOV车道(High-Occupancy Vehicle Lane)也叫多乘员车道,是交通管理中将仅供乘坐至少某一规定乘客数的车辆通行的车道称为高容量车道,并规定可以使用该车道的车辆包括公交车、2人
报纸
采用PVP为表面活性剂,在尿素水溶液中,水热条件下制得层状碱式碳酸锌前躯体(LBZC)。通过高温处理前驱体制备单晶多孔ZnO纳米片。对单晶多孔ZnO纳米片分别采用场发射扫描电镜(
基于微课这种新型的在线学习资源和思维导图教学工具,构建了在线预习—课堂实验教学—在线复习与提升的混合式实验教学模式。主要内容涉及基于思维导图的微课教学内容设计、