基于爬虫和LDA的新闻话题挖掘

来源 :河北大学 | 被引量 : 0次 | 上传用户:gcq1987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展和普及,网络新媒体已经逐步超越传统媒体,成为人们获取信息资源的主要渠道。尤其是各大新闻网站对时事新闻快速发布和更新,使得新闻的传播广泛而迅速,人们通过网络可以及时地获取最新的新闻资讯。然而,各个网站的新闻网页分布在互联网各个角落的Web服务器中,未能统一地组织和管理,且都是以新闻事件的Web页面形式呈现给用户,这就导致互联网新闻存在数量巨大、来源繁多、格式不统一的缺点,人们难以在海量资源中及时有效地获取有价值的、感兴趣的信息,因此需要对互联网上的新闻进行收集、整理和分析,以更易于理解和查询的友好方式呈现在用户面前。互联网信息挖掘的两个重要步骤是数据采集和数据分析,本文对互联网新闻话题挖掘展开研究,主要工作包括4部分:1.在Hadoop平台上设计并实现了一个分布式新闻爬虫,利用Map Reduce框架并行计算的能力,对多个新闻网站的新闻网页并行爬取,提取网页中的新闻标题、时间、内容等信息,将不同页面格式的新闻以统一的结构存入HDFS,以便于进行新闻话题挖掘。2.在研究分析LDA模型和吉布斯采样的基础上,实现了LDA模型的基本框架。对文本集使用LDA模型建模,并使用吉布斯采样算法估算LDA模型中多项分布的参数。根据文档生成话题的概率和话题生成单词的概率,抽取出话题的热点词及其相关新闻。3.利用训练好的LDA模型预测未知文档的话题概率分布,根据文档的话题概率将其归类到相应的话题中。4.为验证以上理论的实用性,本文设计并实现了一个新闻话题挖掘系统,将挖掘出的新闻话题信息通过Web页面呈现给用户,方便用户获取话题信息和查询相关新闻。实验结果表明,所给方法可以有效地挖掘出热点话题及其相关新闻。
其他文献
一、引言我国卫生部于1984年11月颁发了《辐照食品卫生标准》。于1986年6月颁发了《辐照食品卫生管理暂行规定》。1986年底,我国第一座具有世界先进水平的商用辐照工厂在深
脑梗死在临床上常见而多发,其致残率及病死率较高,严重危害着人类的健康。目前治疗脑梗死的方法主要是溶栓、抗凝、降纤及脑保护等治疗。溶栓治疗是当今治疗急性脑梗死最有效的
为了解决高校安全保卫工作办公方式落后、管理水平低下等问题,开发了一套基于Web网的高校安全管理系统。介绍了系统设计和架构框图,并对系统功能做了进一步的实现,最后展示了
克里格法是进行岩土工程勘察分析的一种辅助数段。采用此种方法有重要的意义,能够摆脱传统方法的随意性和盲目性,可以准确的检测岩土工程的勘验成果。因而本文致力于对克里格
目的探讨胸心外科护理实习临床带教经验,提高带教老师素质和带教水平。方法对胸心外科护理实习生存在的问题进行分析并总结对策。结果胸心外科护理实习生不足之处有:护生职业
目的观察艾拉莫德片联合甲氨喋呤片治疗老年类风湿关节炎(RA)的临床疗效及对患者外周血T淋巴细胞和B淋巴细胞的影响。方法将120例老年类风湿关节炎患者随机分为对照组60例和试
污染防治设施是城市现代化发展过程中的基础性设施之一,在减少环境污染,创造良好的生活条件等方面发挥着十分重要的作用。但是由于设施的监管管理制度不完善以及执行能力不强
未来中国社会信用的建设,一方面应该完善相关法律法规,  改善商业环境,同时强化企业的商业伦理意识和公民的社会公共意识。  另一方面,还应该将信用作为资源和生产力来使用,  从而使信用在社会经济中发挥更大的功效    与信用经济发展相对成熟的国家相比,中国在社会信用方面存在哪些明显的不足?关于信用机制的建设,发达国家有哪些可资借鉴的经验和可以记取的教训?日前,《小康》记者就这些问题对北京大学中国信用
1病例报告患者,男,34岁,因头晕,全身无力,出冷汗3h入院。患者于2007年11月11日13:00突然发病,主诉症状持续加重,于16:00入住本院。既往体健。入本院体格检查:T36.8℃,P96次/min,R24次/min,BP3
空军在气象观测、雷达探空等工作中,多年来一直采用气球结合单经纬仪的测量方法。气球以充氢气为主。目前气象气球充氢设备主要有浮力天平和平衡器两种。前者操作复杂,后者容易