轻量级分布式虚假信息爬虫的设计与实现

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:babyjoyce
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息是每个社会人的自动需求,在社会中生存发展的人,只有通过获取信息才能够消除的不确定性。近年来,随着智能手机与智能设备的普及,人们能够更加简单快速的从互联网上获取信息,随之而来的问题是:人们获取信息总量在不断增加,但是有部分人并不能有效将信息群中的糟粕信息过滤掉。而在这些垃圾信息中,虚假信息与谣言信息首当其冲。谣言传播后的影响非常严重,其将导致社会公众伦理迷茫,激化社会公众的非理智情绪,使事件发展被人为的向恶化方向推进。因此,需要将虚假信息,谣言从大量的信息群中过滤分离开。虚假信息过滤系统则可以很好的解决这个问题。本系统实现的功能是对相关网络文本的爬取及其中虚假信息的过滤。系统原则上使用深度优先策略来对文本进行爬取,通过相关url爬取算法的优化以及系统的优化,从而增强爬取的效率。系统通过融入分布式集群设计,实现了针对本系统设计的分布式功能与特性,使其可以脱离对其他分布式框架的依赖,从而使本系统相对与一般分布式爬虫而言使用方式耦合度更低,从而实现了轻量级的效果。系统通过使用SpringBoot框架来进行主要开发,并且进行服务的注册及发现操作,负载均衡配置,以及保障微服务的安全性。通过调用分布式发布订阅消息系统进行不同语言之间数据的传递,从而保证系统的健壮性,减少系统中各个服务的耦合。本系统在研究了大量谣言检测相关工作的基础上,最后选择使用GBDT决策树来进行虚假信息的过滤工作。基于虚假信息的相关属性,本系统提取了作者信息,路径信息,时间信息,文本信息等几方面的属性,构建一个自适应的决策树模型,从而可以更加准确的对文本的虚假性进行判断。通过对整个系统的设计,优化调整以及大量实验得到的结果可以说明该系统可以提供文本的爬取及虚假内容的识别工作,该系统在现实的使用中也具有功能性,可靠性,可维护性等性质。
其他文献
由于我国商标法没有规定构成近似商标的标准,对商标近似性的判断往往仁者见仁智者见智,本文中,北京集佳知识产权代理有限公司律师柴旭通过一则商标异议案的审理过程,点评了其中对
目的:探讨hepcidin与维持性血液透析患者肾性贫血的相关性;通过观察增加透析频率干预治疗对的MHD患者肾性贫血的改善效果,探讨其在改善MHD患者肾性贫血的作用机制。方法:(1)
现阶段,我国城市化进程不断加快,人们的物质生活水平不断提高,精神需求也日益旺盛,这就对建筑工程质量提出了更高的要求。而建筑工程的核心是主体结构工程,需要承载建筑自身
目的:通过对该地区工作场所职业病危害因素状况分析,探讨其职业病危害及防治对策。方法:收集该地区2007年-2010年中国疾病预防控制中心信息系统子系统“健康危害监测信息系统
基于大量岩心分析数据,从研究鄂尔多斯盆地富县地区延长组长8致密油性质、赋存空间入手,综合分析该区致密油成藏主控因素。富县长8段细砂岩含低密度、低黏度可流动致密油,且
当前,现代学徒制做为一种新的人才培养模式已经成为了我国高职院校的研究热点之一。利用现代学徒制教育模式培养高职院校学生的职业素质,促进高职院校教育教学改革,提升人才
作为一种性能优良的混合网络,波导魔T被广泛应用在各种平衡式电路网络中。在设计魔T的过程中,为了实现宽带特性,需要在接头处的E臂和H臂处加上匹配元件以达到消除反射的目地
目的观察多磺酸粘多糖乳膏(喜辽妥)联合微波理疗治疗甘露醇所致静脉炎的效果。方法根据观察到的静脉炎按数字随机法选为对照组和试验组各40例,对照组给予喜辽妥外敷,试验组予
目的:了解自贡市食品中食源性致病菌的污染状况,为细菌性食物中毒预警及食品安全管理提供科学依据。方法:检测按国标GB/T4789-2003检测程序对4类食品进行单增李斯特菌、副溶血
由传统耐久性设计方法所确定的混凝土结构一维和二维扩散区的耐久性定量设计参数取值往往互不相同,导致混凝土的制备和施工浇筑存在困难。鉴于此,提出了考虑施工需求的混凝土