基于Hadoop的Web相似重复数据清洗研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:airbter
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据作为信息的载体,是智能计算、信息融合等众多领域研究的课题,以发现海量数据背后所蕴含的规律,但脏数据的存在大大增加了知识发现的复杂度,因此数据清洗是一项非常重要的工作。国内外学者对英文数据的清洗有较为系统的研究,而中英文各方面差异巨大,针对英文数据的清洗方法不完全适用于中文。另外,面对激增的Web数据,单机计算性能瓶颈随之凸显,基于此,本文研究了针对相似重复中文文本的分布式清洗方法。基于Hadoop分布式平台和相关清洗方法,针对传统单机清洗方法清洗精确度低、清洗速度慢的缺点提出了将BERT模型和k-means聚类算法相融合的并行清洗方法,主要内容有:(1)针对中文存在的一词多义与多词一义的现象,分析了传统向量化方法丢失语义信息的缺陷,在文本向量化过程中引入位置向量,获取词语的上下文特征,根据语义动态调整向量,使得多义词在不同语境下获得不同的向量表示,同时基于Hadoop设计该过程的并行化实现,为进一步的相似重复数据清洗做铺垫;(2)采用聚类的思想实现对相似重复数据的并行清洗。该过程利用Mahout算法库提供的余弦相似度算法、Canopy算法、k-means聚类算法对数据进行相似重复检测并聚类。剖析Mahout中实现k-means的源代码,加入Combine过程做二次开发,减少Map和Reduce之间的通信消耗,提高清洗效率。为了减小随机k值对聚类的影响,先对数据做Canopy粗聚类,得到大致的聚类中心,再运用k-means算法将相似重复文本聚类,达到清洗的目的;(3)梳理数据清洗的流程,在多种数据集上进行对比实验,实验结果说明与其他方法相比,该方法下的文本数学表达更能承载真实的语义信息,从而使得后续相似重复文本清洗有更高的查准率和查全率,同时,分布式实验说明本文的并行计算设计有良好的加速比和可扩展性。
其他文献
互联网的普及应用,知识技能型共享经济的迅速发展正在以前所未有的速度和规模将全球人才、知识、资源连接在一起,助力全球科技创新发展与人类社会进步。在当前“互联网+共享”潮流下,如何充分整合社会智力资源,吸引更多社会大众投身知识技能型共享经济发展建设,对于我国进一步释放社会创新活力、深化创新驱动发展战略都具有重要的理论和现实意义。然而,我国知识技能型共享经济发展正面临着诸多的问题和挑战,就目前而言,低社
学位
香蕉(Musa nana Lour)是热带亚热带重要水果之一。香蕉果实软糯香甜,营养丰富,深受人们喜爱。香蕉采后易受到病原菌的侵害而发生品质劣变,限制了香蕉果实的运输和销售。由香蕉炭疽病菌(Colletotrichum musae)引起的炭疽病是香蕉采后的主要病害之一。本研究筛选得到一株能有效抑制C.musae且安全性高的酵母菌,并探究该生防酵母对C.musae的抑菌机制及对香蕉果实氧化应激、活性
学位
相关医学研究表明,前列腺癌的早期发现是治疗前列腺癌的关键,晚期治疗的前列腺癌复发率高。目前经直肠超声引导下的前列腺穿刺活检是诊断前列腺癌的金标准。然而,由于经直肠超声前列腺图像质量较低和固有的斑点噪声,其预测价值相对较低。因此,临床上都是采用多针饱和穿刺来用于前列腺癌诊断。虽然提高了前列腺癌的诊断率,但也增加了术后感染、血尿等并发症的发生几率。最近几年,机器学习在医学图像分析领域取得了很大的进展,
学位
近年来,光催化合成反应的发展极大地拓展了有机合成的范围,并且在一定程度上解决了传统催化反应中反应条件苛刻、需要催化剂、氧化剂、强酸、强碱以及污染环境等问题。然而,昂贵的金属光催化剂或特殊的有机光催化剂使得反应成本较高,不够绿色经济。与此同时,光引发的自由基反应具有引发剂廉价易得、条件简单、环境友好、能耗低以及原子经济性高等特点。其中,紫外光作为高能光源,已被广泛地应用于自由基聚合反应领域等。本项目
学位
随着面板生产技术越来越成熟,市场的竞争也越来越激烈。企业通过提高生产效率,降低生产成本,以提高产品的竞争力。D公司当前也面临着市场竞争激烈和客户需求多样化的压力,并且正在积极推行精益生产活动。本文以D公司的车载面板生产系统为研究对象,运用价值流图识别生产系统存在的问题,基于车载面板生产系统改善方案设计原则进行整体价值流改善和局部工序改善,在改善方案中通过在制品控制策略以降低车间在制品上限,并结合遗
学位
美国《独立宣言》的起草人之一托马斯·杰斐逊(Thomas Jefferson)曾经说过:“信息之于民主,就如货币之于经济”。言下之意,在现代社会中,随着信息化进程的加快与社会数据化的转型,信息的价值逐渐凸显,人们对于信息的挖掘利用使得信息成为一种重要资源。但是,在这样一个网络普及的时代,公民的个人信息更容易暴露在公众的视阈下受到相关犯罪的侵蚀。于是,随着公民对提升公民个人信息安全诉求的不断加码,侵
学位
数字图像是当今社会一种重要的信息载体。图像分辨率反映了图像包含的信息量,图像的分辨率越高,其包含的细节越丰富。然而,由于受外界环境与成像设备自身的干扰,原始图像在成像过程中容易丢失部分重要的细节,无法达到实际应用的标准。超分辨率重建技术可以在不改变硬件设备的前提下,通过软件方法来提高图像的分辨率和清晰度,在理论上和工程上都具有重要的研究意义。本文围绕深度学习来研究超分辨率重建算法,主要内容如下:(
学位
近年来,我国环境污染问题频繁发生且日趋严峻,造成人身、财产及生态环境价值的严重减损。大多数污染企业在面对重大环境问题时,不仅要承担环境侵权造成的损害赔偿责任,还要承担环境受损后的修复义务。然而,造成环境污染的原因行为一般都具有社会正当性与合法性,如果将其产生的损害后果全部交由污染企业承担,则有悖实质正义,且不利于社会整体经济的持续发展。实践过程中,环境侵权造成的损害赔偿问题在现有制度框架下尚未得到
学位
免疫疗法已经成为国内外肿瘤治疗的热点研究领域。其中,靶向PD-1/PD-L1免疫检查点的抑制剂无疑是最为成功的药物类型之一,目前被FDA批准上市的抗体药物已有9种。本文通过查阅联苯类PD-1/PD-L1小分子抑制剂的相关文献,对其药效团模型进行分析并总结其构效关系,运用闭环策略,设计得到了一系列含嘧啶结构的联苯类小分子化合物。基于目标化合物的结构,采用逆合成分析法,初步确定了目标化合物的合成路线。
学位
可变剪接是一种广泛存在于细胞内的生物学过程,超过90%的人类基因存在着不同的可变剪接形式,对细胞转录组丰富性起着重要的调控作用,越来越多的证据证明可变剪接参与细胞分化、癌症发生及抗癌药物应答过程。除已知外显子外,基因组中存着很多基于计算机预测但未被实验验证的新外显子,尽管随着高通量测序技术的发展基因组中“隐秘的”外显子组不断被解密,但是这些新外显子在抗癌药物应答及可变剪接调控作用中所扮演的角色仍未
学位