基于MapReduce的文本聚类算法并行化研究与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:xiongll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络中每天产生海量的文本、视频、图片等数据,其中文本数据占据了很大的比例且蕴含许多重要的信息,对文本数据进行数据挖掘在商业、医疗、科研等方面有着重要的价值。文本聚类是一种无监督的文本挖掘方法,它将文本数据集合划分为多个簇,簇中的文本相似,而不同簇间的文本相似度低。文本聚类在多个领域得到使用,如自然语言处理中利用文本聚类进行冗余消除,搜索引擎利用文本聚类产生简洁高效的搜索结果等。在面对大规模文本数据时,传统的文本聚类方法难以有效地处理。为了有效地对大规模文本数据进行聚类,本文对基于MapReduce编程模型的文本聚类算法进行研究。吸引子传播算法(Affinitypropagation,AP)是近年来提出的一种高效聚类算法,它通过数据对象间的消息传递选择聚类中心,并且不使用聚类个数作为参数,但AP算法存在振荡和聚类划分过细的问题。本文在解决AP算法缺陷的基础上,将其应用于文本聚类。本文的主要内容如下:1.在对文本预处理相关技术详细研究的基础上,针对词袋子模型在文本语义表达上的不足,提出将基于神经网络的word2vec词向量模型和词频逆文档频率(Term Frequency Inverse Document Frequency, TFIDF)相结合进行文本表示的方案,并将此方案应用于本文的文本表示中。2.布谷鸟搜索算法(Cuckoo Search, CS)是一种简单高效的元启发式算法,针对CS算法使用固定步长因子和发现概率导致算法易陷入局部最优解的不足,本文将当前最佳解信息和高斯扰动引入CS算法中,提出一种改进的CS算法,接着将其与AP算法相结合,提出一种基于改进CS算法的AP 算法(Affinity propagation based on Cuckoo Search, CSAP)算法。3. Spark是一个基于内存模型的MapReduce实现,与Hadoop平台相比,Spark提供大量友好的编程接口而不用过多的关注Map和Reduce函数的编写;Spark基于内存模型,中间结果存储在内存中,运行效率高,更适合迭代性算法。本文基于Spark平台,提出CSAP算法的并行化方案,并取得不错的加速比。
其他文献
随着科学技术的飞速发展,科技水平己成为世界舞台上综合国力强弱的决定性因素。为适应社会的需要,培养时代所需求的人才,学校需要承担培养学生科技素养的重担,科技课程借此契机得以发展。在应试教育影响下,国内科技课程的开发程度有限,尤其对于非发达地区、非重点的学校而言,往往还限制于硬件设施与师资力量,因此,尝试利用有限的硬件设施在城乡结合部学校开发科技校本课程,以提升学生的科技素养,并为同类型的学校开设科技
为接轨国际审计准则,向审计报告使用者提供更多信息,我国财政部于2016年印发12项新的中国注册会计师审计准则,其中《中国注册会计师审计准则第1504号——在审计报告中沟通关键审计事项》,要求在审计报告中增加关键审计事项部分,披露审计工作的重难点、归于关键审计事项的原因及审计人员的应对过程等内容,从而提升审计报告的沟通效果与决策质量。关键审计事项准则自2016年试点执行以来,得到了较好的贯彻,并取得
目的本文旨在评价利用流式细胞术分析骨髓增生异常综合征患者骨髓单核细胞免疫表型的变化,明确单核细胞表面抗原表达对低危MDS与其他骨髓衰竭性疾病鉴别诊断是否有临床提示意义,进一步探索单核细胞免疫表型改变与MDS患者IPSS-R积分及预后相关性,拟探讨单核细胞免疫表型检测是否能对MDS的鉴别诊断和预后评估带来参考价值。方法本研究纳入2017年11月至2019年11月天津医科大学总医院血液内科新诊断的MD
在经典计算科学中,隐马尔科夫模型被广泛的应用于语音识别、生物序列分析等领域。2011年,A.Monras首次提出了隐式的量子马尔科夫模型的概念,相比于经典的隐马尔科夫模型,隐式
在应急成品粮调度系统中,应急车辆与指挥平台系统之间的双向实时通信功能起到关键作用。目前,最常用的实时Web通信技术方案是基于HTTP协议的Ajax的长轮询。但是由于HTTP协议
作为一种半导体材料,氧化锌的两个最主要特征:直接宽禁带和高激子束缚能。这些特性使氧化锌广泛应用于光电器件、太阳能电池等等。高功率脉冲磁控溅射等离子体具有密度高、电
位置服务已经成为人们日常生活中不可或缺的一项基本服务,然而在室内环境下,目前仍然没有成熟的定位方案。因此室内定位技术的研究吸引了大量的学者,其中WLAN由于其部署广泛
NDN是一个以内容为中心的网络,其设计之初是解决网络现有IP网络在应用层和网络层关注点不匹配的问题。现在的应用层大多关注的是内容本身,而网络层关注的是内容在哪里。NDN的
共同饮酒活动在社会交往活动中非常普遍,人们通常借共同饮酒的场合维持及联络感情。同饮者这个概念并非指所有参与饮酒活动或与之相关的人,在研究共同饮酒引发的侵权责任时仅指在饮酒活动中需要承担责任的相关主体。同饮者,顾名思义即一起饮酒的人,人数往往是两人或两人以上,但是在司法实践中“同饮者”往往以各种形式出现。因此,本文研究的“同饮者”仅指狭义上的同饮者,也就是同桌一起饮酒的人,而非广义上在饮酒活动中形成
随着无线网络的不断发展,无线通信已经成为人们生活不可或缺的一部分。无线能量收集技术作为一种新型的能量供应技术,一定程度上保证了网络节点永不断电,确保了稳定的通信拓