分布式环境下基于文本的海量数据挖掘

被引量 : 0次 | 上传用户:tuantuan731
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘一直以来都是计算机领域的一个研究热点。近年来,随着Web2.0应用的普及和云计算的发展,互联网已经进入了大数据时代,数据的产生、传输、存储、访问和处理方式产生了明显的变化。传统的数据挖掘方法在数据源异构、数据规模急剧膨胀的大数据时代,正面临严峻的挑战。本文提出了一套完整的分布式环境下基于文本的数据挖掘方法,实现了海量文本数据从数据抽取、预处理、搭建数据仓库到数据挖掘的全过程,并将该方法应用于解决微博用户推荐问题进行验证,取得良好效果。广义的数据挖掘工作通常包含两个部分,搭建数据仓库和进行数据挖掘。数据挖掘的对象通常是来自多个异构数据源的大规模数据,从数据一致性、访问效率等因素考虑,需要有一个统一的管理系统对数据进行集成、维护,即数据仓库。数据仓库的搭建包含了数据的抽取、转换和加载,即ETL过程。传统的数据仓库设计是基于RDBMS设计思想的,需要整合所有数据源的数据类型和数据结构,设计一个统一的模式(Schema),包括表结构和外键等。这样做的优势在于可以保证数据的ACID性质。但是在大数据背景下,数据源复杂,异构性强、数据规模扩展迅速,从而对基于RDBMS数据仓库的可扩展性、灵活性以及效率提出了新的挑战。在完成数据仓库搭建的基础上,传统的数据挖掘已经形成了一整套较为成熟的算法体系,典型的算法包括分类、聚类、关联、预测等,此外还与其他学科交叉产生了包括机器学习、神经网络等技术。这些数据挖掘技术应用场景具备一些鲜明的特点:数据一次写入,频繁读,运算密集,而数据更新操作较少。针对这些特点,基于RDBMS设计方法保证的ACID性质的优势不仅得不到充分体现,反而成为了性能上的制约。针对以上问题,本文提出了一套分布式环境下,基于文本的数据仓库搭建与数据挖掘的方案。首先,在数据仓库搭建方面,本文提出一种在分布式环境下快速搭建数据仓库的方法,利用MapReduce完成整个ETL过程;同时摒弃了RDBMS而使用NoSQL数据库集群作为数据仓库的基础,从而保证了系统的可扩展性和运行效率。其次,借鉴搜索引擎的思想,提出一种MongoDB+Lucene+MapReduce的针对文本数据的数据挖掘解决方案,通过并行访问,提高对分布式环境下海量文本数据的访问效率;采用计算TFIDF值评估文本信息量,而非传统的词法、语法分析。最后,应用这一整套方法,解决了一个具有Web2.0特征的数据挖掘问题:微博的用户推荐问题,从而验证了这一方法的可行性,并取得良好效果。
其他文献
高校教学评价在当前的高校教育中有较大的发展,但是在发展的过程中还存在着一些问题,导致现在的高校教育评价的发展受到了一定的限制。本文主要是分析高校教学评价系统的问题
纺织业作为我国的传统优势行业,在国民经济发展中占据着重要地位,而且纺织产品也是人们日常用品中不可或缺的一部分。众所周知,我国是世界纺织品生产大国,也是纺织品出口大国。然
目的探讨使用氯化钾氯化钠注射液与抗生素联合静脉滴注用于预防老年人药源性低钾血症可行性,为老年人药源性低钾血症防治提供依据。方法试验组50例患者,使用氯化钾氯化钠注射
凤凰山隧道在距进口210~250 m处与沟壑平交,导致洞身21 m浅埋有17 m拱顶外露,因明挖施工存在诸多困难故采用暗挖。通过方案比选,采用在隧道两侧先施作多根锚固桩,桩顶现筑钢筋
人类社会历经多年的高速发展,使人类与地球所蕴含资源之间的矛盾愈发尖锐。作为人类生产生活的主要场所,陆地资源稀缺,此现象在我国人多地少的沿海区域尤为突出。面向海洋攫取陆
目的了解2005—2016年甘肃省急性乙型肝炎(乙肝)发病趋势和分布特征,为评价乙肝免疫策略效果和制订防控措施提供建议。方法从中国疾病预防控制信息系统中获取甘肃省2005—201
线是构成中国画的主要语言形式,同时也是构成中国山水画的主要语言形式。中国山水画从魏晋南北朝时期的兴起到唐朝的独立,再到宋代的鼎盛,明清的衰落。从传统山水画的发展脉络中
城市交通系统是一个典型的复杂巨系统,交通拥堵等一系列问题成为亟待解决的世界性难题。通过智能交通系统实现科学的交通流管理和控制是解决该问题的最有效、低成本的方法。而
随着大型汽轮发电机设计容量的不断增大,其电磁参数也不断提高,发电机内部损耗也随之增加。因此,需针对发电机各部件的温升情况进行详细计算,将温升限制在一定范围内,从而确保发电
多胺是一类带正电荷的烷基类小分子化合物,广泛参与胚胎发育、细胞增殖和分化以及细胞凋亡等重要的生理过程。精胺氧化酶(spermine oxidase,SMO)是一种参与多胺降解代谢的多