基于云计算的文本挖掘算法研究

被引量 : 0次 | 上传用户:jieshoukode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本挖掘就是从非结构化的文本数据中获取用户关心和有价值的信息的过程。作为数据挖掘中一个重要的研究方向,文本挖掘已经被广泛地应用到搜索、分类、推荐系统、舆情和观点挖掘等多个领域。随着互联网上信息爆炸式的增长,海量数据的处理成为了当今的热点也是难点,单一服务器在多数情况下已不能满足海量数据处理的需要,所以分布式计算是未来的发展趋势。而云计算又是分布式处理、并行计算以及网格计算的发展和延续,并发与分布是云计算的关键技术,海量数据处理和海量计算是云计算的优势。在文本挖掘领域中,同样面临着海量数据处理的问题,所以把云计算与文本挖掘结合起来处理海量文本数据是十分有意义的。本文正是以此为出发点,首先简单介绍了文本挖掘、云计算的相关概念和关键技术,对Hadoop云计算平台及MapReduce编程模式进行了详细说明,着重对中文分词、新词识别、最短距离算法进行描述并提出了此三种算法基于Hadoop平台的MapReduce解决方案。通过搭建Hadoop实验平台,编程实现三种改进算法,最后通过实验验证的方式分析了新算法的性能与优劣。最后本文设计、实现了一个基于云计算的文本挖掘算法的web原型系统,允许用户方便的体验和使用基于Hadoop平台的文本挖掘算法,同时也是对本文工作一个很好的展示。本文通过实验对比证明,将云计算与文本挖掘技术结合起来可以大幅提高文本挖掘算法的性能和处理能力,为今后的文本挖掘研究提供了新的思路。
其他文献
介绍了江西工业园区污水处理厂建设基本情况,对工业园区污水处理厂在运营中存在的问题和原因进行了分析,在此基础上探讨近几年来这些问题的对策,提出创新工业园区污水处理厂
为解决大规模定制模式下客户订单分离点后的动态供应链调度问题,提出了包括供应商选择及企业合作时序安排的优化调度模型,设计了基于蚁群算法的求解过程。通过多组数据实验及
以军事应用系统为主体的效能仿真,其仿真结果的真实性和可信度是用户最为关注的问题。仿真想定为军事应用系统的效能仿真供提了从真实世界到概念模型的转化方法和描述规范。
如何提高高等教育的教学质量,已经成为当前高等教育的工作重点。教学评价是提高教育教学质量的关键举措,因此制定科学、合理的高校教师教学质量评价体系显得尤为重要。教学评
信用评级机构在次贷危机中扮演“不光彩”的角色受到广泛批评。通常认为,没有信用评级,次贷证券不能成功地发行和销售。信用评级机构却出现评级模型失败、放松评级标准、故意
利用具有Keggin结构的HnXW12O40(n=3时,X=P;n=4时,X=Si)对工业碱木质素进行催化降解,采用紫外分光光度法和乙酰化结合电位滴定法测定了降解活化后碱木质素的酚羟基和总羟基含
紫山药也称"紫人参",具有很高的营养和药用价值。对我国在紫山药引种、高产栽培等方面的研究现状进行综述,为发展和推广紫山药种植提供理论依据。
本文立足考古资料,对明代诸侯王陵墓进行了初步的分期和分区,并将陵墓的形制分为“类屋式墓”、“类椁式墓”、土坑竖穴墓和上下双层楼阁式墓四类。其中“类屋式墓”又可分三
该文论述了共同沟在我国及国外其它地区的发展历史及发展现状,分析了共同沟在我国快速发展的制约因素及解决办法,指出了共同沟在我国的发展前景。
目的:建立社区糖尿病患者抑郁情绪的团体咨询模式;探讨团体咨询对社区糖尿病患者抑郁情绪干预效果。方法:采用随机抽样方法,用抑郁自评量表(SDS)对社区糖尿病患者进行调查,随机