基于云平台的文本特征选择算法研究

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:magicglf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近来伴随互联网信息技术和产业链迅猛发展,各行业数据规模均呈现指数级增长,尤其以电商和社交网络为服务内容的企业数据中心。尽管数据量规模巨大,方便基本事务都有迹可循,但数据结构混乱,大规模数据没有合理得被分门归类,导致隐含的价值无法被提取,因而容易陷入面对茫茫数据而无计可施的困境。怎么从庞大文本数据集中获取有价值的信息,已经成为研究人员探索的热点。以机器学习、数据挖掘和自然语言处理为基础的文本分类可以把不规则的数据根据给定的算法分门归类,其作为核心技术,能够从海量文本数据集中获取所需信息。经分析调研,文本分类不同的阶段对最终文本分类的效果有着不同程度的影响,尤其是特征选择环节更是起着决定性的作用,同时特征选择也能够有效一定程度上解决高维稀疏引发的高计算复杂度和低分类精度问题。所以,本文以特征选择展开研究,针对经典文本特征选择算法没有对类内文档特征词频度、类间集中度、类内分散度的综合衡量,提出了基于卡方统计(CHI)和互信息(MI)的改进型组合特征选择算法CHMI,并在公开中文语料库上和经典文本特征选择算法做了对比,验证了CHMI较经典算法在分类效果上有所提高。虽然本文提出的CHMI算法在文本分类效果上较经典特征选择算法具有一定的优势,但是面对庞大的数据集,该算法还是无法解决自身算法复杂度高而引发的时间消耗和空间消耗大的问题。因此本文将CHMI算法和Hadoop云平台下的MapReduce模型相结合,提出了基于云平台的文本特征选择算法MRCHMI,实验验证了该算法在不影响分类效果的前提下,较单机环境特征选择执行时间有效提升。
其他文献
社交网络及生物网络等许多领域的数据都可建模成边带有存在概率的不确定图。不确定图上的查询与挖掘问题具有广泛应用。目前,不确定图数据查询与挖掘问题面临很多挑战,其中最
随着信息化的不断发展和网络资源的日益膨胀,人们对于资源获取的方式,包括准确性、多样性、便利性等要求也越来越高。在这种背景下,传统搜索引擎,如Google、Yahoo、百度等,虽然得
海洋是一个巨大的资源宝库,是人类可持续发展的财富。海洋的开发和利用一直以来都是人们研究的重点,在这个占据了全球70%表面的水域里,蕴含着极其丰富的资源。无线传感器网络
随着科学技术的发展,高清多视点自由自立体电视也已经逐渐成为研究热点,它具有不需要佩戴眼镜及辅助装置就可以感觉到立体效果,高分辨率等优点,可以广泛地应用在用包括立体视
随着信息技术的飞速发展,计算机软件系统的应用逐渐扩展到了社会的各个领域。软件规模和复杂度在不断增加,软件出现错误的可能性也随之增加。如何保证软件的质量、提高软件的
神经网络一直以来是实现分类器的重要方法之一.在多年的研究中,不同年代出现了几种有代表性的网络学习算法:如60年代的Widrow-Hoff神经网络学习算法;70年代的BP神经网络学习算法
视觉目标跟踪技术是计算机视觉领域中一个基础且重要的研究方向,在视频监控、自动驾驶、智慧交通、军事目标定位等诸多领域具有重大的研究意义和实际应用价值。基于跟踪任务
本文在分析高校就业管理业务的特点和发展趋势基础之上,将操作数据存储和OLAP技术应用到了高校就业管理与决策分析领域。通过对学生就业方面的各类数据从多个方面进行分析,找出
以并行计算为基础的高性能计算科学当前已经成为科学研究的第三大支柱。使用并行计算的首要因为是高性能高效率,而并行程序的首要条件是正确性。以往的设计和分析工具都只关
学位
语义Web服务自动组合技术是Web服务领域的研究重点和热点之一,这项技术的发展对网络中各种异构和分散的系统进行集成和交互具有重要意义和巨大的推动作用。本文将着重对此进