基于Hadoop的局部支持向量机

来源 :第二届CCF大数据学术会议 | 被引量 : 0次 | 上传用户:yl19850320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网、云计算等技术的不断发展,产生的数据也以爆炸式的速度不断增长,如何在大数据中进行挖掘和分析成为了当前学术界研究的热点Hadoop分布式计算也因此逐渐成为了大数据挖掘和分析的主要技术支持向量机则是一种应用比较广泛的数据挖掘方法,局部支持向量机是在支持向量机的基础上引入局部学习算法的一种有效的分类算法但是,局部支持向量机需要为每个测试样本分别构造分类器,在大数据上进行分类的时间复杂度较高,分类效率比较低针对上述问题,结合Hadoop并行计算平台,提出了基于Hadoop的局部支持向量机算法本文对局部支持向量机进行了两方面的改进:第一是将计算测试样本的k近邻并行化,第二是将训练模型并行化通过测试实验,结果表明:基于Hadoop的局部支持向量机能够有效降低分类时间,且在分类精度上与局部支持向量机基本保持一致。
其他文献
本文通过采集杭州市区移动3G网络流量日志,首先采用空间点模式的分析方法研究了城市居民的聚集模式,居民移动的距离、方向等方面的特征,之后采用网格的方法对城市空间进行分
为进一步推进医疗保险改革,完善城镇居民基本医疗保险制度。2011年5月29日,北京市发布医保惠民新政《关于城镇居民基本医疗保险有关问题的通知》,明确从今年1月1日起,本市参
实体解析在数据库管理、信息检索中均有广泛应用,大数据时代的到来使得实体解析在海量数据的处理上面临新的挑战.为适应海量数据的实体解析工作,提出基于块依赖的并行实体解
会议
什么样标准的别墅是一个好的别墅?第一是地段,第二是自然环境。6月28日,由太原搜房网主办的以“太原别墅居住文化发展和产品创新”为主题的大话地产论坛在太原举行,盛高、得
大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现
会议
四川省科委于1998年4月28日在邮电部第五研究所主持召开了专家评审会,对我所“具有VS接口的数字用户环路传输系统”今报国家级新产品进行评审。评审会由省科委计划处李处长主
针对时空轨迹大数据广域网分布存储条件下的群体行为模式挖掘问题,本文基于MapReduce和ACO (Ant Colony Optimization)算法提出可在广域网环境分布并行增量执行的DPIA(Distri
会议
面对大数据大容量、高速率和多样性的特点,传统关系型数据库不再能满足处理海量非结构化数据的需求,越来越多的数据中心开始使用以NoSQL数据库为主,多个数据存储组件相互协同
在高速主干网络中,随着网络链路速率的不断提高和网络流数量的急速增加,同时受到硬件计算和存储资源的限制,如何及时、准确地在海量数据中,有效的检测出其中的大流信息,成为
会议
全球数据量爆炸式增长,单节点重复数据删除系统已不能满足性能需求,集群重复数据删除系统应运而生.如何提高数据传输效率、节约网络带宽和增强系统的可扩展性,成为当前面临的
会议