Weka平台设计的研究和其数据预处理功能的改进

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:vbdelphi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Weka已经逐渐成为一个国际知名的数据挖掘平台,其免费开源、算法丰富、架构相对规范、兼容性好,因此吸引了越来越多的研究者参入其中。随着数据挖掘技术在海量信息处理中卓越的表现,数据挖掘系统的设计也会越来越有价值,但由于商业数据挖掘系统设计和代码的保密性,开源的Weka是一个不可多得的选择,就像Linux正在吸引更多的用户和内核研究者一样,Weka在数据挖掘界也将可能势不可挡。 本文分析了Weka的框架(architecture),剖析了Weka的各个包(package)的结构设计和功能,分析了weka的内核文件。还就Weka的来源、功能、使用、输入输出、可视化、二次开发、扩展领域进行了简要介绍,指出了Weka存在的主要问题,并对Weka数据预处理的增强提出了改进的措施。 另外由于Weka系统包含了林林总总的功能和算法,数据挖掘算法本身又十分复杂,使Weka十分“庞大”,Weka系统的最新版本3-5-2源代码约30万行,800个java源文件。将Weka的部分内核分离出来,也是一件十分有意义的事情,本文就分类算法,将Weka做了最小精简瘦身,完整的NaviesBayes分类算法仅需31个Weka中的源文件。 Weka作为一个松散耦合(或者不耦合)的数据挖掘系统[1],由于不能使用DB/DW(数据库/数据仓库)系统的功能,在数据预准备阶段要花大量的时间查找、收集、清理和转换数据。不与这些系统耦合,DM(数据挖掘)就很难将这种系统集成到信息处理环境中。但在数据挖掘过程中,普遍认为数据预处理约占据整个过程60%-80%的时间。提高数据预处理的智能性就显得尤为重要。本文最后结合Weka平台、JDBCWrapper,就Weka和数据库的耦合性,智能的数据预处理进行了分析和设计。 本文对那些运用Weka做DM相关算法以及对那些从事数据挖掘系统设计的人都有很好的借鉴意义。
其他文献
近年来,随着电子商务、社交网络以及数字城市等互联网应用的大规模发展,互联网数据正在急剧膨胀,目前企业在做出重要决策时都需通过有效的数据分析,比如通过分析用户数据得出用户
随着计算机图形学的飞速发展,呈现在人们面前的三维世界越来越逼真,然而技术的进步带来的不仅仅是漂亮的画面,物理模拟给人们带来的是真实的感受。物理模拟在影视制作、计算
由于具有成本低、部署简便和维护容易的特点,无线局域网近几年发展迅速。同时,现代移动通信技术支持多媒体实时应用。因此在无线局域网中,人们期待使用移动设备获得好的多媒
作为下一代互联网的主要协议,IPv6受到越来越多的关注。国内CERNET2 IPv6主干网的开通,更将IPv6的发展推至一个崭新的阶段。但从IPv4完全过渡到IPv6仍需要相当长的时间,在这
随着网络门户技术的飞速发展,用户在门户中使用的应用系统越来越多,而每个应用系统往往都有自己的一套用户认证和授权方法,为了对用户进行统一的认证管理和授权,所以有必要将
中西太平洋海域(WCPO,WesternandCentralPacificOcean)是金枪鱼围网渔业最主要的渔区。在围网作业中,寻鱼是最重要的步骤。目前,围网生产渔船搜索鱼群除了靠目视侦察、以直升机
本文对基于块结构的矩形件两阶段优化排样进行了研究。文章根据条带剪切排样的特点,提出了应用匀质块两阶段排样方式。本研究采用动态规划算法确定了最优匀质块;通过求解由匀质
图像分割是图像处理的重点和难点之一,至今仍然没有一个通用且有效的图像分割算法能满足各种不同的需要,这也正是图像分割算法的研究价值所在。在医学图像处理中,虽然模糊C-
在汽车工业领域,汽车电子产品在整车价值中占据越来越重要的地位,而汽车电子软件的开发过程也成为汽车工业的核心技术问题。本论文将针对这一领域,探讨如何利用基于模型的方
互联网技术的飞速发展,带来了数据量的爆炸性增长,传统技术在处理这些数据时不可避免地遇到各种问题,例如对于海量的数据进行管理的困难,数据量越大存储的成本越高,而且数据