机器学习算法的Weka嵌入

被引量 : 0次 | 上传用户:mengminyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今社会,数据无处不在,从海量的数据中找出有潜在应用价值的数据规律或数据模型,用人工的方式难以实现这个目标。随着技术的不断发展,越来越多的人选择使用机器学习从海量数据中提取有用信息。Weka作为一种可用于机器学习的工具,可供用户完成数据预处理,分类,回归,聚类,关联规则等机器学习任务。目前Weka中已经集成了大量的算法,而由于Weka的开源性,开发者就可以使用Java语言,利用Weka的架构,在Weka平台上开发出更多的机器学习算法。CRN算法是在目前所存在的算法有局限的情况下由华南理工大学计算机学院的王家兵老师及其合作者提出来的,是Classification by Rule-based Neighbors的缩写,它克服了其它算法在人工选择参数以及无关属性对算法结果的影响,利用待确定类的实例属性对实例集进行分类。由于CRN算法是在基于简单理论的基础上被提出来且该算法的表现较好,本次研究工作中决定将该算法嵌入到Weka工具中,可使Weka开源工具的算法集中多增加一个高效的算法,同时让更多的用户可以感受到该算法更好的准确性,让CRN算法得到更广泛的使用。本文首先对机器学习的概念进行了简单的介绍,其次介绍了Weka的使用方法和基本实现架构,在对CRN算法的实现流程和Weka中相关接口进行了详细说明的基础上,成功在Weka平台中嵌入了该算法。利用已有的数据集检查输出的显示结果,然后利用大量的数据集对算法的实现结果进行验证,并将结果与其它算法的结果进行比较分析。最后总结了本次研究过程中的主要工作及仍待解决的问题,同时指出了接下来可深入研究的方向及发展前景。
其他文献
目的:分别制备出包含有重组人骨形态发生蛋白-2(Recombinant Human bone morphogenetic Protein,BMP-2)、血管内皮生长因子(Vascular Endothelial Growth Factor,VEGF)以及两
无线传感器网络(WSNs)是由大量无线传感器节点组成,分布在一定区域内的各个节点之间通过无线通信链路以自组织的形式组成一个完整的网络系统,其主要功能是感知环境信息,信息经过
近年来,随着工业的发展,石油的需求量增大,导致石油开采过度,石油产量急速下降,针对这一问题油田采用了注水的增产方式,但在注水增产中导致污水含量越来越大,对环境造成严重
作者依据有关资料分析认为 ,当前假冒伪劣产品遍及全球 ,愈演愈列 ,呈逐步升级的趋势 ;文章从利润冲动、打假法制不健全 ,防伪技术难以到位和国际贸易自由化等因素着眼 ,对滋
超薄型钢结构防火涂料的耐候性是影响其防火性能的主要因素之一。研究结果表明,只有对防火涂料再进行保护才能延长防火时间。为此研制了超薄型钢结构防火涂料专用保护面漆,可
瑞吉酒店及度假村在中国的首家度假酒店,也是西藏第一家奢华酒店——拉萨瑞吉度假酒店于2010年11月15日隆重开业,酒店的建成使用,为西藏填补了没有高档次酒店的空白.在海拔高
茶多酚是茶树[Camellia sinensis(L.)O. Kuntze]中主要的次生代谢产物,其含量可达鲜叶和嫩茎干重的18%~36%,包括酚酸、黄酮醇、黄烷-3-醇(儿茶素)、黄酮、花青素和原花青素等。不同
与纯铝导体相比,铝合金导体具有更高强度,可通过成分、加工方式及热处理来调节导体的综合性能的特点。本文以6101铝合金为基础,在优化铸锭均匀化热处理制度和固溶制度的前提
采煤技术在煤矿中的应用十分重要,这关系到煤矿的开采效率能否满足煤矿的要求,使煤矿开采数量获得更多的经济效益。然而,在许多煤矿企业中,由于自身的管理和洞察问题能力不足
随着社会经济的发展、经济结构转型及新型城镇化的推进,土地需求量日益增多,而我国土地资源十分稀缺。我国土地所有权包括国家所有和集体所有两种形式。集体所有的土地必须经