【摘 要】
:
连续属性的离散化一般是做为机器学习、数据挖掘的一项重要的预处理步骤,针对离散化问题,研究者们提出了诸多方法,例如早期的等宽等频算法及后来的利用遗传算法进行离散化等
论文部分内容阅读
连续属性的离散化一般是做为机器学习、数据挖掘的一项重要的预处理步骤,针对离散化问题,研究者们提出了诸多方法,例如早期的等宽等频算法及后来的利用遗传算法进行离散化等。根据离散化过程中是否应用了类别信息,把离散化算法分为监督的离散化算法和非监督的离散化算法。本文首先介绍了连续属性离散化的评价标准、几种经典的离散化方法及粗糙集的相关知识;其次着重介绍了NBC聚类算法的算法思想及及基本概念,并结合粗糙集理论,提出了一种基于NBC的离散化算法ADBNBC(Algorithm for Discretization of Continuous Attributes Based on NBC Clustering)。最后本文对不同的离散化方法进行实验比较和分析,通过比较实验说明了该算法的有效性。
其他文献
随着光通信技术的快速发展特别是密集波分复用技术的发展,单根光纤的传输能力已经达到了Tbps数量级。同时,音、视频等对网络服务质量要求较高的多媒体应用在网络中的比列也在
近年来有关图像中的特征识别技术已经日趋成熟,并且被广泛应用于图像检索、图像识别、物体跟踪等领域;而视频中的特征识别研究则刚刚起步,有关视频检索、视频解析、动作识别
当前,无论是整个社会的发展还是电子十所自身的改革与发展,都对该所人事和工资管理提出了更高、更新的要求。建立以信息技术支持的现代人事和工资管理系统,是建设好电子十所
针对MEMS设计与加工脱节的问题,本文对MEMS工艺验证进行了研究,旨在使MEMS设计者在在进行工艺仿真以及MEMS器件加工之前,先对版图和工序进行可加工性验证,如果版图或工序是不可加
“众包”的工作方式由来已久,并且日益盛行。通过“众包”的方式,雇主可以从人群中购买服务,整合人力来完成一个复杂的工作。近些年来,“众包”方式被广泛应用于互联网中,“
5.12汶川大地震,给我国的人民、经济、交通等带来了无法估计的损失。灾区多数的建筑物、公共设施、道路等已经完全毁掉,原来地图上的一些表征已经不足以表达目前的实际情况,
随着计算机计算能力的迅速增长,网格计算已经成为分布式计算的重要研究内容。目前,以网格为基础架构的e-Science协同环境下已经集成了大量的计算资源和数据资源,这些资源大多
近年来,P2P技术随互联网技术的发展而兴起,成为网络技术研究的热点。而基于P2P网络构建的存储系统,相比传统存储系统具有如下优势:不依赖中心节点、高容错、高扩展、高效率、低成
数据分类是一种重要的数据挖掘技术,常用的数据分类方法有决策树归纳分类、贝叶斯分类、神经网络分类和K最邻近分类等,采用的理论及算法有决策树(Decision Tree)、粗糙集(Rough
随着互联网的发展,Web不仅实现了全球的信息交换和资源共享,而且Web上的信息量也成指数级的增长。一方面,海量的Web信息为用户提供了获取信息的源泉;另一方面,如何高效的从海