达梦数据分类器的研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:TDH39520007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据预处理包含相关性分析、数据清理和数据归约三个子模块.相关性分析子模块通过计算类别属性和非类别属性问的相关性,剔除与分类任务无关或关系不密切的属性;数据清理子模块重点实现空缺值处理、噪声数据清除和不一致数据清理三种功能,保证了分类工作不会受到数据质量的影响;数据归约子模块运用概念分层技术,将较低层的数值概念转换成较高层的集合概念,使得概化后的数据更有意义,更易理解,计算所需的工作量更小.分类学习模块是DMDBClassifer的核心模块.我们在综合分析比较了各种主流分类方法的基础上,选择了综合性能较好的决策树分类方法,并重点针对处理连续型属性的问题,对SPRINT算法进行了改进,提出了SPRINT_ PLUS算法.它通过区间划分、评估、筛选和局部逐一搜索等策略,克服了SPRINT算法中处理连续型属性计算量过大的缺点,使得计算量减小,可扩展性比SPRINT算法得到增强,效率得到了提高.评估模块采用了较为常用的10-折交叉确认方法,保证了评估结果的误差不会过大.
其他文献
学位
光盘存储技术以其容量大、寿命长、盘片可更换、成本低、复制速度快等优点近年来已得到了飞速的发展.不仅光盘种类繁多,容量越来越大,而且光盘驱动器存取速度也越来越快.目前
在分析了视频服务器的存储I/O子系统和系统管理子系统的关键技术基础上,深入研究了能够提高视频服务器性能的存储调度机制和管理控制策略,设计并实现了视频点播系统.对当前视
数据仓库系统是基于分析型数据环境的高级辅助决策工具.聚集体现了数据仓库集成性的重要特征,提供了一种便于使用、快速而且响应时间一致的多维数据集合,为OLAP以及其它应用
模糊理论在人工智能中有着重要的运用.人工智能要研究的一个重要的课题就是对不精确、不完整、不确定的信息加以有效处理.由于人们对人类思维中处理模糊性问题的规律还未能有
论文首先介绍了智能网以及移动智能网的相关背景知识;然后介绍了J2EE技术.从被监控的系统进程的角度分析了移动智能网SCP综合监控系统的功能.然后从分散性和实现方式两方面分
全景地图信息系统主要研究内容有:全景图的建模;全景与地图的同步互动模型;全景浏览的研究与开发;地图浏览器的研究与开发;全景地图数据库研究开发;全景地图制作平台研究开发
如今随着科技的进步,人们的生活节奏越来越快,快节奏的生活方式也给人们带来了更多的压力。长期压力的积累使人们的机体免疫系统下降,疾病的发生率增加,导致许多人出现过度紧张、
基于频率统计滤波器的分形图像编码算法综合运用多种图像压缩相关技术,将四叉树划分、离散余弦变换、频率统计滤波等方法融合到分形压缩中.利用频率域等积变换间的相关性将其
基于聚类和分类的知识获取方法具有很好的知识进化和知识纠错能力.聚类就是在未知分类规则的情况下对样本集进行分群,分类就是在特征空间中用已知的规则对样本进行判别或者预