【摘 要】
:
分类是数据挖掘中非常重要的一类技术,其中的贝叶斯分类器是应用概率统计学知识进行分类的算法。一般来讲,同一个分类器针对不同的数据集,其分类精度会有着相当大的差异。这
论文部分内容阅读
分类是数据挖掘中非常重要的一类技术,其中的贝叶斯分类器是应用概率统计学知识进行分类的算法。一般来讲,同一个分类器针对不同的数据集,其分类精度会有着相当大的差异。这种差异部分地是由于数据集本身的质量所引起。数据质量的不同度量方式对不同分类算法所表现出的分类性能的差异可能是非常不同的。由于贝叶斯分类器原理清晰,易于分析以及高效性,故本文以贝叶斯分类器为基础,研究数据集的质量特征与评价方法。本文在充分而深入的对相关理论,包括分类技术,数据质量,遗传算法进行了说明和分析之后,介绍了Weka这一数据挖掘实验平台,重点分析了Weka下的数据过滤器的结构和使用,以及每个子类的功能和实现原理,并对如何实现一个过滤器进行了说明。然后,提出了采用最优保存简单遗传算法作为搜索方法,使用随机抽样分类测试作为适应性函数,也就是数据质量的定量化指标,来设计并实现实例选择的算法。同时使用UCI数据集在Weka平台上实现进行了实验。其中详细地介绍了实验的过程,并展示了不同参数设置下的结果,最后对结果进行比较和分析。上述研究表明,该抽样方法不仅可以在至少不降低分类器精度的前提下,大幅度的降低计算代价,而且对部分数据集还可以有效地提高分类器的分类精度。这就从实验上验证了数据集的质量可以以这种定量化的标准来衡量,并且这种标准可以用于数据挖掘中的数据采集和预处理工作,作为其启发性函数进行指导,对于降低数据集规模和提高分类精度具有重要的实际意义。
其他文献
协同GIS(Cooperatire GIS,CoGIS)是将CSCW结合到GIS中,支持一组或多组异地的用户,借助计算机及其网络技术,同时共同编辑、设计和决策基于地理信息的任务。协同GIS技术的实质
图像的超分辨率重建技术是图像处理领域一个非常重要的研究方向。随着空间信息技术的发展,三维地理信息系统(GIS)广泛应用的时机已经到来,三维表示正日益成为地球空间信息表达
性能分析与优化一直是计算机研究中的热点。程序中执行时间最长的通常就是很小部分的热点函数和热点指令。性能分析与优化的目的就是要发现程序热点,分析瓶颈原因,选择合适的
立体图像技术的最大特点就是能够再现真实场景中的立体感。随着互联网和多媒体技术的迅速发展,立体图像处理技术逐步应用到三维视频会议系统、远程工业控制、虚拟现实、远程教
随着互联网和信息技术的发展,数据库系统变得越来越复杂,其数据存储规模越来越庞大,管理数据库系统也变得越来越昂贵和繁琐。在传统方式下,主要是依靠系统管理员的手工调节。
肝癌是我国病死率最高的恶性肿瘤之一,现今治疗肝癌的有效手段只有手术切除治疗。但是因为肝脏血管结构的复杂性以及个体肝脏之间的差异性,肝脏手术通常具有非常高的风险性。从
随着信息技术的不断发展,数据库系统的应用日益普及,利用数据库系统实现数据共享,可以使人们的日常生活和工作更加方便、快捷,但同时也给非正当地获取数据库的数据信息提供了
随着计算机技术的发展以及应用需求的变化,操作系统的规模和复杂性不断增加。在进行操作系统设计时,不仅要考虑如何实现操作系统的功能,还要解决可维护性、可扩展性以及可移
时间序列是一类重要的数据类型,广泛存在于金融、事务处理和科学研究等领域中。时间序列挖掘通过对过去历史行为的客观记录分析,提取人们事先不知道的,但又是潜在有用的与时间属
随着Intenret的快速发展,特别是WWW的飞速发展,网上信息资源越来越丰富,网络已经成为了一个全球最大的分布式的信息库,为信息共享、资源共享提供了一个良好的平台,是人们获得