基于基因表达式程序设计的代价敏感分类算法研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:zhb_lzh_X
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规则挖掘、聚类规则挖掘为主要形式的,以数据库技术、统计学、人工智能、可视化技术和信息技术为主要工具的多学科交叉的应用技术。从最初的商业应用逐渐扩展到医疗、金融、生物、电信、军事、体育等诸多领域。数据挖掘成为越来越多的科学家、研究人员、工程应用人员、商人、医生所关注的对象。 分类规则作为数据挖掘的一个重要分支,在过去的十多年中引起很多来自不同领域的学者的注意,学者们提出了以信息论为基础的决策树算法、以概率论为基础的贝叶斯分类方法,以神经科学为基础的神经网络方法等等。但在很多实践情况中,准确率不能反映真实的分类效果。如,在工业生产中,机器出现故障的可能性是很小的,但如果不能正确地判断一个潜在的故障,将会导致一系列的损失,相比较而言,相反的误判则损失会小得多,因而以最终的损失作为衡量目标更有现实意义。类似的问题还出现在医疗诊断,机器人技术,机器故障诊断以及很多其它领域中。因此在处理带有误分类代价的数据集时,单纯的以分类精度作为分类器的评估标准就变得不合适了。一种合理的解决方法是以敏感代价的分类CSC(cost-semitive classification,CSC)取代敏感精度的分类。 演化计算模拟自然演化的特点,借鉴达尔文的物竞天择、优胜劣汰、适者生存的自然选择和自然遗传的机理,采用高效并行全局搜索方法,在许多领域取得了良好的效果,从而确立了它在21世纪的智能计算技术中的重要地位。演化计算中最重要的分支是遗传算法。遗传程序设计是遗传算法的一个变体。遗传算法和遗传程序设计两种技术虽然都遵循自然界优胜劣汰的基本原理,但是它们最初在工程应用领域具有不同的功能:遗传算法主要用于函数优化,而遗传程序设计则主要用于建模。以遗传算法和遗传程序设计为代表的演化计算在工程应用等优化问题中与传统的数学方法相比,表现出非常明显的优势。虽然很多者认为演化计算只是优化和搜索算法,但是它在数据挖掘领域的良好效果已经使其成为数据挖掘中不可或缺的一个重要工具。 基因表达式编程是Ferreira发明的一种新的遗传算法。基因表达式编程结合了遗传算法和遗传程序设计的优点,并克服了它们的缺点,在数学建模方面取得了非常好的效果。正因为其具有良好的效果,基因表达式编程在并不漫长的时间里引起了演化计算领域的广泛关注。本文详细介绍了基因表达式编程的基本技术,分析了其具有较高效率的根本原因在于其编码方式所具有的独特优势。本文通过分析演化计算中的多种技术,特别是遗传算法和遗传程序设计的特点,充分证明了基因表达式编程具有更好的特性和更高的效率。 本文以基因表达式编程和代价敏感的分类器设计作为主要对象,研究基因表达式编程在代价敏感的分类器设计中的一些重要问题。本文在第一章介绍了论文的选题及其研究意义、选题的国内外研究现状、主要的研究内容。然后在第二章中概述了基因表达式编程技术,内容包括演化计算的起源、遗传算法和遗传程序设计的基本介绍,基因表达式编程的起源和基本算法、关键技术以及一个基本的GEP分类算法实现。第三章代价敏感分类以及演化的代价敏感分类首先对分类以及敏感代价学习的基本技术和定义作了简单的介绍,包括代价敏感学习的基本算法设计思路和一些现有的经典代价敏感分类算法。在本章的最后一节还详细介绍了一种基于遗传程序设计的演化代价敏感分类算法的实现。第四部分是一种朴素的基于基因表达式程序设计的代价敏感分类算法的介绍。本部分详细介绍了这一算法的设计方法,并通过实验结果说明了这一设计方式的效果以及与传统方法相比的优势与缺点。第五章通过分析第四章所描述算法的种种缺陷,提出了一种基于前一章工作的改进的基于GEP的代价敏感分类算法,通过试验论证了该算法的的有效性。在第六章,总结了论文的主要工作和后续工作。
其他文献
随着Internet的迅速发展,各种信息以指数级的速度增长,类型也越来越多。如何有效地解决信息过载和信息迷失带来的种种问题,如何满足各种用户不同的个性化需求等,是研究人员面临的
在生物信息领域,基于多种相互作用检测方法,产生了大规模蛋白质相互作用数据;随着下一代测序技术的快速发展,产生了大量的DNA序列数据;由于蛋白质定量精度的提高,现代质谱仪器产
分析师常常通过数据探索理解数据内在规律和模式,验证猜想和理论。传统的数据探索常常通过试错的方式来对数据中的规则进行逐个验证,这在小的数据集上尚且可行,但随着大量的商业
随着城市数字化的发展,在现代化管理中,对优化城市的布局结构、城市基础设施、生态环境等城市地质调查工作提出了更高的要求。又因地质资料包含的信息量的巨大,借助地理信息系统
访问控制是信息安全的重要组成部分,在开放式信息系统中,访问控制是保证信息系统安全的一项重要措施;病毒、木马在互联网环境下对终端计算机系统造成的危害越来越严重。一个重要
电子表格是当前广泛使用的终端用户开发工具,并广泛应用于数据记录、金融、教育等多个领域。电子表格中的数据与公式都具有一定的计算语义,当电子表格中的数据或公式未能反映终
本文对单处理器下非周期实时任务调度进行研究。单处理器系统具有结构简单、开销低廉的特点,应用十分广泛。研究单处理器实时系统调度方法,不仅能够丰富实时系统理论,还对实时系
近年来,企业与企业之间的竞争已经逐渐转向供应链与供应链之间的竞争,而在供应链管理环境下,库存管理对于供应链的成本和服务水平都有着非常重要的影响,为了解决传统库存管理的弊
随着计算机、多媒体以及通讯技术的飞速发展,相当数量的文字信息正越来越多地以图像形式出现。图像中的文本是图像内容的一个重要来源,如果这些文本能自动地被检测、分割、识别
在信息技术飞速发展的今天,计算机已成为人们工作和生活不可或缺的重要工具。而计算机软件是计算机的应用核心,是用户利用和掌握计算机的有力武器,因此软件的质量不可避免会成为