【摘 要】
:
科技的飞速发展,需要处理的信息量迅速增加,迫切需要一种能从大量科学数据中发现有价值知识的有效方法。知识发现是研究如何从大量的、模糊的、随机的数据中,提取隐含在其中
论文部分内容阅读
科技的飞速发展,需要处理的信息量迅速增加,迫切需要一种能从大量科学数据中发现有价值知识的有效方法。知识发现是研究如何从大量的、模糊的、随机的数据中,提取隐含在其中的信息。Rough Set是由波兰学者Plawlak.Z在1982年提出的应用于不确定知识领域数据挖掘的一个数学工具。基于Rough Set的属性约简是知识发现的重要内容,也是一个NP-hard问题。总结了基于Rough Set的一些属性约简算法,并且详细分析了算法的时间复杂度和空间复杂度。在此基础之上,分析了其中最常用的面向支持度的属性约简算法MSA (Maximum Support Algorithm)。它的局限性在于选择了偏好特征。选择了重要规则集中具有最高支持度的特征而不是所有潜在规则中具有最高质量的特征。换句话说,它仅考虑了潜在规则的局部最佳而没有考虑全局最佳。训练集可能属于许多分类。MSA偏好于某一个分类。它将产生一些系列带有偏差分布式支持度的规则。更进一步,MSA算法有时对两个具有相同大小的正域和多数重要规则的支持度丧失判断能力。基于上述讨论,提出了一种基于Rough Set的启发式算法IMSA (Improved Maximum Support Algorithm)来克服上述缺点,且重新定义了启发函数。最后,开发了一个简易的属性约简的实验系统RSS,在属性约简算法方面,实现了MSA算法和本文提出的算法;在单个功能方面,实现了分类和近似集等重要概念的求取。利用本系统进行实验分析,得出本文提出的算法在性能方面有了较大提高。
其他文献
本文结合西北工业大学航空微电子中心所承担的“十五”国防预研项目:项目编号:41308010108,在该项目当中,作者负责高性能嵌入式微处理器“龙腾R2”的定点主控部件的设计和验
自动图像标注技术主要是根据图像的底层视觉特征来分析其高层语义信息,并用一个或多个语义标注词来描述图像的语义内容。由于多示例多标记学习从内容表示和概念标记上同时考察
Internet蠕虫以其快速、多样化的传播方式不断给网络世界带来灾害。与传统的主机病毒相比,Internet蠕虫具有更强的繁殖能力和破坏能力。因此,对Internet蠕虫的传播进行有效的
多核集群并行系统以强大的并行计算能力和良好的扩展性成为一种重要的并行计算平台,它为各类应用提供了并行计算能力的同时也将如何利用底层系统资源等问题暴露给了编程人员,编
网格技术的产生是为了适应当前计算资源、计算能力不断增长的需求,它的最终目标是实现网络虚拟环境上的资源共享和协同工作。数据网格的研究则是网格技术研究中的一个重要内
随着信息技术的飞速发展,数据存储容量需求急剧增长,磁盘阵列技术应运而生。虽然磁盘阵列利用多个磁盘并行存取提高了存储系统的性能,但是磁盘阵列在操作系统的引导、Cache和
近几年来,随着我国通信技术的迅速发展,电信网络的规模不断扩大,网络设备的种类和数量不断地增加,整个网络的复杂性也随之日益提高。随着网络的快速发展和业务质量要求的不断提高
随着山东省立医院信息化建设的进行,医院信息管理系统作为医院要信息化办公软件也在不断完善。作为医院中的重要枢纽—药房,可以说是整个医院的心脏,负责处理来自门诊,住院所有就
视频监控可以使人们通过网络监控远端现场发生的事情,这种系统在工业生产和社会生活的各个领域得到了广泛的应用。而采用无线网络传输的视频监控的应用范围则更为广阔,因为这
中间件系统、操作系统和数据库系统是计算机科学领域内的基础技术,很多应用系统都使用到了中间件系统或者中间件系统的概念。消息中间件是中间件技术的发展热点,它作为一个消