基于样本相关性的粗糙集方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:ankailvyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的高速发展,我国正逐步进入信息大爆炸的网络信息时代,其随之产生的海量数据中往往包含大量存在不确定性及不完整性的信息。粗糙集理论是一种有效的处理模糊、不确定知识及不一致数据的数学工具,其在数据挖掘、知识发现等方面均有着重要作用。作为粗糙集模型中的基础和关键研究点,样本间关系描述及不确定性度量在包含不确定信息的数据处理过程中有着重要意义。本文通过对样本和类簇关系的定量分析,提出了一种基于相关性度量方法,并将其应用到属性约简和三支聚类中,其主要内容如下:第一,基于样本相关性的属性约简方法。目前,大多数的属性约简都是在不可分辨关系或等价关系计算的基础上提出的,其表现性能的好坏均取决于样本等价类与其所属决策类间关系的变化。然而,这些关系的变化却不足以描述约简前后信息系统分类能力的变化,而这种分类能力却是影响信息系统表现性能的决定性因素。因此,本文提出了一种改进的属性约简方法。首先,引入了样本相关性来描述样本间的定量关系,并基于该相关性定义了类内样本相关性和类间相关性两个概念。之后,基于对分类特性的研究,本文通过整合上述两个概念提出了一个以寻找最大化类内样本相关性和最小化类间相关性的最小属性子集的约简准则,并结合启发式搜索方法设计了相关约简算法以求解约简。最后,通过多组对比实验对本文所提出的属性约简在提高或维持分类性能方面的有效性进行了验证。第二,基于样本相关性的自动三支聚类方法。在传统的聚类方法和三支决策理论中,人们通常根据主观调优来选择合适的聚类类簇数目以及三支分区阈值。然而,这种固定的类簇数目和分区阈值无法针对不同大小及密度的数据集、类簇进行调整,无法随着数据集及类簇的不同选择合适的类簇数目及分区阈值。针对上述问题,本文提出了一种改进的三支聚类方法。首先,通过样本相关性和三支阈值的引入定义了等价关系等相关计算,并给出了粗糙集模型中粗糙度的计算定义,通过对粗糙度和三支决策理论的性质分析定义了度量不同分区阈值下类簇分区表现性能的有效性度量指标。接着,基于相关性概念定义了类内样本相关性和类间样本相关性两个概念以描述样本及类簇间关系的定量变化,并通过上述两个概念的整合定义了度量不同类簇数目下聚类表现性能的有效性度量指标。最后,通过聚类有效性指标和分区有效性指标的集成定义了一种基于样本相关性的自动三支聚类方法,并通过多组对比实验验证了该方法的有效性。
其他文献
采空区煤炭自然发火是矿井煤炭开采过程中经常发生的灾害之一,不仅严重威胁井下工作人员的生命安全,同时也造成了严重的资源浪费和财产损失。对煤自燃的发生发展过程的研究对
蒸汽发生器作为钠冷快堆二回路钠与三回路水的热交换器,是快堆核岛中的重要设备。热工水力特性作为其结构力学、材料、水化学等分析的基础,是蒸汽发生器最重要的研究内容之一
地处季节性冻土区的景电工程干渠由于建造年代久远、运行历时较长且无有效的防冻胀措施发生了强烈的冻融及渗漏破坏,造成了渠道输水效率低下,运行状态堪忧。开展景电干渠的典
安吉拉·卡特(1942-1992)是非常具有影响力的英国女性作家,她因独特新奇的写作风格和女性思想而闻名中外。卡特的第七部小说《新夏娃的激情》主要讲述了男性伊夫林被迫变性成
圆柱壳体振动陀螺是近年发展起来的一种新型金属振动陀螺,由于其具有结构简单、制造成本低、精度高等特点,在航空航天、武器装备等领域具有广泛的应用前景。圆柱壳体振动陀螺
金属铍以优异的物理性质在精度要求极高的惯性领域仪表级结构材料中占有重要地位。本文以国产牌号铍材Be-1为研究对象,采用透射电镜微观组织观察与第一性原理模拟计算相结合
面对干扰事件的发生,班轮公司需要采取干扰恢复计划来减少干扰事件对班轮运输网络产生的影响。干扰恢复计划除了对船期进行恢复外,还应考虑到对集装箱流的恢复。目前,班轮公
近年来,标记多义性学习是机器学习和数据挖掘领域的一个热门主题。在传统的机器学习框架中,比较成熟的标记多义性学习范式是单标记学习和多标记学习。其中,单标记学习假设一
目的:探讨壳聚糖(CS)介导细胞因子反应调节蛋白A(CrmA)对软骨细胞IL-1β转化酶(ICE)和IL-1βmRNA和蛋白的表达作用。方法:体外培养兔关节软骨细胞,分别加入PBS、10μg/ml CS
马莱克·贝纳比,法国殖民背景下的阿尔及利亚哲学家,在其一生中致力于为阿拉伯世界寻找复兴的道路,其中文明的复兴包含了其对于阿拉伯世界发展过程中文化,意识形态,宗教,思想