论文部分内容阅读
如今,随着互联网的飞速发展,我们能得到的数据越来越复杂,越来越多的冗余数据,从而,对属性做约简是十分必要的,通过对属性的约简进行研究能在我们对庞大的数据进行处理上起到很好的指导作用。本文主要就是从三个不同的角度来对属性约简进行研究。首先,在粗糙集理论中对属性的约简进行研究是一个十分重要的研究课题。在大量的信息面前,只有部分信息是对实际问题起到决定性作用的,而有一部分信息是可以直接删掉,删除掉冗余的信息,就更方便找到起决定性作用的属性。最经典、最传统的属性约简算法是Pawlak约简算法。在粗糙集理论中是通过引进近似精度()Rd X来处理系统的不确定性,然而传统的精度不能很好的区分划分颗粒的精细程度。本文首先通过刻划划分细度,即考虑到划分颗粒占上近似的比例,以这个比例和粗糙度的乘积来修正传统的近似精度,从而能确保在知识划分更精细时,精度更大。与此同时把新定义的精度应用到属性约简上,并且通过实例证明基于精度的属性约简一定是传统的Pawlak约简。其次,三角范数有着许多优良的性质,例如交换律,结合律以及单调性。因此从该方向考虑提出的属性约简应该也具有很多优良的性质。本文首先通过构造一个T-范数,通过此T-范数来刻划两个集合之间的相似度,再把此相似度引申到度量等价类之间的相似度。通过实例验证了此方法的有效性。此方法是本文中一种创新的方法。最后,提出了一个处理连续性数据的思路。在处理连续性数据时,首先通过证据理论知识把连续数据离散化,再运用粗糙集中的知识对离散数据进行属性约简,最后联立粗糙集中属性重要度的概念以及证据理论的知识对连续值问题作出决策。Rough集和证据理论的有效结合,能更客观、更科学的处理数据,从而能有效的找到最重要的属性,在处理连续性数据时能起到非常好的效果。