论文部分内容阅读
互联网时代大规模复杂信息的涌现,带来处理(计算)复杂性的高度增加。大数据作为继云计算、物联网之后IT产业又一次重要的技术变革,正在驱动管理领域的新变革。粒计算是由美国控制论专家Zadeh提出的计算智能研究领域中解决复杂问题的新方法和有效工具,对大数据处理中面临的主要挑战有着十分积极的作用,特别是在降低数据规模方面,很多粒计算研究都认为使用信息粒可以实现数据压缩。信息系统(也称为知识表示系统)是粒计算研究中重要的数学模型之一,具有属性集和对象集两个维度,能够描述数据对象具有某些属性特征。当前对于信息粒的研究,主要集中于信息系统数据对象集的粒化、粒结构及其性质和应用等方面。本文以信息系统的属性集为研究对象,将粒计算理论与方法、关系数据库中的函数依赖理论、现代数学中的序、格理论结合起来,利用属性上的语义信息,对信息系统属性集的粒化、粒结构及其性质和应用做了研究,主要的工作和结论如下:(1)建立了基于集合论的信息系统属性集信息粒计算模型。提出了信息系统属性集信息粒的概念并给出了其语义解释,研究了属性集信息粒的基本性质及粒与粒之间的关系;利用属性集信息粒定义了信息系统属性粒结构及结构复杂度的概念,研究了属性粒结构的数量性质;证明了信息系统全部属性粒可以由其基本粒的交生成,利用这些基本粒可以实现信息系统结构的简化表示;研究了当属性或函数依赖变化时,信息系统结构的动态变化规律;从系统结构复杂度变化最小的角度定义一种新的属性约简,并给出相应的计算方法。(2)应用分治的思想实现了信息系统属性粒结构的有效计算。定义了信息系统结构的可分离性,给出了可分离性的充要条件,并证明了如果一个信息系统是可分离的,则该系统的粒结构可分解为该系统的子系统粒结构的笛卡尔乘积(分解定理),利用分解定理给出了可分离信息系统结构的计算方法;研究了在已知信息系统属性粒结构的条件下,增加新的语义信息时,粒结构的变化规律,证明了信息系统结构增量定理;利用分解定理和增量定理给出了计算不可分离信息系统属性粒结构的算法;给定两个构成信息系统属性集覆盖的属性子集,将原系统分解为两个子系统,分别计算两个子系统的属性粒结构;然后,根据两个属性子集的交集,在每个子系统的属性粒结构上建立一个等价关系,证明了两个子系统属性粒结构中相对应的等价类乘积的并集就是原信息系统的属性粒结构(覆盖分解定理);利用覆盖分解定理给出了信息系统属性粒结构的覆盖分解算法。与直接计算不可分离信息系统的粒结构相比,该计算方法可将复杂度由指数运算相乘降低为相加。理论分析和实例计算表明,以上所提计算方法是可行的。(3)应用现代数学中的序论,研究了信息系统属性同态的性质。定义了信息系统属性同态的概念,利用属性同态可以诱导出信息系统结构上的并同态;定义了信息系统理想同态的概念,利用属性等价关系诱导出了信息系统属性理想同态,应用信息系统属性理想同态实现了信息系统属性集的无损压缩。现有度量方法只能度量属性集相同的信息系统结构间的距离,通过引入与原信息系统属性集相同并且与像信息系统同构的中间系统,得到了任意信息系统结构间距离的度量方法。通过比较原信息系统与同态像信息系统的距离,给出了度量任意属性同态理想程度的方法。(4)应用从特殊到一般的归纳思想,通过具体实例,研究了信息系统的分解及粒化,属性同态构造,不同信息系统间的比较等内容。为了得到性质良好的分解,定义了信息系统分解均衡度的概念,以此为基础,对已有的算法进行了改进,使得信息系统分解更为均衡合理。利用分解的结果,给出了构造信息系统属性同态的方法。对于诱导出的同态像系统,可以根据实际处理需要,递归执行该方法以获得更粗粒度的同态像系统,直到得到某个适合处理的信息系统粒度。进一步地,利用两个不同结构的信息系统的同态像系统之间的关系来研究它们本身之间的关系,并给出了一般结论。