论文部分内容阅读
随着信息科学技术和计算机网络技术的快速发展,人类社会已经全面进入了数字宇宙时代,将面临规模空前的信息爆炸。在处理这些海量的信息过程中需要研究和处理各种形式的不确定性。事实上,现实生活中的很多概念也具有不确定性。不确定性通常具有多种形式,如随机性、模糊性、含糊性、粗糙性、不精确性等。在处理不确定性时,建立在经典集合论与布尔逻辑基础之上的传统数学工具已不再适用。为了解决传统经典数学工具在处理不确定性问题时存在的各种困难,人们提出了许多处理不确定性问题的数学理论,如概率论、模糊数学、粗糙集等,然而这些数学工具都有其内在的因难,其主要原因是参数化工具不足。同时,这些理论只能处理特定的不确定性问题。为此,俄罗斯学者Molodtsov在对相关理论进行比较、分析的基础上,提出了一种新的处理不确定性问题的数学工具,称为软集理论。一个软集是给定论域的参数化的子集族,它从论域与参数集两方面来描述不确定性。每个参数对应一个近似描述集合,是对不确定问题的某种近似描述。软集理论认为对于复杂事物可以从不同的侧面进行分析,其结果都是对复杂事物的近似刻画,将这些近似刻画综合后可以得到对复杂事物相对精确的描述。软集理论强调从参数化(parameterization)角度研究不确定性,旨在为多种不确定性分析提供统一的理论框架。相关研究表明软集理论与模糊集、粗糙集有着本质区别,但又有密切的联系,它们之间具有很强的互补性。本文研究软集的代数结构、不确定性度量及软集在文本分类中的应用等相关问题,主要有如下四个方面的研究成果:一、软集的代数结构。深入研究软集的代数结构,分别探讨了软集在扩展并、限定交及限定并与扩展交运算下构成的格结构;提出了软集之间的软相等概念并讨论了它的相关性质,给出了软相等的一些等价条件,证明了软相等对于某些运算是一种同余关系,进而建立了软商代数;基于软集之间的软相等概念,针对模糊软集提出了模糊软相等的概念,给出了模糊软相等的一些等价条件,证明了模糊软相等对于模糊软集的一些运算是一个同余关系并且建立了模糊软商代数。二、模糊软集的不确定性度量研究。分析了目前文献中的软集与模糊软集相似度量方法,指出其存在的不足之处,对模糊软集的不确定性度量问题进一步研究,给出模糊软集间的包含度公理化定义,提出了基于模糊蕴涵算子及模糊集基数的模糊软集包含度。并基于包含度构造了模糊软集的相似度及熵度量,并研究了这些不确定性度量的相关性质。本文提出的不确定性度量具有一般性,基于不同的模糊蕴涵算子即可得到不同的不确定性度量。三、vauge软集的不确定性度量研究。首先分析了目前文献中的vague软集相似性度量,距离度量及熵的公理化定义并指出其缺陷所在,据此,我们提出vague软集熵的一种新的公理化定义,并构造了vague软集的熵与相似性度量。本文提出的不确定性度量具有一般性,给出不同的参数即可得到不同的相似性度量与熵。最后研究了这些不确定性度量之间的关系。四、软集理论在文本分类中的应用研究。详细论述了文本分类的国内外研究状况,给出了中文文本分类的基本流程与原理。提出了一种新的基于软集理论的文本分类方法,给出了一种基于互信息的特征选择算法及基于软集理论的分类算法。最后通过实验比较了该方法与KNN算法、SVM方法的分类准确度与召回率,实验结果说明了本文提出方法的有效性与实用性。