论文部分内容阅读
随着信息科学技术的不断发展,人类能够获取的数据量日益增加,其中有大量数据存在不精确、不确定或是可靠性存疑等情况,统称为认知不确定性数据。如何准确描述此类复杂数据并从中挖掘出更多有用信息近年来受到了越来越多的关注。信任函数理论作为一般性的认知不确定性建模和处理框架,凭借其对多种认知不确定性的合理描述以及在信息融合方面的天然优势,提出至今获得了广泛的研究和应用。伴随着众多学者的大力推进,特别是2010年以来信任函数进行统计推断这一方向的重获新生,使得信任函数理论的发展进入了新阶段,开辟出一片崭新的天地。利用信任函数进行统计推断作为新兴领域存在着大量研究空白,本文借由统计推断和机器学习的密切关系,选取结构简单清晰、易于解释的决策树入手,从实际问题出发开展研究。通过对认知不确定数据学习决策树的方法进行系统地分析,分别将离散输出的分类树和连续输出的回归树、线性模型树进行了推广,从而降低了训练集数据精度的要求,更为充分地利用已有数据。从信任回归树的连续不确定数据出发,本文也对连续信任函数这一理论方向进行了探讨,结合信息源可靠性获取证据折扣,从而更为合理地实现连续域的信息融合。本文首次对信任回归树和信任线性模型树的学习进行了研究,同时信任分类树中引入查询机制降低数据不确定性、基于证据似然函数的数据质量衡量、连续域情景折扣等内容此前也未有研究。本文将决策树学习方法全面推广至信任函数建模的不确定训练集,从而实现使用低质量数据学习获得具有较好性能的模型。考虑到认知不确定性数据的存在,本文首先对分类问题训练集的数据质量进行衡量,利用证据似然函数获得了数据规模、数据一致性和数据不确定性的量化评估。将证据似然函数视为某一致质量函数的可能性分布,本文给出了两种一致质量函数的获取方法,并用其非特异性测度实现了证据似然函数平坦程度的衡量。借助于多项分布证据似然函数的良好特性,提出了快捷方便的非特异性测度计算方法,并对数据规模、一致性和不确定性三方面带来的影响进行分离,从而实现了数据质量的分析。对于输出为离散类标的分类树,提出了既能够通过证据似然函数处理不确定性、又能在必要时查询精确类标降低不确定性的主动信任分类树。由于类标不确定导致信息熵难以计算,本文借由证据似然函数获取信息熵区间,并改进信息增益率计算方法,通过比较信息增益率区间选择最优的分裂属性。当不存在优势属性时,提出了一种查询策略,通过查询获得某些最有价值的不确定样本的精确类标对区间宽度进行缩减,从而获得优势属性用于子树的构建。通过UCI数据库的实验验证,在类标完全未知、不精确、不确定和存在噪声等情况下本方法均获得了良好的分类正确率。决策树在训练样本输出为连续变量时即为回归树,通过引入不确定数据,本文分别讨论了叶节点为常数模型的信任回归树和叶节点为线性回归模型的信任线性模型树的构建方法。推导了E2M算法估计线性回归参数的流程,并基于连续域证据距离和区间加权,提出了两种一般化的连续不确定数据误差计算方法。在每个决策节点遍历所有候选分裂属性的所有可能分裂点,选择其中能够最大化误差衰减的一项进行分裂生成两个子节点。迭代此过程即实现了不确定连续样本空间的划分,所构建的树能够更好地处理实际应用中常见的区间值数据、不确定数据和信息来源可靠性不足等,情况。此外,本文还对连续信任函数的信息融合进行了研究,针对有限区间焦元这一实际常用设定,构建基于区间宽度的相似度矩阵并提出了连续域的证据距离衡量方法。在此基础上,利用多个信息源所提供证据之间的距离,给出了证据折扣的生成方法,从而降低了连续质量函数融合时的冲突。更为一般化地,本文对无限区间焦元也即基本信任密度的情景折扣方法进行了讨论,考虑信息源各有所长的情况,实现了利用获取的信息源可靠性元知识在连续域中进行证据折扣与融合。