信任函数建模的认知不确定性数据分析与学习

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:dongjuanqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息科学技术的不断发展,人类能够获取的数据量日益增加,其中有大量数据存在不精确、不确定或是可靠性存疑等情况,统称为认知不确定性数据。如何准确描述此类复杂数据并从中挖掘出更多有用信息近年来受到了越来越多的关注。信任函数理论作为一般性的认知不确定性建模和处理框架,凭借其对多种认知不确定性的合理描述以及在信息融合方面的天然优势,提出至今获得了广泛的研究和应用。伴随着众多学者的大力推进,特别是2010年以来信任函数进行统计推断这一方向的重获新生,使得信任函数理论的发展进入了新阶段,开辟出一片崭新的天地。利用信任函数进行统计推断作为新兴领域存在着大量研究空白,本文借由统计推断和机器学习的密切关系,选取结构简单清晰、易于解释的决策树入手,从实际问题出发开展研究。通过对认知不确定数据学习决策树的方法进行系统地分析,分别将离散输出的分类树和连续输出的回归树、线性模型树进行了推广,从而降低了训练集数据精度的要求,更为充分地利用已有数据。从信任回归树的连续不确定数据出发,本文也对连续信任函数这一理论方向进行了探讨,结合信息源可靠性获取证据折扣,从而更为合理地实现连续域的信息融合。本文首次对信任回归树和信任线性模型树的学习进行了研究,同时信任分类树中引入查询机制降低数据不确定性、基于证据似然函数的数据质量衡量、连续域情景折扣等内容此前也未有研究。本文将决策树学习方法全面推广至信任函数建模的不确定训练集,从而实现使用低质量数据学习获得具有较好性能的模型。考虑到认知不确定性数据的存在,本文首先对分类问题训练集的数据质量进行衡量,利用证据似然函数获得了数据规模、数据一致性和数据不确定性的量化评估。将证据似然函数视为某一致质量函数的可能性分布,本文给出了两种一致质量函数的获取方法,并用其非特异性测度实现了证据似然函数平坦程度的衡量。借助于多项分布证据似然函数的良好特性,提出了快捷方便的非特异性测度计算方法,并对数据规模、一致性和不确定性三方面带来的影响进行分离,从而实现了数据质量的分析。对于输出为离散类标的分类树,提出了既能够通过证据似然函数处理不确定性、又能在必要时查询精确类标降低不确定性的主动信任分类树。由于类标不确定导致信息熵难以计算,本文借由证据似然函数获取信息熵区间,并改进信息增益率计算方法,通过比较信息增益率区间选择最优的分裂属性。当不存在优势属性时,提出了一种查询策略,通过查询获得某些最有价值的不确定样本的精确类标对区间宽度进行缩减,从而获得优势属性用于子树的构建。通过UCI数据库的实验验证,在类标完全未知、不精确、不确定和存在噪声等情况下本方法均获得了良好的分类正确率。决策树在训练样本输出为连续变量时即为回归树,通过引入不确定数据,本文分别讨论了叶节点为常数模型的信任回归树和叶节点为线性回归模型的信任线性模型树的构建方法。推导了E2M算法估计线性回归参数的流程,并基于连续域证据距离和区间加权,提出了两种一般化的连续不确定数据误差计算方法。在每个决策节点遍历所有候选分裂属性的所有可能分裂点,选择其中能够最大化误差衰减的一项进行分裂生成两个子节点。迭代此过程即实现了不确定连续样本空间的划分,所构建的树能够更好地处理实际应用中常见的区间值数据、不确定数据和信息来源可靠性不足等,情况。此外,本文还对连续信任函数的信息融合进行了研究,针对有限区间焦元这一实际常用设定,构建基于区间宽度的相似度矩阵并提出了连续域的证据距离衡量方法。在此基础上,利用多个信息源所提供证据之间的距离,给出了证据折扣的生成方法,从而降低了连续质量函数融合时的冲突。更为一般化地,本文对无限区间焦元也即基本信任密度的情景折扣方法进行了讨论,考虑信息源各有所长的情况,实现了利用获取的信息源可靠性元知识在连续域中进行证据折扣与融合。
其他文献
微信作为一种通讯软件,它以独特的功能受到大学生的青睐,是现代大学生普通使用的社交媒体之一。微信的出现给大学生带来了便利,也给大学生思想政治教育带来了巨大的影响,加大了思
在高中数学的知识体系中,三角函数是非常重要的组成部分,并且与很多方面的数学知识存在着极為紧密的联系,因此,同学们想要掌握三角函数知识,就应该重视三角函数的解题方法和技巧,提升问题解决方面的能力。  一、深化概念理论,解决三角函数问题  在学习三角函数知识时,同学们要能够针对概念和理论进行记忆,但是,有的同学在实际的学习过程中会随着时间的增长慢慢忘记。所以,同学们应该不断地回顾和巩固之前学习过的知识
大豆组织蛋白具有丰富的营养价值和类似于肉类的口感,它是一种高蛋白低脂肪的食品,且容易被人体吸收。利用组织蛋白具有类似肉及高蛋白的特点,开发一种营养、方便的素食制品
体育教学是以身体练习为主要手段的社会实践活动,脱离必要的体育器材设施"练习",无法更好地进行体育教学;体育器材是提高体育课堂教学质量和效益、丰富学生体育活动必不可少
利用排桩隔振屏障隔离列车运行产生的振动是治理铁路环境振动的有效手段。本文结合排桩隔振的工程实例,实测了距离铁路不同距离处排桩的隔振效果,分析了隔振效率和隔振特性,
正系统是系统理论中一个新的研究分支。由于在科学与技术领域具有广泛的应用,近年来,正系统得到了众多学者们的关注。系统变量的非负性要求使得正系统定义在锥上而不是线性空
以人为本的理论,已经成为当今教育关注的热点,作为小学班主任的管理者应该要适应以教育为发展的潮流,要'以人为本',来确定正确的教育观,实现对人才的培养。以人为本
本论文从信息学科背景出发,结合多领域不同学科的相关内容,研究复杂网络中小世界网络模型和免疫计算中克隆优化算法的有机融合以及应用。复杂网络理论一方面是我们研究多种智
<正>工业领域电力需求侧管理是一项重要的政府管理创新,是在工业领域践行科学发展观、落实十八大"五位一体"总布局中的"生态文明建设"新要求、助力工业结构调整、建设"美丽中
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
期刊