论文部分内容阅读
摘要:测量数据的获取离不开一定的观测条件,在不同观测条件下获取的测量数据必然对应着不同的误差分布,研究测量数据误差分布的数字特征是误差分析与数据处理的前提。随着测量数据向着海量、动态和多源误差特性方向发展,对测量数据处理提出了更高要求,经典误差理论凸显了与其不相适应,主要表现在:①误差描述不确定性问题的局限性,②误差表示方式的不唯一性,③误差分类的纠缠性,④误差合成估算的复杂性。测量数据的不确定性实质是一种广义的误差,从信息论角度,测量数据的获取、测量数据误差处理和测量数据质量评价都是一种信息传递过程,可将信息熵应用于研究测量数据不确定性。熵作为分布的数字特征之一综合反映了概率分布的形式和概率分布的范围,研究测量数据误差分布的熵是拓展熵理论在测量数据处理领域引用的基础,是研究熵意义上的测量数据不确定性的先决条件,而且是广义误差理论拓展的有效途径。已有的相关研究中尚有以下问题亟待解决:(1)熵可以综合反映一定观测条件下的测量数据的不确定性,但不同类型分布的熵值运算法则和规律、误差熵的作用机理等问题缺乏系统性地研究和归纳整理。(2)污染分布模式促进了测量数据处理理论的发展,作为复合分布的典型代表,其概率密度函数表达的不确定性造成了其熵估算的难点。污染分布的熵,尤其是污染正态分布的熵如何估算,目前研究未能很好解决。(3)P-范分布熵的严密计算过程因其概率密度函数表达的复杂性相对复杂,不利于实际应用,其熵计算能否得到有效简化需要进一步研究解决。(4)测量数据获取中难免有粗差的存在,污染率表征了粗差的影响程度,在实际应用中粗差的统计常常受到门限的干扰,数据的污染能否通过熵变化得以反映和污染率能否避开传统门限值选择问题而通过熵变得以估算也需展开研究。针对上述有关测量数据误差分布的熵研究中亟待解决的问题,本文展开研究,主要内容和贡献有:(1)系统研究了测量数据处理中的信息熵理论体系,归纳整理了测量数据处理中熵的概念、基本性质和典型性质,阐明了熵与误差、不确定度、分布和权的关系。(2)系统研究了测量数据误差分布的熵律,通过连续型随机变量具有明确概率密度函数的分布熵计算推导及其熵值特性分析,全面归纳总结了一般意义上测量数据误差分布的熵律,进一步阐述了熵意义上的测量数据误差以及误差熵的作用基础。(3)建立了污染正态分布熵和熵系数估算的一种近似方法,填补了以污染正态分布为典型代表的此类复杂复合分布的熵估算方法的空白。研究以污染正态分布概率密度函数的模型研究入手,引入Kullback-Leibler距离研究污染正态分布两种模型概率密度函数的差异性,导出了污染正态分布的主体分布概率密度函数、均值漂移模型下和方差扩大模型下总体分布概率密度函数之间的Kullback-Leibler距离表达式,分析指出了污染正态分布的熵估算关键是寻求一种适合熵值运算规律的方案。(4)提出了以简单分布的熵组合近似估计P-范分布的熵,简化了其计算过程,解决了P-范分布复杂的概率密度函数表达式不利于其熵计算和实际应用的问题。(5)引入了熵分析方法研究GPS RTK观测数据误差特性,给出了熵用于测量数据误差分析一种有效途径。(6)建立了以熵为计算基础的数据污染率估算方法,分别提出了数据在主体分布模式已知和未知两种情况下的污染率估算方法,并分析了熵计算的截断误差对污染率的估算影响。