论文部分内容阅读
如今,许多采集的离散数据都带有地理信息的标签。离散数据的发生位置可以用一个二维的地理坐标来表示。对于给定的离散事件数据集合,能够生成一个概率密度分布图来刻画此类事件在发生区域内的相对概率。以此来直观的了解此类事件在区域内发生概率的大小及趋势。实际中最常运用的方法是核密度估计方法。核密度估计方法不利用数据分布的先验知识,不作任何假定,属于常见的非参数估计方法之一。核密度估计方法的特点是思想简单,是一种从数据样本本身出发对其密度估计的方法。但是在稠密的离散数据下其计算复杂度过高。近些年来,关于概率密度估计的模型不断改进。很多由最大似然估计演化而来的方法被提出,该类方法为最大似然估计中的最小化问题增加一个惩罚函数作为正则项,通过求解该最小化问题来得到概率密度估计。惩罚函数的选择对应着不同的模型,其中就包括总变差函数与对应的总变差最大罚似然估计方法(TVMPLE)。传统的方法在进行概率密度估计时并不考虑与之对应的地理信息。会导致离散事件的概率密度估计出现在不符合实际情况的地理位置。例如此类方法会预测类似于入室盗窃这样的事件发生在山脉、湖泊等本无可能发生的区域。总变差最大罚似然估计方法并没有加入对地理信息的考虑。本文提出了基于总变差的修正最大罚似然估计方法(MTV-MPLE)。该模型利用地理信息先验地将区域划分为有效区域和无效区域,概率密度在无效区域中保持为0。不仅可以保证概率估计密度分布的光滑特性,还能确保事件的概率密度不会出现在无效区域。该模型的求解算法主要有分裂布莱克曼法和梯度投影下降法,本文分析比较了二者的特点。文中首先运用模拟的离散数据对现有的以及新的方法进行比较来验证新的方法的优越性。之后结合真实的地理信息,将该方法运用到某城市的犯罪密度估计当中,初步验证了其对于解决具体问题的可行性并给警方布控以指导。随后,本文着重分析了在稀疏的离散数据情况下各个算法的密度估计效果。并且分析了MTV-MPLE方法在数据稀疏的情况下密度估计过于光滑的原因。我们针对存在的问题对原模型进一步推广,提出了改进的混合最大罚似然估计方法(HTV-MPLE)。根据离散事件本身具有传播的性质,依据传播速率的不同先验地将有效区域进一步细分,从而引导迭代求解扩散方程中的扩散过程。在该方法的实验检验中,我们在不加先验的情况下通过对卫星图像的结构纹理分解来划分有效与无效区域。最终在离散数据稠密的市区和数据稀疏的郊区都能得到有价值的密度估计结果。