论文部分内容阅读
随着大数据时代的到来,数据在社会生活中发挥着越来越重要的作用。当前信息系统不断普及,而其中的数据建设作为一项重要的系统工程,在建设过程中遇到了很多新的问题,譬如数据资源分散建设、高价值信息缺乏、数据标准不一等。军队的数据建设也正面临着这些挑战,与此同时还存在数据利用效率低下等问题。如何从大量历史军事信息数据中挖掘出部队人员、装备等知识,从而帮助部队解决问题并为领导者提供辅助决策,是一项有着重大意义的工作。近年来计算机技术的快速发展,以聚类分析为代表的数据挖掘技术已经成为当前极为活跃的研究方向,许多的新理论和新算法不断被提出。其中空间数据挖掘中的数据场理论与聚类算法的结合,取得了良好的聚类效果,有着广阔的应用前景。此外由于数据集在嵌入空间后的形状不规范,所以能够对不规则形状类簇进行划分的密度聚类算法的适用范围更加广泛。因此,本文针对在参与军队数据工程建设中遇到的实际问题,同时结合学习的以聚类分析为主的数据挖掘方法,主要进行了以下几个方面的研究内容:(1)提出了宏观数据场和数据态势理论。主要对两者的基本概念和内容进行阐述,明确宏观数据场的概念模型和应用领域,确定数据态势的主要内容和研究方法;(2)结合数据场理论进行快速查找峰值密度聚类算法研究和改进。通过势函数对数据点的势值进行计算,并通过势值对算法初始点的选择进行更正,然后计算每一个簇类的相关参数,最终得到聚类结果;(3)以我军军事信息资源数据为数据源进行态势分析,主要工作包括:(1)通过缺失值填充、光滑噪声、去除离群点等数据清理手段对数据源的数据进行了预处理。(2)建立了人员编配及变化情况的态势分析模型,应用改进的快速查找峰值密度聚类算法进行聚类分析结果显示,军官、培养干部的学员、培养士官的学员、聘雇这四类人员在全军范围内容易满编,而士官、兵这两类人员在全军范围内缺编较多。(3)建立了装备编配情况态势分析模型,定义了装备综合超编率和总超编率的函数,并定义了分层函数对高程参数进行分类处理。结果显示,各个军区的装备编配情况有区域性差异;高程分类后与装备综合超编率具有显著的负相关关系;全军装备满编率和全军人员满编率之间没有显著的相关性。(4)建立了装备状况态势分析模型,定义了装备满足度和满足率,并以某型号装备为例进行分析,结果显示,装备状况存在区域性差异,同时与高程存在相关性。