论文部分内容阅读
本论文针对运用跨行业数据挖掘标准流程(CRISP-DM)建设决策分析系统所面临的数据结构确定问题、分析层次转换问题和分析结果检验问题,研究基础业务数据尺度的确定、决策分析过程中的变尺度数据分析机制和基于变尺度数据分析的数据挖掘应用技术。基于数据挖掘的决策分析系统建设与运行面临的问题包括:(1)决策分析的数据结构确定问题。运用CRISP-DM建设决策分析系统的首要任务是明确业务分析需求的数据分析主题,并建立能够支撑分析主题的数据结构,这对数据挖掘算法的效率和结果质量具有重要影响。(2)决策分析层次转换问题。由于管理业务本身具有多层次特征,确定业务数据的合理分析层次,是降低决策复杂度和提升决策结果质量的关键,并且管理人员为达到合理决策的目标,决策分析需要在不同的分析层次间进行转换,才能够完成数据的综合分析,这本质上是业务数据分析层次的转换。(3)决策分析结果检验问题。分析结果的检验是保证决策分析结果在不同层次上具有一致性的依据,是检验决策分析过程结束的衡量标准。基于上述实际问题,本论文所研究的科学问题包括:(1)基础业务数据尺度的确定。研究决策分析所需要的多层次数据表征方法,针对分类变量数据、二值变量数据、数值变量数据三种原始业务数据类型的特点,确定基础业务数据的尺度结构,为变尺度数据分析建立完备的数据结构基础。(2)决策分析过程中的变尺度数据分析机制。模拟管理人员进行决策分析层次转换时的思维过程,以提升决策结果质量为目标,研究基于数据挖掘结果的数据尺度变换机制,并且考虑不同原始业务数据类型对数据尺度变换模式的影响,实现业务数据合理分析层次的自动化识别和转换,建立基于数据尺度变换的自动化决策分析机制。(3)基于变尺度数据分析的数据挖掘应用技术。以北京毅道体育发展有限公司、新浪微博社交网络平台和中国运载火箭技术研究院物流中心实际管理业务为背景,研究尺度变换机制的应用技术。本研究的创新性成果主要包括:(1)建立了面向决策问题空间表征的多尺度业务数据模型,该模型能合理描述决策问题所有候选分析层次的基础业务数据尺度组成及结构关系,为实现决策分析层次转换提供完备的数据结构。现有研究中数据结构模型将业务数据采集时的初始数据尺度直接作为用于数据挖掘的基础数据尺度,导致该单一尺度数据模型无法支持决策分析的多层次和层次转换需求。(2)提出了面向理性决策思维过程的数据尺度变换策略和尺度变换机制,该机制能基于决策分析结果确定合理的数据分析层次和数据尺度变换路径。现有研究中数据挖掘执行过程在出现数据挖掘算法结果与决策分析层次不匹配问题时,只能依靠分析人员来主观完成业务数据分析层次的转换工作。本研究成果对CRISP-DM的“数据准备-分析模型建立-分析结果评价”过程建立核心数据挖掘环节的自动化数据尺度变换机制,能够针对数据挖掘评价结果来迭代修正数据准备和建模中的业务数据分析层次,并且通过量化多尺度业务数据模型中不同属性的尺度变换价值来优化数据尺度变换策略。(3)提出了面向决策分析结果检验的变尺度聚类分析方法,其中尺度变换定理和满意类一致定理保证了决策分析过程中的尺度变换的正确性。通过对比实验证明了变尺度聚类分析方法的聚类结果有效性,且结果对方法的初始参数不敏感。针对上述提出的变尺度聚类分析方法,本论文对三种实际管理业务场景开展了应用拓展研究,具体包括:①针对分类变量数据且具有多重复值特征的决策分析问题,提出了具有多重复值分类变量数据的变尺度聚类分析技术。北京毅道体育发展有限公司的赛事数据实验结果表明该方法能够很好地辅助制定参赛选手差异化管理方案;②针对分类变量及二值变量混合数据的决策分析问题,提出了具有分类变量及二值变量混合数据的变尺度聚类分析技术。新浪微博社交网络平台的客户数据实验结果表明该方法能够很好地辅助制定客户差异化营销方案;③针对考虑业务数据时效性的数值变量数据决策分析问题,提出了考虑业务数据时效性的数值变量数据变尺度聚类分析技术。中国运载火箭技术研究院物流中心的航天型号物资库存数据实验结果表明该方法能够很好地辅助制定航天型号物资差异化库存管理方案。