论文部分内容阅读
风险决策问题中风险主要由各种自然状态发生的不确定性导致,因此影响风险决策结果的一个关键因素是各个自然状态发生概率的估计预测值是否准确。论文从这一角度出发,研究如何利用集成学习理论方法对风险决策问题中自然状态发生或发生概率进行准确地预测,以提高决策收益和降低风险损失,为管理实践中风险决策者提供借鉴和参考。首先,论文对风险决策与集成学习的相关研究文献进行了综述。通过对相关研究的归纳分析,可以发现:一、随着管理决策者可以更加容易地获取和存储大量数据,如何应用机器学习和数据挖掘,尤其是有监督学习技术对数据进行学习分析,预测自然状态的发生或发生概率,并基于此进行科学有效的决策已经成为了风险决策研究的一个重要领域;二、由于集成学习可以有效地提高学习的准确性和泛化性,因此将其引入风险决策问题中有利于提高自然状态发生概率预测的准确性,从而改进风险决策的效果;三、在不同的风险决策问题中数据样本具有不同的模式特征,根据“无免费午餐”定理,学习模型的性能表现在很大程度上取决于数据样本的模式特征,没有哪一种学习模型能够在所有问题上优于其它模型。因此,论文对几类典型的风险决策问题中存在的数据模式特征进行分析,并相应提出能够提高自然状态概率预测准确性的集成学习模型。其次,针对海关查验走私这一类样本数量巨大,属性取值差异巨大,但大多属性的取值范围较为集中的风险决策问题,论文分析了其中存在的数据特征及其对学习模型预测准确率的影响,并论述了已有研究对于该问题中数据预处理存在的问题。为了解决这些问题,论文提出了一种动态K-均值聚类算法,根据聚类有效性指标对聚类得到的数据簇进行动态调整,以产生具有更高类内样本相似度和类间样本差异度的聚类结果。在此基础上,论文建立了基于动态K-均值聚类和逻辑回归的风险决策模型,并将所提出的风险决策模型应用于实际的海关查验走私问题。实证研究和对比分析结果说明论文提出的风险决策模型能够有效提高海关的查验命中率,对于海关提高走私监管效率具有较好的理论指导意义和实际价值,也为管理实践中数据量巨大、各个属性取值多样化的风险决策问题提供了一种有效的解决方法。再次,针对消费者信用风险评估这一风险决策问题,论文提出了一种基于有监督聚类的集成学习模型,以解决已有研究采用单一学习模型或基于随机抽样的集成学习模型进行概率预测所存在的问题。为了对消费者群体中存在的多种行为模式特征进行刻画以提高集成学习中各个基学习器的个体性能和差异性,论文提出通过有监督聚类将各个类别的数据样本划分为若干子集合,并对不同类别的子集合之间进行组合得到训练样本子集合,进而在每个子集合中建立对应的基学习器。对于一个未知类别的数据样本,以各个基学习器在该样本的近邻训练样本中的性能作为权重进行加权集成。通过在基准数据集和实际数据集上进行计算实验和对比分析,说明论文提出的模型能够克服已有研究中单一学习模型的不稳定性,并产生差异性较大的基学习器,可以有效提高信用评估准确率,降低授信方决策风险,为银行和信贷机构提供有效的决策支持。最后,在一些风险决策问题(如数据库营销、保险欺诈、信用欺诈等)中存在明显的类别不均衡问题,即目标客户数量远低于非目标客户数量。另一方面,管理决策者不仅需要学习模型给出对目标客户的准确预测,还需要模型具有较高的解释性以提供进一步的决策支持。针对这两个问题,论文提出了一种基于关联分类规则的集成学习模型。模型首先对多数类(非目标客户)进行聚类分析以更好地分析该类客户中存在不同行为模式特征的客户子群体,并将各个客户子群体(数据簇)与少数类(目标客户)进行组合产生训练样本子集合,然后通过关联分析分别提取目标客户和非目标客户中存在的满足一定支持度的强关联分类规则,最后对规则进行集成以预测客户是否为目标客户或成为目标客户的概率。为了验证所提出模型的效果,论文在实际数据集上将所提出的模型与其它模型进行了对比分析。实证分析结果表明所提出的集成学习模型不仅能够提高对目标客户的预测准确率,也能产生具有很好解释性的结果,对于该类风险决策问题中管理决策者选择或制定有效的行动方案具有较好的参考借鉴价值。