论文部分内容阅读
本文的选题来源于对可疑金融交易行为的识别与监控理论原型体系研究。主要研究内容是利用机器学习和系统复杂性的理论和方法,从海量和复杂的金融交易数据中学习和识别客户金融交易的行为模式,从而挖掘出那些明显偏离正常行为范式的所谓离群模式,实现对涉嫌洗钱或欺诈的可疑金融交易行为的计算机自动甄别和监管。金融系统是一个非常复杂的大系统,一直以来对金融系统可疑交易判断的研究采用的大多是线性化和在严格假设条件下的简化模型,这样的确使问题得到了简化,但在实践过程中却导致高漏检率和高误报率。本文根据金融交易的非线性机制,引入了基于系统复杂性理论的混沌分析方法,对由内在确定动力学机制产生的具有外部随机性特征的金融交易时间序列进行分析和判别,主要研究成果与创新如下:(1)金融交易的混沌属性分析混沌行为是由确定性系统产生,但其行为却表现为类似随机的,具有短期可预测但长期不可预测的特性。本文利用相空间重构理论实现对金融时间序列的混沌属性分析,采用互信息法计算出最优时延,假近邻法计算最优嵌入维,轨道跟踪法求取最大Lvapunov指数,基于真实数据的实验结果表明,金融交易时间序列存在有限的关联维和一个正的最大Lyapunov指数,证实了对金融交易数据的时间序列进行混沌方法建模的可行性。(2)基于混沌原理的金融交易行为产生机制识别本文提出利用对金融交易行为的机制进行识别以获得对离群交易行为的预测。混沌数据所具有的短期可预测性为混沌背景中的细微差别行为检测提供了新思路。本文基于Takens定理重构混沌背景信号相空间,采用RBF神经网络对正常金融交易数据建立预测模型,以此对可疑金融交易数据进行预测,由于正常金融交易与可疑金融交易内在产生机理存在本质差异,因此可疑金融交易必然存在较大的预测误差。通过理想混沌时间序列与实际金融数据的仿真实验表明,基于混沌的误差检测方法对于离群模式能够有效检出。(3)金融数据的特征提取与相似性度量特征提取的目的是获得能够被机器识别的数学特征。区别于传统的金融时间序列的相似性度量方法,提出了一种基于RBF神经网络一步预测误差序列特征提取与相似性度量方法。该方法将时间序列之间的相似性度量换化成特征矢量之间的相似性度量,且特征矢量综合考虑了连续的时域功率特征和离散的客户背景特征。实验证明该方法相对于传统的直接距离、傅立叶变换、ARMA模型法具有明显优势。同时为了解决可疑交易数据分类中的异构数据集相似性度量问题,提出采用异构特征向量的距离度量函数HVDM以满足支持向量机自动分类要求。(4)基于一类支持向量机的离群分类判别针对金融交易数据量大、无训练集的特点,利用基于统计学习理论的一类支持向量机实现基于无监督的离群分类。最后用基于异构数据集距离度量HVDM的RBF形核函数,训练一类支持向量机,仿真数据以及实际金融数据的离群检测实验证明了该方法的有效性。通过上述四步前后相互衔接、具有严密逻辑联系的离群模式挖掘工作,构成了一套具备针对复杂金融交易行为内在细微机制差别的离群模式完整挖掘体系,这一体系还可推广应用于信号处理、网络入侵检测、危机预警、健康普查、财务审计、电子商务等众多应用领域。