论文部分内容阅读
随着计算机模式识别技术的研究和发展,其应用范围也在不断拓展,这使得许多实际问题,如金融工程预测、基于内容的多媒体数据库检索等领域的识别分类成为可能。总结这类问题,可以发现它们表现出的共有特征:①属于海量数据的处理问题,问题的特征空间维数高,提供的样本数量大而且所涉及的类别数目多。②牵涉的因素很多,问题本身是个不完备信息系统。③采集的数据中存在着难以明确界定的噪音信息。 针对这类问题,本文展开了一系列的研究探讨,主要工作包括: 1.分析这类问题求解的一种可行方案是:用商空间法来合理地对复杂问题进行粒度描述,分解复杂问题为可求解的。提出对分解后的不同粒度的子问题,引入构造性机器学习方法首先获取不同粒度的学习规则,然后再合成相关的规则,最终得到复杂问题的综合规则。 2.针对相同粒度中如何得到学习规则问题,提出了多侧面递进MIDA的基本框架,对原有的超球面覆盖算法进行了必要的改进。指出了覆盖方法最优之处在于覆盖领域完全真实地反映了样本的分布情况,给出了在此方法中需要进一步研究的三个问题。第一个是对该算法识别的正确率与泛化能力之间矛盾的解决,利用没有被任何覆盖领域覆盖的样本(即拒识向量),引入了多侧面递进的处理方法MIDA(Muliside increasing by degrees algorithm)。第二个是如何改进覆盖方法,使得覆盖领域可以识别噪音(即异动向量),为此引入了覆盖领域涵盖的向量个数为识别中的权值。第三是如何减少所得到的覆盖领域的数目,为此引入了重复覆盖方法RCA(Repeat cover algorithm)和去除覆盖领域过小的方法,这有利于提高网络的泛化能力。一个值得研究的方案是将覆盖的思想(或基于覆盖的对数据的描述方法)应用于特征选择的主分量分析,为此,引入点对的概念,提出了点对主分量分析方法DPCAA(Double-point Principal Component Analysis Algorithm)。 3.在商空间模型中,利用商拓扑形成的多数据源,提出了一种新的概率决策型数据挖掘规则算法DDMR。作者认为:对于高维海量数据的对象,用多侧面递进方法进行划分、分解,使它由难变易;而对于多表描述的复杂的数据库或数据仓库,则可认为是给定了多侧面的一个复杂对象,因此,在商空间的模型下,两者可用相同的方法分析、处理、识别。 股市的运行是一个非常复杂的不完备的非线性过程,因此,需要用对不完备信息进行处理的非线性模型代替传统的统计模型,以便进一步提高股市预测的质量。本文将构造性机器学习算法用于建立股市分析的商空间模型,其中的主要工作有: 1.结合股市趋势预测这一实际问题,建立了股市分析的商空间模型,将多侧面递进算法MIDA、概率决策型数据挖掘规则算法DDMR应用于时间序列的预测问题。 2.对序列问题的预测,提出处理的方法应尊重数据本身规律,不人为的采取另行预处理,以便能挖掘出对象的本质规律。对采集的股市数据,直接按一定的时段、交易量组成序列,进行识别分类,实验测试结果令人满意,因此,提出的方法具有普遍意义。