论文部分内容阅读
概率推理与统计学习是从数据中发掘客观事物之间关联和内在联系的重要工具,是一个具有挑战性与诸多困难的研究领域。本文对概率推理和统计学习的关键技术进行了深入探讨,以几何方法描述数据的几何特性并与概率推理和统计学习方法相结合为主线和特色,研究了利用数据间几何关联性的线性和支持向量回归方法、基于检测时间序列几何结构的变结构动态贝叶斯网络自适应学习、基于几何模式相关的动态贝叶斯网络、以及基于两聚类几何模型的聚类数目估计问题。本文工作的主要贡献总结如下:1.针对目前线性回归和支持向量回归方法尚未关注挖掘和利用单个变量的数据关联性的问题,提出了几何关联学习方法(GcLearn)以利用这种关联性提高回归模型的预测性能。几何关联学习方法预测性能的理论分析表明,该方法具有比传统的线性回归和支持向量回归方法更好的预测性能,并给出了该方法的适用条件和判别准则。实验结果也验证了几何关联学习方法的有效性。该方法主要的创新点包括:提出挖掘单个变量的数据之间几何关联的方法、在曲线水平的几何回归方法和利用几何关联的回归模型预测方法。2.提出了通过检测时间序列的几何结构来自适应学习变结构动态贝叶斯网络的方法(autoDBN),较好解决了从多变量时间序列数据中寻找较准确的模型区域和学习较准确的变结构动态贝叶斯网络的问题,并且求得的一系列模型自适应于多变量时间序列之间的变化依赖关系。该方法克服了现有方法无专门机制寻找模型区域和盲目搜索的弱点,实验结果表明其性能明显优于现有方法。具体的创新点包括:设计了时间序列转换为曲线流形的方法,提出了描述和检测时间序列几何结构的方法来分割时间序列;进而设计了确定合理模型区域的寻找策略;最后,提出了基于竞争F-检验的模型回访机制修正求得的一系列模型区域和动态贝叶斯网络模型的可能错误。3.为了发现不同基因的表达水平在变化趋势上相关的基因调控关系,提出了基于几何模式相关的动态贝叶斯网络方法(Gp-DBN)。该方法较好地解决了基于趋势相关的基因调控关系的发现问题。真实基因表达数据的实验结果验证了该方法的有效性。该方法主要的创新点包括:提出的将基因表达的时间序列转换为几何模式的方法可以描述基因表达水平随时间上升与下降的变化趋势,用几何模式上的切向量表示几何模式特征的方法来有效地获取几何模式的离散特征量、确定调控子和估计调控时滞。4.针对在使用PAM聚类算法的基因表达数据聚类分析中现有估计类数方法在聚类结构比较复杂的情况(例如小聚类靠近大聚类和聚类间有轻微重叠)下效果不佳的问题,提出了基于两聚类几何模型的系统演化方法这一类数估计方法。系统演化方法较好地解决了在基因表达数据的聚类分析中当小聚类靠近大聚类和聚类间有轻微重叠情况时的类数估计问题。实验结果表明,系统演化方法在估计聚类数目的准确性上明显优于现有方法。系统演化方法通过分析所有潜在聚类中最靠近的两个聚类(孪生聚类)是否可分来完成对整个聚类结构的分析,并提出了两聚类的几何模型用于分析孪生聚类的可分性。同时,该方法将一个数据集视为伪热力学系统,提出了依据孪生聚类之间能量关系的系统演化规则确定最优聚类数目。