基于化学数据的若干统计学习新方法研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:naruto_Dragonballlll
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对日益复杂的数据,特别是在构效关系研究和谱数据分析领域,如何运用统计学习方法从中挖掘出最有用的信息,这是当今应用统计研究的一个热点问题之一。本文在数据驱动模式的指导下,以化学数据为背景,经过深入研究一些经典的统计方法,如分类与回归树,支持向量机,偏最小二乘等的优势与不足之后,创造性地构造了一种新颖的树核,提出了一系列新的统计学习方法。研究内容主要包括七章。首先,简要介绍了本文的研究背景与动机。然后较详细地总结与探讨了化学数据分析中一些常用的理论及其方法,指出了它们各自的优点与不足,这些是我们研究统计新方法的基础。最后介绍了本文的主要内容和创新之处(第一章)。第二章树核的构造是我们第一次提出来,是我们的重要创新之一。在深入研究CART原理的基础上,我们首次指出同一终节点中的样本不仅仅具有类别的相似性,可能拥有其它某种特定的相似性。同时为得到结构多种多样的树,我们将蒙特卡洛方法耦合到分类树算法中,通过使用fuzzy修剪和集成策略,巧妙地构造了一种新颖的树核。这fuzzy修剪策略,能够有效的探索节点内部的信息,但不完整地破坏树的结构。集成策略能更加体现数据中的有规律的信息,使得结果更稳定。这是我们构造树核的原始动机。在构建树核的过程中,通过建立大量的树模型,为了寻找与分类最相关的变量集以及在不同变量空间中具有特定相似性的样本集,分类树模型同时在变量空间和样本空间执行一个贪婪但不一定是全局最优的搜寻。这样,大量的树模型能够有效地发现样本之间的相似性,同时,能够评估每一个变量的重要性。自然地,我们构造的树核具有以下优点:第一,它是属于有监督学习,因为在核的构造过程中,类的信息暗示着树的结构。第二,由于无关的变量对树集群的贡献很小,这样它们对树核的测量值的影响就很小,从而能够有效地发现重要变量。第三,由于结合了分类树算法,它能够处理非线性问题。然后在核方法的框架下,我们将构造的新颖树核融入到支持向量机,偏最小二乘和k-最近邻算法中,提出了三种新的统计学习方法:树核支持向量机(TKSVM),树核偏最小二乘(TKPLS)和树核k-最近邻分类方法。三个SAR数据集的实证结果表明,构造的树核所具有的优点能够有效改进这些传统的算法。针对高维光谱数据,我们提出了一种新的建模方法PLSSIS。高维光谱数据(如近红外)分析的困难在于量测的数据在呈现出很高共线性的同时,含有大量的冗余信息。通常会应用PLS方法来处理。然而,PLS方法所建立的模型包括了所有的原始变量,其中包含冗余信息,这会降低模型的预测性能。我们通过运用PLS回归系数,结合安全独立筛选SIS (sure independence screening)原理来逐步选择重要的变量,提出了一种基于安全独立筛选的偏最小二乘回归(PLSSIS)的新变量选择策略。PLSSIS是一种结合了PLSR和SIS的前向迭代算法,能够快速有效地处理高维共线性数据。三个光谱数据集实验结果表明,比较标准的PLS方法和移动窗口偏最小二乘方法回归MWPLSR(moving window partial least squares regression), PLSSIS方法选择了更少的变量,具有更好的可解释性与预测性能。最后,第七章对全文进行了总结并对今后的研究提出了展望。
其他文献
摘要:本文通过对《工程力学》课程的知识体系加以分析,探讨提高该门课程的教学方法。主要通过利用多媒体技术、教学方法改革如“双力矢”代替扭矩的方法、考核办法改革及与相关课程的融会贯通,将各门学科综合起来提高学生的学习兴趣,培养其思维创新能力,鼓励学生解决工程实践问题。  关键词:工程力学;教学方法;工程实践  中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2015)31-01
目的比较意识障碍无法进食的脑血管意外患者早期肠内喂养中链甘油三酯(MCT)/长链甘油三酯(LCT)与单独喂养LCT对蛋白质代谢的不同影响,探讨MCT/LCT改善此类患者的营养状态厦其可能机
对称系统是一类具有特殊结构的系统,是有着广泛应用背景的动力系统。如电路系统、电子网络系统、电力网系统、大型的空间结构系统、弹性材料系统和化学反应系统等。耗散性理
地方文化是校本课程开发的重要资源。利用广彩这一地方文化资源的优势,开发"走进广彩"校本课程,能有效引导学生认识本土文化,对本土文化产生兴趣,通过学习感知、欣赏、理解、表
偏头痛属血管痉挛所致的一种神经系统疾病,以反复发作为特征。诊断容易,但要选择有效的治疗方法较难。作者从1998-2005年收治偏头痛61例,均采用心得安加阿司匹林观察治疗,不用其
对于连续域分布估计算法,目前普遍采用的方法是利用高斯模型直接对连续随机变量进行建模,通过假设变量之间服从高斯分布,将估计分布的过程参数化,从而简化概率模型建立和采样
随着超分子化学的进步,分子识别在生物成像、药物输运、环境监测和反恐安检等方面的应用迅速发展。荧光化学传感是分子识别研究中的重要方法,设计和合成高选择性和高灵敏性的
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的探讨p21WAFl基因与肝细胞癌临床病理特征(组织学分级、转移、肿块大小和包膜形成)的相关性。方法随机选择45例肝细胞癌患者的癌和癌旁肝组织标本,SP法检测其p21WAFl蛋白表达
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield