论文部分内容阅读
中医药物质基础研究是中医药现代化的重要内容,通常采用高效液相和质谱联用仪来获取实验数据。此类实验数据通常包含成千上万种物质,呈现出高维数据特点;同时由于实验样本数的限制,呈现出小样本的特点。中医方药在治病的过程中,往往呈现出多成分、多疗效以及非线性的特性,而中医药实验过程复杂、时间长、实验动物有限以及一些客观因素造成的实验误差等原因,导致有效实验数据样本较少。中医药领域的数据的复杂性使其难以直接使用传统的机器学习方法进行分析。因而,需要对数据进行适当的处理,使其能够适用于传统的数据分析模型。本文主要是基于偏最小二乘的优化对中医药数据进行处理,偏最小二乘的优化主要从特征选择、非线性特征提取和回归模型的非线性改进三方面着手。本文所做的主要工作有:(1)提出了一种基于特征相关的偏最小二乘特征选择方法。针对传统的偏最小二乘法只考虑单特征的重要性以及特征之间存在冗余和多重共线性等问题,将特征之间的统计相关性引入到传统的偏最小二乘分析中,构造了一种基于特征相关的偏最小二乘模型。首先利用特征相关度对特征进行评估预选出特征组,然后将其放入偏最小二乘模型中进行训练,评估该特征组是否可取。结合前向贪心搜索策略依次评价候选特征,并选中使目标函数最小的候选特征加入到已选特征。分别采用麻杏石甘汤君药止咳、平喘和UCI数据集进行分析处理,实验结果表明,该特征选择方法能较好寻找较优的特征组。(2)提出一种融合随机森林的偏最小二乘法方法。针对偏最小二乘法的线性本质,而随机森林算法组合多个分类器,具有自适应性,适合非线性回归。将偏最小二乘法外模型中的提取的自变量主成分和原始因变量构建随机森林,根据残差信息递归建树,直到满足事先设定的条件为止。在麻杏石甘汤君药平喘实验、麻杏石甘汤君药止咳实验和UCI机器学习数据集上进行了实验分析,结果表明,融入随机森林的偏最小二乘法能较好表达中医药数据的特征,提高非线性数据的预测精度。(3)提出一种基于深度置信网络的偏最小二乘法优化方法。针对偏最小二乘内部采用的交叉核验方法会导致主成分急剧减少,从而降低回归方程的精度,而中医药数据对主成分的选取尤为敏感。该方法主要是利用深度学习模型抽取原始数据的上层特征,将抽取的特征放入偏最小二乘模型进行多元线性回归,在规避对主成分的个数选取问题的同时,还反应了中医药数据中所包含的非线性结构。分别采用大承气汤实验数据和UCI数据集的数据进行分析处理,实验结果表明,基于深度置信网络的偏最小二乘分析方法对中医药数据有很好的适应性。(4)针对参附注射液治疗心源性休克的物质基础实验数据展开分析,首先将原始数据的内源性物质和外源性物质区分开,使用单因素方差分析对数据进行预处理,去掉那些取值变化小的特征,采用十一种有监督的单变量特征选择方法,对剩余的内源性物质进行特征重要性排序,取重要特征的交集。再利用无监督的特征选择方法去除冗余特征。将所得特征集合作为生物标记物(内源性物质)。最后,通过所得的生物标记物分析外源性和内源性物质之间的关系。(5)在基于以上研究成果的基础上,按照中医药领域的数据分析需求,采用PYTHON相关编程语言和开发工具,设计并开发了中医药数据分析系统。