化学计量学算法实现的软件开发基础研究

被引量 : 0次 | 上传用户:mnwang2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化学计量学经过几十年迅速发展,日趋成熟,已成为从复杂体系的仪器分析数据中提取有用信息最有效和最具系统性的方法之一,为复杂多组分体系的定性定量分析带来了大量新的研究思路和解析手段,它也能为仪器分析数据处理提供了指导性的理论框架。编写和实现出可靠易用的化学计量学软件产品能最大限度地发挥化学计量学的作用,但是从化学计量学方法到可靠易用的软件产品之间还有许多基础工作。不仅要系统研究化学计量学算法,在特定情况下要提出新算法,而且在研发过程中还要引入计算机领域中的新技术以保证软件产品的市场竞争力。本论文由此展开,主要涉及开发化学计量学软件所需基础算法研究、用C++编程语言开发化学计量学算法库和计算机新技术在化学计量学软件中的应用等方面,成功地解决了将化学计量学方法转化为可靠易用的软件产品过程中的几个基本问题,如实现化学计量学软件产品的先决条件-线性代数与统计学运算库构建、用多核计算加速建模过程和用化学计量学模型标识语言保存模型、提出了几种高效的预处理算法等。现对主要研究内容简述如下:一、化学计量学算法通常由系列线性代数和统计学运算组成,开发化学计量学软件产品的先决条件为构建一个设计精良的高性能线性代数与统计学运算库。笔者从本科毕业设计开始,投入近六年时间,在BLAS、LAPACK、CSparse、Fortran. C和C++等源码和编译器基础之上,逐渐开发出一套有自主知识产权、设计良好、易用、准确、高性能的线性代数和统计学运算库;并在此代码库基础上用C++实现了常用化学计量学算法。此算法库封装和设计较好,利用该库和C++进行化学计量学软件开发能够以和MATLAB差不多代码量完成相同工作,大大降低了开发的难度。在算法库开发过程中严格遵循ISOC++标准,所以构建出的库可以跨平台和编译工具链,目前测试过的操作系统平台有Windows、Linux和Mac OS X;编译器包括GCC、 MSVC、LLVM-Clang和ICC。在性能和准确性上,通过与MATLAB2011B和R2.14比较矩阵乘法和奇异值分解的运算时间与结果,所构建的运算库能够达到MATLAB2011B的性能,比R2.14至少快4倍,计算结果与MATLAB2011B和R2.14相同,说明所构建库的准确性。二、由于工艺和制造技术飞速进步,多核电脑迅速普及。在化学计量学软件中,如果能够用多核来加速计算过程,能成倍地缩短计算时间,大大增强软件产品的性能。我们首次将多核计算引入化学计量学软件中,并以用交互检验来确定确定主成分回归和偏最小二乘回归最优主成分个数为例,来展示多核计算的能力。随着参与运算的核心增多,交互检验时间直线下降。结果表明多核计算的确是一个用来解决化学计量学中计算密集和数据密集型问题有用的工具。三、建好化学计量学模型之后必须将模型保存在硬盘里供预测之用,这就会涉及到模型存储和共享方面的问题。通过提出化学计量学模型标识语言,可以比较完美地解决此问题。化学计量学中要保存数据常为向量或者矩阵形式,利用base64编码算法将二进制数据转化为字符串,能很好地解决向量或者矩阵保存问题;base64算法还有—个优点为:它是易读取性和文件大小之间一个平衡点。目前化学计量学模型标识语言能够存储样本划分、变量选择、预处理、奇异样本剔除和建模等方面的信息。由于化学计量学模型标识语言基于XML语言,所以有非常良好的扩展性。XML语言在软件开发领域得到了广泛的应用,以化学计量学模型标识语言格式存储的模型文件能非常方便地在其他软件或编程语言里重用。一般来说只要所用开发语言有XML解析和XPath查询库就可以从模型文件有效地取出所需数据。四、针对拉曼光谱的荧光背景和色谱中常见的基线漂移问题,本文中提出一种智能的拉曼光谱背景扣除算法。它利用墨西哥帽连续小波变换准确找出每个拉曼峰的位置,然后利用峰的位置信息去构造二进制权重向量和加权惩罚最小二乘方法进行背景拟合。为了将基线校正算法集成到软件产品中,笔者将上述方法简化,提出一个更通用的基线校正算法:白适应迭代重加权惩罚最小二乘基线校正算法airPLS,并用拉曼光谱、色谱和核磁数据验证了所提出方法的有效性和性能。通过采用稀疏矩阵技术,基线校正过程执行速度和内存使用都只与分析信号的长度成线性关系,性能和扩展性特别好,非常适用于大批量分析信号的基线校正。五、当利用整条色谱进行指纹谱分析时,色谱保留时间的漂移会使定性定量分析结果变得不准确。在分析开始之前,必须将色谱保留时间漂移校准好,开始后续的分析工作。为了解决保留时间漂移问题,我们提出了基于连续小波变换和微分进化算法的色谱谱峰漂移校准算法。首先通过线性插值将待校和参考色谱等长;利用墨西哥帽连续小波变换准确找出待校色谱每一个峰的起始位置;以每个峰的位置为待优化的变量,以待校和参考色谱之间的相关系数为目标函数,利用微分进化去优化它们的位置,使待校和参考色谱相关系数最大化。利用该算法来校准红芍的高效液相色谱指纹图谱,结果表明,该校准算法使指纹图谱的相关系数得到了很大的改善,能够在不改变色谱峰的形状情况下将指纹图谱校准好。六、色谱技术常用于高通量分析领域如代谢组学、中药质量控制等。但是在用统计学或化学计量学从大量分析数据获取有效信息前,要进行耗时的预处理,尤其是谱峰校准。于是我们提出了多尺度谱峰校准,它先利用连续小波变换准确找出待校色谱每一个峰的起始位置,然后将待校色谱中的谱峰按由大到小的顺序依次校准。在校准过程中,使用快速傅立叶变换计算交叉相关,所提出算法的时间复杂度仅为NlogN,能够在可接受的时间内完成高通量色谱谱峰校准。通过与最常用的两种校准方法进行比较,可得出该方法能在校准过程中保证峰形不变、速度常快且不易受背景或噪音的干扰。
其他文献
王天文,南京市玄武高级中学心理辅导中心主任,南京市玄武区兼职心理教研员,南京师范大学心理学院特聘校外硕士生导师,中学“校内三级心理辅导制”倡导者,江苏省教学名师,南京
路易·巴赞教授是欧洲突厥学的泰斗,其代表作是法国国家级博士论文《古突厥社会的历史纪年》。然而,本文作者发现,巴赞教授使用了一种历史上不曾存在过的"六十纪年周期":由
从多色OTF的普遍式出发,取D65光源和标准视见函数之乘积为权函数,说明目视望远光学系统多色和单色光成象性能的表示法。通过对传函仪(光源和接收器)的光谱响应校正来完成轴上多
由于回收产品在数量、时间与质量的高度不确定性,以及存在多个可替代的供应源,逆向物流的库存管理相当困难与复杂。签于传统库存优化问题的定量研究的局限性,论文采用马可夫
随着科技的迅速发展,非线性滤波方法在信号处理、目标识别、系统状态与参数估计以及金融工程等领域获得了广泛的研究与应用。传统的非线性滤波方法大都是在线性化和高斯噪声
作为一种新型的物流增值服务,物流金融的发展近几年来在我国已引起高度重视,尤其在我国的“珠三角”、“长三角”、“环渤海”以及中西部的少数省市已获得迅猛发展。2011年3月,
医院空气污染是引起院内人群感染的重要因素之一,医院环境空气质量的检测和控制正在日益引起人们的重视。传统的空气消毒方法,如紫外线灯照射、臭氧消毒、甲醛熏蒸等,只能对
2000年,M.Dupuis,V.Bojarevis曾经直接将300 kA电解槽的设计翻新改成350 kA设计,继而又利用延长槽壳作了400 kA的热-电场设计。2003年,作者又进一步加长和稍微加宽了槽壳,提
目的:通过检测多囊卵巢综合征(PCOS)大鼠血清与卵巢组织中miRNA-93及血管内皮生长因子A(VEGFA)的表达水平,探讨循环miRNA-93及靶基因VEGFA在PCOS发生发展过程中的作用机理与诊断价
为有效利用香蕉茎秆资源,提高厌氧消化效率,采用蒸汽爆破法对香蕉茎秆固体剩余物进行预处理,探讨不同预处理条件对香蕉茎秆厌氧消化产气性能的影响。试验结果表明:当汽爆压力