特征选择与样本选择用于癌分类与药物构效关系研究

被引量 : 0次 | 上传用户:wilee818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于大数据建模,特征选择与样本选择能够大幅度提升模型预测性能、降低建模时间,是构建分类或回归模型的必要步骤与有效手段。本文从特征获取及筛选、学习机器选择、样本选择多角度优化模型,并用于癌基因芯片数据分析(分类)、药物定量构效关系(Quantitative Structure-Activity Relationship, QSAR)研究(回归)。首先,克服传统F测验、最高得分对家族算法等仅单向比较、忽略互作等缺陷,基于不等次重复双向方差分析,双向比较多个基因,整体考虑了多基因与表型互作,经综合加权排序与去冗余获取信息基因;结合转导推理,构建了无需训练的直接分类器。10个多分类肿瘤表达数据的信息基因选择与独立预测多角度比较结果表明:1)新方法以较少的信息基因获得了优于参比模型的平均预测精度(92.06%);2)优于最高得分系列与基于相关性的基因选择算法;3)与支持向量分类相当,优于线性逻辑斯蒂回归与朴素贝叶斯。对白血病与乳腺癌数据,实施多轮基因选择并以基因本体分析生物学通路,发现若干重要生物学通路及致病基因。其次,针对方差分析不适用于回归数据特征选择的弊端,将二元矩阵混排过滤器(Binary Matrix Shuffling Filter, BMSF)用于RPMI8402与P388两个细胞系的抗肿瘤药物QSAR研究。以量子化学计算软件PCLIENT获取2923个高维分子描述符,以BMSF实施特征筛选,以支持向量回归(Support Vector Regression, SVR)建模预测,结果表明:基于文献描述符的SVR模型优于多元线性回归、逐步线性回归、偏最小二乘回归,与人工神经网络相当;对高维描述符,经特征筛选分别保留11个特征,基于保留描述符的SVR模型优于其他参比模型,且非线性回归极显著,多数保留描述符的单因子重要性达显著,对药物活性的效应分析等为高活性抗肿瘤药物设计提供思路。进一步,同时考虑特征筛选与样本选择,将BMSF与地统计学半变异函数用于血管紧张素转化酶抑制剂与人类白细胞抗原Ⅰ型分子结合肽QSAR建模。以531个氨基酸理化性质表征肽序列,以BMSF筛选特征,以地统计学确定公共变程,对每个待测样本,从训练集中选出小于公共变程的K个近邻样本,以SVR实施个性化预测,结果表明:对1593与4779个高维描述符,经特征筛选后5次样本划分中分别平均保留15.4与15.8个特征,独立预测精度Q2pred分别为0.982与0.806,均优于文献参比及单向选择模型。分析了多套描述符子集的残基分布与偏好,为设计高活性肽提供理论指导。本文方法在生物标记物筛选、模式分类、分子活性预测等领域有较广泛应用前景。
其他文献
以2006—2015年国家自然科学基金委员会管理科学部立项数据为研究对象,从资助类别、研究队伍结构、依托单位和研究领域等方面分析比较国家“十一五”与“十二五”时期管理科
从人能否匀速行走,人行走过程中所受的摩擦力、功能关系以及人所受的摩擦力与动量的关系四个方面,分析了人行走过程,澄清了有关错误的概念,指出了有关文献中的不妥之处.
政府的环境信息公开不仅是政府环境管理基本的条件,而且是公众参与环境保护的重要前提条件。我国政府环境信息公开取得了较好的成效,但从环境信息公开的实效分析,部分问题仍
转向梯形机构是使汽车转向时实现内、外轮理想转角关系的核心部件.本文应用机械系统动力学分析软件ADAMS建立前悬架-转向系统的统一仿真模型,同时对前悬架和转向系统的运动学
作为救死扶伤、维护社会稳定的公共机构,医院在为百姓提供医疗保健服务的同时,也需要通过自身条件的改善,例如改善医院的医疗通讯设施,来保证医院的长期发展。当前医疗体制改
[目的]通过临床观察胸痹患者的舌象表现,以判断病邪的性质,推断病势的进退,指导临床辨证及立法。方法:对住院患者进行舌象观察,拍照并记录舌色、舌苔、舌形,将结果进行统计学
贵州是一个多民族地区,具有丰富的民族村寨旅游资源,充分利用这些旅游资源,将会对贵州的扶贫开发起到积极的作用。以西江苗寨为例分析贵州民族村寨的扶贫开发效应,指出影响贵
农业是我国国民经济发展的重点又是薄弱环节,农村金融的发展对于农业的发展起到了至关重要的作用。我国的农村金融已有较好的发展,但融资难融资贵依然是一个难以解决的问题。
互联网产品以其高效率、低成本等特点为广大公众和小微企业提供更优质的理财和融资服务,使得传统业务和新兴平台之间实现了初步契合,而对金融机构的金融产品造成了前所未有的
机载弹射装置是将悬挂武器准确可靠地弹射离机的复杂武器系统关重件。本文以机载悬挂武器弹射装置作为研究对象,综合运用内弹道学、气体动力学、有限元与优化设计等现代设计