基于年龄预测问题的特征建模算法研究与应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:hblhzl_18
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
衰老是一个复杂的过程,其特征是生理功能的全面下降,并与多种疾病风险的增加有关。在我们这个逐渐老龄化的社会,可靠的年龄生物标记物以及精准的年龄预测对于有效和优先管理医疗服务以及患者资源是非常重要的。年龄预测以及年龄标记物不仅在现代医学中有积极的作用,在法医学中也是一个重要的研究方向,准确的预测个体的年龄可在刑侦案中帮助侦查员缩小对嫌疑犯的搜查范围,大大减少人力和物力。年龄生物标记物被定义为生物体的一个生物学参数。目前最新发现DNA甲基化可用来作为预测年龄的有效标记,已观察到某些CpG位点随着年龄的变化呈现低甲基化或高甲基化变化。目前甲基化测量方法大致分为绝对定量、相对定量以及全基因组DNA甲基化测量三类方法。随着科学技术的发展,全基因组水平的测量可检测近百万的CpG位点的甲基化情况,而研究使用的样本远远小于此数量,这使得DNA甲基化数据具有样本小、维度高的典型特征。直接使用这种数据训练模型,容易出现训练集预测效果好,但测试集预测能力堪忧的局面。另外并不是全部甲基化位点都与年龄相关,每次检测所有的甲基化位点会导致成本过高造成浪费。为避免出现过拟合,模型泛化能力差同时降低成本,建模前需对DNA甲基化位点进行筛选。本文是针对年龄预测问题进行特征选择以及模型构建的研究。我们融合了Filter类和Wrapper类方法提出了一种三步骤的特征选择算法——AgeGuess。该方法第一步借助Filter方法的快速性,利用最大信息系数(MIC,The Maximal Information Coefficient)初步筛选与年龄相关的CpG位点,接下来凭借Wrapper方法的准确性进一步去冗余,此过程使用了SVR-RFE和BackFS算法。AgeGuess最终选择了107个甲基化年龄标记物,与实际年龄相比,使用这些年龄标记物构建回归模型预测年龄,平均绝对误差为1.9859。同时我们选择了常用的特征选择方法与AgeGuess进行了比较,如皮尔逊相关系数、互信息、单变量F回归、L1-RFE、L2-RFE。在选取相同数量特征情况下,AgeGuess选择的特征子集要优于其他方法。为了证明AgeGuess同样适用于其他数据集,我们在EPIC数据集上使用AgeGuess建立预测模型,其平均绝对误差为2.4780。EPIC数据集选择的CpG数量未388个,其中214个出现在450k阵列中,另外174个是EPIC芯片独有的。EPIC数据模型可能需要450k阵列中6%独有的甲基化特征来精准描述老化过程。为进一步优化年龄预测模型,我们还研究了性别对于年龄预测模型的影响。通过分性别建立年龄预测模型,我们发现年龄预测模型可通过建立两个性别特定的模型来进一步完善。将选出的甲基化位点与所在基因相对应,在全性别组上出现了已经被证明与年龄相关的基因如:ELOVL2、KLF14、CCDC102B、ATPAF1、ALDOA等。此外有研究发现其他类型数据也可用于年龄预测,如转录组[1]、糖基化[2]等数据,后续工作中我们将加入各类数据进行年龄预测研究。
其他文献
电化学DNA生物传感器具有灵敏度高、特异性好、携带方便、耗能少等优点,与各种信号放大策略和可再生策略相结合,可以实现对检测目标的痕量分析,受到了研究者们的广泛关注,目前已成为当今生物学、医学领域的前沿性课题。然而,开发高灵敏度的电化学DNA生物传感器仍然面临很多挑战。在电极与溶液的界面上,传质速率的减小和拥挤效应的增加,使得DNA的识别与杂交受到很大影响。DNA纳米技术的出现,为电化学DNA生物传
随着我国信贷业务的逐年增加,金融机构和地方经济得以蓬勃发展,但也伴随着信用风险的不断增长。为了有效规避风险,减少客户误判导致的银行亏损,我们需要探讨更优的方法来对个人信用进行评估。本文选取Lending Club公司2018年的贷款数据作为原始数据,结合国内外文献和信用评估构建准则,建立指标体系并据此确定了50个变量。研究内容主要包括两方面:第一,针对指标体系中特征选取的问题,本文创新性的将主成分
一方面,关系专用性投资可以降低企业的生产成本,但另一方面,关系专用性投资也会在交易双方之间形成一种锁定效应,使交易一方有机会攫取专用性资产产生的潜在的可挤占的专用性准租。现实世界中,由于人的有限理性等原因,契约经常是不完全的,交易一方可以对另一方的收益进行掠夺,即发生了敲竹杠这一事后的机会主义行为。做出专用性投资的一方预期到这种被敲竹杠的风险,很难选择有效率的投资水平,进而影响整个社会的福利水平。
蛋白质是组成人体一切细胞、组织的重要成分,机体所有重要的生命活动都需要蛋白质的参与。氨基酸是蛋白质的基本组成元素,不同氨基酸的排列组合构成了蛋白质的基本序列骨架,称为蛋白质序列。通过分析蛋白质序列对进一步分析蛋白质的高级结构信息有着极大帮助,这也是对蛋白质结构乃至功能进行分析的前提和基础,并对下游的药物设计等应用领域也有一定的指导作用。蛋白质序列分析的首要步骤是先对蛋白质序列进行编码提取特征。目前
近年来随着移动互联网的迅猛发展以及人们对位置服务的需求增多,室内定位技术成为了国内外各大科研机构争相研究的重点课题。室内定位技术亟待应用于商场、地下停车场等消费
偏振复用相干光正交频分复用(PDM CO-OFDM)技术作为下一代通信系统的重要技术之一,具有频谱利用率高,对色散鲁棒性能好等优点,但由于接收端需要激光器来产生本地载波,使得PDM
多智能体系统的平均一致性问题在控制领域中有着非常重要的地位,在工程实践中具有广泛的应用价值。基于此,针对带有时滞多智能体系统的平均一致性问题开展研究。通过在时滞多智能体网络中引入PD控制协议,研究PD参数对系统平均一致性的影响。为寻找满足系统达到平均一致时间最短的参数组合,先规定比例参数γ=1.0,然后使时滞τ与微分参数α通过仿真模拟的方式任意组合,发现在时滞τ≤0.48的情况下,使得系统趋于平均
伪谱法在飞行器轨迹最优控制问题的求解上具有独特的优势,能将飞行器轨迹最优控制问题参数化为非线性规划问题。转化得到的轨迹非线性规划问题一般都具有高度非线性、强约束、大规模等特征。序列二次规划算法收敛速度快,计算精度高,常用于求解伪谱法转化得到的非线性规划问题。但在大规模复杂的轨迹非线性规划问题求解中,直接使用序列二次规划算法,会因初值依赖性高,收敛半径较小等不足,而陷入局部极值状态,出现找不到最优解
随着改革开放的深入,中国经济的迅猛发展令世人瞩目,但与此同时,不断扩大的收入差距已经成为制约经济持续稳定发展的重要问题。日益扩大的收入差距导致长期消费需求不足,减少了企业的创新活动,降低了企业竞争力和盈利能力。而企业成本加成率水平作为衡量企业盈利能力和竞争力的重要指标,可能会受到收入差距的影响。因此,文章采用中国工业企业数据库,实证检验了收入差距与中国制造业企业成本加成率之间的关系及其作用机制,并
敲竹杠问题是现代契约理论和制度经济学的最重要议题之一,敲竹杠行为广泛地存在于各种需要在事后进行议价以分配事前的关系专用性投资(relationship-specific investment)带来的剩余的双边关系中。由于契约的不完全性,双边关系中的投资及其收益的数额对于双方是可观察但是对于第三方是不可证实的。当存在敲竹杠的可能性时,专用性投资的投入方出于事前对于敲竹杠行为的预见性,会导致事前的专用