基于基因表达谱数据的特征选择方法研究

来源 :河南大学 | 被引量 : 0次 | 上传用户:XIEJUANJUAN1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
尽管肿瘤治疗情况在当今飞速发展的各种医疗手段下得到了改善,但恶性肿瘤所具备发病率高及生存率低的特点仍然严重威胁人类生存状况。若能尽早的发现并作出准确的诊断,根据诊断的结果来对患者制定相应个性化诊疗方案,就能使得患者的生存率大大提高。在不断研究中,人们发现基因表达谱数据比传统基于形态学和组织学的肿瘤分类系统提供更多信息,于是从信息学角度出发去对肿瘤进行识别分类,成为了当前研究的热门领域。但由于所获取基因表达谱数据具有“高维小样本”的特点,使得直接对关键信息进行识别分析变得非常困难。为了解决基因表达谱数据对分类任务造成的问题,研究者们提出了各种各样的方法对数据进行降维处理。然而基因表达数据可能包括一些重要的相关结构,一些基因可以根据其生物学途径分为不同组。现有方法未能考虑数据中确切相关性结构。因此,从理论方向和生物学的角度来看,理想的基因选择方法应该考虑这种结构信息。针对上述问题,本文工作如下:1.针对传统过滤式特征方法在选择特征子集时,未考虑特征基因之间的作用关系,提出基于强表达特征相关性特征选择算法,该算法对基因表达谱数据集中筛选出关键基因后,在剩余所有的特征基因中寻找与之关联性强的特征构建出相似集合,在全局中寻求目标子集,从而避免只考虑特征排序筛选出的部分特征,忽略部分关键特征等情况的出现。在一些真实数据集上进行验证,实验结果表明了本文所提基于强表达特征相关性特征选择算法的良好性能。2.针对特征选择方法普遍具有高噪声、小样本且未考虑特征之间关系的问题,提出基于正交回归的全局冗余最小流形正则化特征选择算法,在正交回归模型中引入了全局冗余矩阵,在此基础上设计了流形正则化项的方法。其中采用正交回归作为嵌入统计模型,比传统基于最小二乘回归的嵌入方法保留更多统计信息和结构信息;在模型中加入特征权重矩阵,特征得分向量中的值可以用来比较分类任务中特征的重要性,类似于过滤式特征选择方法;在正交回归模型中引入全局冗余项,从全局角度评价冗余信息,方便了对有价值信息的筛选;设计流形正则化项,使得降维后目标特特征子集内部空间结构得到保留。最终本文使用大量的真实数据集,并进行了众多对比实验,进而充分了证实了基于正交回归的全局冗余最小流形正则化特征选择算法的优越性。3.针对基于正交回归的全局冗余最小流形正则化特征选择算法中软回归结果与硬目标值之间的损失函数不能准确反映分类能力的问题,本文对其作出改进,提出大边界正交回归流形正则化特征选择算法,将较大的边界和正交约束考虑进所提模型中,在保证原有优势情况下,保留更多统计信息和结构信息、特征得分向量中的值可以用来比较分类任务中特征重要性,从全局的角度评价冗余信息,且降维后内部空间结构得到保留。该方法同样使用大量真实数据集,在进行了众多对比实验的同时,且将基于正交回归的全局冗余最小流形正则化特征选择算法也作为比较对象,均取得了令人满意的效果。
其他文献
目的1.研制一份《居民中医药健康素养问卷》,并进行信效度检验。2.对江西省15-69岁常住居民开展初步的中医药健康素养现状调查及影响因素分析。方法1.通过文献分析法、头脑风暴法构建居民中医药健康素养条目池。2.采用德尔菲专家函询法对居民中医药健康素养条目池进行专家函询,形成《居民中医药健康素养预调查问卷》。3.随机选取270名江西省居民并采用《居民中医药健康素养预调查问卷》对其开展大样本预调查。采
学位
目的:本研究旨在观察逍遥散合酸枣仁汤联合西医常规治疗对“肝郁血虚型”室性早搏患者的总有效率、平均早搏次数疗效、相关中医症候的影响,评价并分析临床疗效。方法:选取60例在江西中医药大学附属医院就诊的“肝郁血虚型”室性早搏患者,随机分为对照组30例和治疗组30例,两组均在改善生活方式的基础上,对照组采用单纯西医治疗,治疗组在对照组的基础上加服逍遥散合酸枣仁汤(逍遥散合酸枣仁汤:柴胡15g、白芍12g、
学位
传统中医药对防治Ⅱ型糖尿病(Type 2 Diabetes Mellitus,T2DM)的促进作用和优势不断增加备受国内外的深度关注,既往的临床研究由于各种原因缺少统一标准且规范的T2DM中医证型分布分析,从而导致治疗方案的规范性和治疗效果评价的安全性和有效性严重不足,严重影响到中医临床科研工作中结论的科学合理性。使得传统中医中药科研成果的应用推广受到了严重制约。而且,探索T2DM中医病、证分布情
学位
随着人工智能算法的不断发展,无人驾驶技术取得了巨大的进展,海量的轨迹数据集为无人驾驶技术提供了数据支撑。现有高质量且有标注的轨迹数据集较少,标注成本过高,无法大规模应用,标签信息的正确性很大程度上影响监督学习的模型性能。车辆的轨迹预测可以提高无人驾驶汽车的安全性,现有的车辆轨迹预测模型以基于数据驱动构建,随着历史轨迹序列长度增加,存在重要特征信息丢失或覆盖的问题,并且大多数的车辆轨迹预测模型忽略了
学位
作为智能监控的核心技术,行人重识别在社会中的重要性与日俱增。行人重识别技术旨在不同时间、非重叠摄像机下检索与特定查询图像具有相同身份的其他图像,是人工智能领域的研究热点之一。然而,有监督行人重识别目前主要面临行人姿态差异较大、相机风格变化、以及行人关键部位被遮挡等挑战。此外,无监督行人重识别也面临着因源域和目标域数据分布不一致而导致的域间差异以及域内样本间风格差异而导致的网络特征提取能力不足等问题
学位
多传感器管理旨在调度有限的多传感器资源,根据不同的优化准则来满足指挥控制、策略制定等应用的信息需求。由于受多传感器探测性能、跟踪精度以及探测风险等限制,在多传感器协同探测目标的过程中,为了更好地调度多传感器资源对目标进行跟踪,有效地降低威胁态势风险并更好地保证多传感器自身安全等对多传感器管理研究具有重要意义。为此,本文以凸优化、最优估计、信息融合等为技术手段,以联合风险控制为导向,重点研究复杂场景
学位
目的:长期以来,医疗保障制度改革是我国各级政府的工作重点,相关部门始终坚持以人民为中心,把人民健康摆在凸出位置。医疗费用负担直接关系人民健康水平,研究显示,目前我国卫生总费用以接近14%的年增速上涨,个人卫生自付费用年增速也超过10%,人民群众看病就医费用负担,尤其是高额医疗费用负担仍相对较重。因此,在现有医疗保障制度框架下,理顺补偿关系是减轻人民群众就医费用负担的重要课题。近年来,我国基本医疗保
学位
当前,我国已经进入高质量发展新阶段,高质量发展的内涵是以创新推动产业发展,这就要求将产业链和创新链在内容、机制、模式等方面深度融合,提升创新能力,将科技转化为效益。现实中,不同区域经济社会发展水平存在着巨大的差异,双链融合的动力、机制、模式和效果也存在着巨大的差异。产业双链融合脱胎于产学研协同创新,但从内容、作用机制等又高于产学研协同创新,可以说产学研协同创新是产业双链融合的前置阶段。中医药产业的
学位
目的:在了解上海市糖尿病视网膜病变患者医疗费用现状的基础上,分析慢性病管理对患者疾病经济负担和健康水平两个方面产生的影响,并探索其产生影响的途径,为进一步改善慢性病管理效果提供参考。方法:首先,采用SHA2011核算体系分析上海市糖尿病视网膜病变患者医疗费用现状,包括五个维度:基本情况、就诊人群分布及次均费用情况、服务功能构成、就诊机构分布及保障水平。其次,参考Cochran样本量测算模型确定调查
学位
1.研究目的和意义本研究力求在厘清健康服务业、中医药健康服务业等相关概念的基础上,通过构建适用于本研究的理论分析模型,并且运用模糊集定性比较分析法探讨不同影响因素以及因素组合作用于中医药健康服务业发展所呈现的不同特点。进而为中医药健康服务业发展提供针对性的对策和建议。通过研究发现,一直以来,学术界对于中医药健康服务业发展的研究主要还是围绕其中的部分方面和领域进行研究,且认为各影响因素对结果的影响是
学位