【摘 要】
:
随着微阵列技术的创新,基因表达谱数据在肿瘤亚型预测中显示出巨大前景。准确地预测基于基因表达数据的肿瘤类别,有助于为患者选择适当的治疗计划。然而,小样本量仍然是设计
论文部分内容阅读
随着微阵列技术的创新,基因表达谱数据在肿瘤亚型预测中显示出巨大前景。准确地预测基于基因表达数据的肿瘤类别,有助于为患者选择适当的治疗计划。然而,小样本量仍然是设计合理分类器的瓶颈。传统的监督分类器只能利用有标签的数据,大量没有充分后续信息的基因表达谱数据被忽略。半监督分类器通过引入无标签的基因表达谱数据的分布信息已经被证明可以显著提高分类模型的分类性能和泛化能力。本文主要针对基于基因表达谱数据的半监督分类方法进行深入分析,并提出了改进的半监督分类算法,以提高分类性能和数据泛化能力。主要的工作概况如下:针对直推式支持向量机(TSVM)需要通过样本空间中有标签样本分布评估无标签样本分布,在有标签样本数较少和无标签样本与有标签样本分布不同的情况下,很容易导致估计误差较大的问题。本文提出了一种基于渐进过滤的直推式向量机(PL-TSVM),通过对无标签样本的渐进过滤式标注,不仅可以避免因错误评估样本空间中数据分布而引发的学习器性能下降,而且可以在一定程度上过滤标注不一定准确的半标签样本,从而在一定程度上保证新加入工作集中有标签样本的标签正确性,进而降低错误累加,提高学习器性能。有效地解决了半监督学习中无标签样本与有标签样本分布不平衡的问题。在四个公共可用的基因表达谱数据集上进行了仿真实验,当无标签样本与有标签样本分布不平衡时,PL-TSVM算法性能显著优于其对比算法TS VM和S4 VM。考虑到不同样本错分具有不同的错分代价,将代价敏感策略引入PL-TSVM算法,通过评估样本数据与类中心的核距离,赋予样本数据不同的错分代价,得到一种基于代价敏感和渐进过滤的直推式向量机(CS-PL-TSVM)。在基因表达数据集上的仿真实验验证了该方法的优越性。
其他文献
改革开放以来,我国逐渐与国际接轨。在快节奏的时代发展主旋律之下,VC行业应用而生。VC中文释义为风险投资,是一种以高风险、高收益为主要特征的投资方式。现阶段我国的风险
<正>复习课不是将教材的知识从头到尾重新讲一遍,不加选择地再把所有内容都拿来反复练几遍,而是围绕培养学生梳理知识、建构知识网络体系,使之条理化、系统化,并通过查漏补缺
本文提出了将体验式教学和交互式教学相结合应用到《电子商务概论》的课堂教学中,强调以学生的“自我体验”为主导,以师生互动为主线,运用案例、实验操作和情景模拟三种模式
本文在分析计算思维的内涵基础上,抓住其抽象与自动化的特征本质,改进现有程序设计教学方法,并以VF程序设计语言中循环结构一节为例进行基于计算思维的教学活动设计并给出具
采空塌陷是一种破坏性大、隐蔽性强的地质灾害。根据区域历史形成采空区的演变趋势,运用合理的调查评价方法,将可以有针对性解决采空区安全隐患,保障人民群众生命财产安全。
目的探讨优质护理对慢性精神分裂症伴代谢综合征(MS)患者血脂和体质量指数(BMI)的影响。方法将60例慢性精神分裂症伴MS患者随机分为研究组和对照组,对照组给予常规护理,研究组在
当前,中国学前教育市场处于蓬勃发展时期,学前教育配套教材出版市场快速增长。市场规模的激增也引起了政府主管部门的重视。2012年前后,伴随着一系列学前教育新政策的发布,一
目的探讨鼻唇沟皮瓣和耳郭复合组织游离移植在鼻翼缺损修复中的应用。方法自2011年10月至2016年3月,采用鼻唇沟皮瓣或耳郭复合组织游离移植,修复鼻翼缺损32例。分析鼻翼缺损
<正>攒够5万块钱就能去越南,找一个勤俭持家又年轻的新娘回来。今年3月,来自江苏徐州的李世朋跟着中介,踏上了他的越南相亲之旅。这是李世朋第一次出国,他扑闪着眼睛,显得有
<正>"这是任何一本旅行指南上都无法告诉你的真实肯尼亚",孩子们的肯尼亚之旅,完成的是任何一次私人旅行都无法达成的使命。不管大人们自己还有没有梦想,整个社会一直都很关