基因特征的分类能力向量化表征与聚类方法研究

被引量 : 1次 | 上传用户:wanjiawen841002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将数据挖掘技术应用于微阵列数据分析,对寻找潜在功能基因、肿瘤诊断以及确定新药靶点等存在重要意义。从数据挖掘的角度来看,微阵列数据是一种样本数目远小于特征数目的“病态”数据。在这种“病态”数据中,使用数据挖掘的方法找到功能基因和致病基因一直是研究的热点。机器学习中的特征选择所研究的即是如何选取对分类有贡献的特征,因此,一般的特征选择技术可以用于选择基因特征等微阵列数据分析中。但将特征选择算法用于基因特征选择并构造分类模型时,由于微阵列数据的小样本大属性维度特点,仍有些问题没有解决或得到足够重视。首先,在微阵列数据上进行特征选择并构造分类模型方面,鲜有工作从微阵列数据的特点出发进行必要的可学习性的理论分析,其中一个重要原因是对很多方法难以进行可学习性分析。其次,在特征选择中,如何对特征进行表征,将直接影响特征选择结果的优劣。在微阵列数据上,传统特征选择方法大多使用单一度量值来表征基因的分类能力。这种单一的度量值,通常是通过求极值或求累加的操作来获得的,掩盖了基因与类别间隐含的大量信息,而这些信息对于更细微地表征基因分类能力是非常重要的。而且传统的基于单一值表征的特征选择框架相对固定,限制了研究人员使用更加全面的非单一度量值的特征分类能力表征方法进行特征选择。最后,模糊聚类与相似性度量均广泛应用于基因特征选择中,但相似性度量却无法被用在模糊聚类中。由于这一原因,微阵列数据中所包含的样本类别信息这一先验知识无法被模糊聚类所利用。针对上述问题,本文从下面四个方面展开研究。首先,从计算学习理论的角度,对在微阵列数据上进行特征选择并构造分类器的可学习性进行了理论分析。分类器的VC维和可PAC学习的样本量边界是定量分析评价分类器的两个客观标准。由于不同分类器空间构型和理论基础存在很大差异,所以并不是所有分类器的VC维和可PAC学习边界都是易于获得的。本文从VC维的角度,分析了用于处理“病态”数据的RHC分类器。通过对RHC分类器空间构形的分析,推导出了RHC分类器的VC维。根据VC维可知,RHC分类器保证可PAC学习所需样本的上界是多项式级别的,而且处理样本所需的时间也是多项式级别的。依据上述两点,可以证明粗糙超长方体分类器RHC是可PAC学习性。将其与多种已经用于微阵列数据的通用分类器进行了比对可知:尽管RHC分类器相对其他分类器已大大降低了其VC维,且已经优于大多数分类器。然而,要确保RHC分类器在微阵列数据上的可PAC学习性,所需提供的样本量依然相对庞大。通过计算实际问题中需要的样本边界后可分析得出:想要提高分类器在微阵列数据上的PAC可学习性,降低特征数是一条有效降低潜在的学习样本数目的途径。其次,为了更全面地刻画微阵列数据中基因特征,本文提出了一种用向量记录分类能力信息,进而表征基因分类能力的度量向量。通过记录基因对每个类别的分类能力,以向量的形式将这些统计值保存,并表征基因。相对于单一值度量的方法,分类能力的向量化表征能够反映出基因在不同类别上的分类能力,因而能够避免“偏置”和“累积误差”所带来的错误。进一步地,根据向量化表征的结构特征,本文给出了一种新的基于分类能力向量化表征的特征选择算法。通过引入基因的定量分类能力表征向量,可以筛选得到一个保留了原始数据分类能力的基因候选子集。根据这个候选子集,使用随机搜索策略在定性向量化表征的指导下得到最终的特征选择结果。通过定量分类能力表征向量和定性分类能力表征向量,该方法可以从分类能力的角度对微阵列数据中的基因进行特征选择,将特征选择和在疾病识别上的应用结合起来。第三,本文将训练数据中样本类别信息和原始基因特征相结合,得到了引入监督信息的改良基因特征表征。使用距离关系来评价基因与基因之间关系的方法,仍然属于非相似性度量,然而已经引入了先验知识。通过使用改良基因特征表征,在不改变模糊聚类经典框架中目标函数和优化方向的前提下,可以直接将先验知识用于模糊聚类。这一改良基因特征表征的使用,弥补了模糊聚类只能使用非相似性度量的不足,模糊聚类可以在有监督的情况下对基因进行聚类,使得模糊聚类划分更符合实际中的空间分布情况。第四,本文提出了一种基于划分系数和边界密度的模糊聚类有效性评估方法。不同于大多数基于类别中心点间距离的类间离散度指标,新评估方法使用了当前聚类结果中不同类别边界附近的样本稀疏程度和边界距离这些信息。这一方法首先逐个分析每个类的最近类。然后再获取每个类与其最近类的中点密度值作为这个类的类间离散度度量。最后通过对所有类的类间离散度度量求和,得到当前聚类划分的类间离散度值。通过将类间离散度与类内紧致度的联合分析,新提出的评估方法有效评价了模糊聚类结果。借助于这一模糊聚类有效性评估方法,通过在不同聚类数目上进行寻优操作,可以自动确定聚类类别数目。本文在已有的开源微阵列基因表达数据上进行了的大量实验并对结果进行了分析。实验证明,分类能力向量化的表征可以更加准确全面地描述基因。和现有的用于微阵列数据的大多基因选择算法相比,基于分类能力向量化表征的基因选择算法能够得到有较高预测准确率的基因特征子集。基于特征改良的模糊聚类和新提出的模糊聚类评估方法的有效性,通过实验和生物学分析也得以证实。
其他文献
改革开放以来,我国经济飞速发展,人们生活水平不断改善,休闲时间持续增长,旅游业得到迅猛发展,主题公园作为旅游产品中的新类型,以其独特的魅力成为我国旅游业中成长最快的一种现代
食品是人类生存和发展的重要物质基础,食品安全则是衡量一个国家的法制建设水平、社会管理情况以及居民生活幸福指数的重要指标,与国家的经济发展和社会稳定息息相关。近年来,我
唐天宝年间社会经济繁荣,政府仓储丰实,但粮食安全并非没有任何风险。灾害、战争、分配关系、政府制度、吏治状况等是直接或间接影响国家粮食安全的主要因素。从经济、社会、
本文运用协整检验分析和脉冲响应分析等方法,发现国际大宗商品价格和国内CPI、PPI存在长期协整关系。国际大宗商品价格变动对国内物价水平亦形成短期冲击,对PPI冲击尤为强烈。
大豆疫霉根腐病是由大豆疫霉菌侵染引起的对大豆生产有严重危害性的病害。大豆疫霉菌抗药性强,且其毒力演变和进化较快,在生产上较难防治,目前选育和利用抗病品种是防治大豆
污水回用技术在茂名乙烯工业公司循环水系统的工业性应用试验结果表明,外排污水经过深度处理后回用于循环水系统,可减少外排污水量,缓解水资源危机,降低水环境污染.采用适合
相对剥夺感一直是社会学研究的热点问题之一。本文通过对相对剥夺感和集群行为概念的梳理,以及相对剥夺感与集群行为关系的简要分析,来引起人们对引发集群行为原因的重视,以
村镇银行在农村金融服务中发挥着越来越大的作用,也面临诸多困难,研究其赢利模式有现实意义.村镇银行创造利润必须以活动为基础,以价值链为工具,打造增加型赢利模式、成本降
本文针对雷达工作特点提出了一个新的航行方法 ,通过利用雷达反射回波得到测量物标高度,并结合测深仪深度数据,将测量物标精度进一步提高,为驾驶员安全航行狭水道等水域提供
纳税服务既是税务工作的重点也是公共管理学的重要内容之一。追溯过往,自2008年税务系统明确提出“服务科学发展观,共建和谐税收”的工作主题之后,各税务部门便开始由“管理