基于流形的半监督特征基因选择算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:Fukuki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择的目的在于选出能够较好表示类别的相关特征构成的优质特征子集,是克服“维数灾难”的一种数据预处理过程,本质是一种降维技术。目前,特征选择已广泛应用于计算机视觉、图像处理、文本挖掘、机器学习和基因表达谱数据分类等众多领域。特征基因选择则是特征选择方法在基因表达谱数据的应用,目的是找出最相关的致病基因,辅助诊断和治疗疾病。基因表达谱数据具有“高维小样本”特性,并且获取其样本标签的成本高昂,该数据存在大量没有类别标签的样本和少量的有类别标签的样本。针对基因表达谱数据的上述特点,本文对其展开了半监督特征基因选择算法的研究,通过充分挖掘有标签和无标签样本数据的内蕴信息,提高其分类或聚类精度,以便日后能够更好地应用于医学辅助诊断。所做工作如下:(1)深入研究基于流形的半监督降维框架和各种特征选择算法,总结了实现半监督特征选择的一般方法,尤其是半监督图嵌入刻画流形的具体方法;(2)由于数据的局部结构比全局结构更有利于降维,而传统的基于局部边界最大化准则的特征选择算法并未考虑数据分布的全局几何结构以及类别和特征之间的关系,基于半监督流形学习、谱图理论和信息论,本文提出了一种基于局部判别边界最大化的半监督特征选择算法,简称semi MM。并设计了一种半监督特征选择和半监督分类实验环境设置方法,在五个基因谱表达数据集上进行分类对比实验,结果表明semi MM具有很好的鲁棒性和良好的分类精度。(3)同样从数据的局部结构出发,由于欧氏距离不能合理刻画呈现全局非线性结构的数据集的内在流形结构,本文还提出一种基于流形距离的半监督特征选择算法,简称MDFS。通过在三个公共基因表达谱数据集上的聚类实验表明,MDFS整体优于LSDF,说明不同的基因表达谱数据集其分布不一样,是一种对基因谱表达数据内在分布的探索。
其他文献
随着电子商务,视频会议这些应用的出现,人们对网络稳定性的要求越来越高。各个公司也希望稳定的网络服务给公司带来更多的客户和创造更多的价值。互联网服务提供商(ISPs)为了
应用需求驱动着网络技术的发展,当今的互联网业务对网络提出了越来越高的性能要求。随着OpenFlow技术的诞生和发展,从学术界到工业界,已经有越来越多的组织关注到这一有可能
SDN(Software-defined Networking)是一种新型的网络技术,它最重要的设计理念是解耦合控制平面与数据平面,通过开放接口的方式实现交换机的可编程。本文通过对现有SDN与EPC(E
商立方体是一种数据立方体的压缩技术。因为等价类中所有元组的聚集值相等,所以商立方体通过计算并保存等价类的上下界来达到压缩的目的。然而大数据环境下,传统单机数据库无
近年来,随着Facebook、微博、人人网等社交网络平台的兴起,社会网络已经从几十个节点的简单社会网络发展为上万节点的复杂社会网络。研究者逐渐发现传统的数据采样方式已经无
户外采集系统在雾霾等恶劣天气下获取的图像质量较差,这对图像的后期处理等造成了很大的困扰。如何根据采集到的含雾图像获得质量较高的清晰图像成为了图像处理领域的研究热
近年来,医疗事故层出不穷,医患矛盾日益尖锐化,医患纠纷日益增多。造成如此局面原因很多,比如说医生个人医学水平有限,医生滥用药品,药品中未知的风险等。为了缓解这种局面,
在现代实时嵌入式系统设计中,采用在同一资源平台上集成多种不同关键性级别的功能应用方案已经成为一种发展趋势。面向混合关键性系统的实时调度算法研究成为了学术界和工业
伴随计算机及网络技术的不断发展,控制系统中的各类部件利用通信网络相互连接已成为控制系统在未来的主要发展趋势。本研究针对网络控制系统中时变采样周期、数据包丢失等问
随着全球经济的快速发展,众多企业在提高产品“量”的同时,也在对“质”进行提升。节能降耗逐渐成为制造业一个清晰的共识,结合到车间调度中,车间绿色调度可以为企业降低许多