基于启发式搜索的生物特征辨识算法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户：zkry123

【摘要】

：

肿瘤是影响人类健康的主要的疾病。而基因微阵列和蛋白质质谱等生物技术的出现为疾病的诊断和治疗提供了新的方法，开辟了新的途径。但由于数据具有高维、小样本等特性，常规的模

【作者】

：

解瑞飞

【机构】

：

杭州电子科技大学

【出处】

：

杭州电子科技大学

【发表日期】

：

2012年期

【关键词】

：

随机搜索特征选择决策树基因微阵列数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

肿瘤是影响人类健康的主要的疾病。而基因微阵列和蛋白质质谱等生物技术的出现为疾病的诊断和治疗提供了新的方法，开辟了新的途径。但由于数据具有高维、小样本等特性，常规的模式识别方法已不再适用。针对此类数据，如何剔除冗余特征、如何从海量的数据中挖掘出隐藏在数据背后的有用的生物信息成为研究识别和分类问题的关键。而目前常用的特征识别方法根据子集获取的方式，可以分为基于随机搜索和非随机搜索策略的特征选择算法；从机器学习角度，特征选择算法又可以分为：过滤法和缠绕法。过滤法独立于分类器，分类精度无法保证；缠绕法在挑选过程中需要反复调用内嵌分类器以评估基因的分类性能，造成极高的计算量。除此之外，数据的高维、高噪声的特点增加了过拟合的风险。近年来，Micha Draminski等人结合随机搜索策略和决策树，提出Monte Carlo featureselection（简称MC）算法，它是一种随机搜索的特征选择算法，不仅降低了搜索时间，而且避免结果陷入局部最优的风险，对高维数据具有较强的适应性。MC算法中所用的判别准则—决策树，它综合考虑了分类率及变量的重要性，避免过度依赖分类率，使得最终结果对于不同的分类器具有较强的鲁棒性；决策树中所用的判别指标不同于传统单纯的分类率，其可以减低样本不平衡问题所造成的影响。但是，MC方法在搜索变量空间过程中没有合理规划，并且不同的迭代间相互独立不相关，没有相互的“通信”，没有合理利用历史成绩和当前排名，造成搜索效率低，结果受随机次数影响较大。在MC算法基础上，结合职业网球选手排名机制，提出基于职业网球选手排名的基因随机选择算法(Feature Selection Algorithm based onProfessional Tennis Players Ranking, PTPR)。PTPR算法保留了MC算法的精髓，即随机选择及决策树判别，同时借鉴职业网球赛的排名机制，引入了“种子变量”、实时滚动更新排名，优化了搜索过程，提高了搜索效率，保持了结果稳定。在迭代过程中，PTPR算法不同的迭代间，通过“记忆”列表，实现了“信息互通”，利用当前最优变量更新种子变量并排名，然后在下一次迭代中对种子变量的性能进行重新的评估，重新提取当前最优变量，如此迭代循环，直至达到最终可接受范围的最优解。在搜索变量的同时，对已发现的变量“记忆”，在下一次迭代中对其重新验证和评价，不仅提高了搜索效率，而且最终所得的最优变量是多次评估的结果，而非单调一次循环所得，体现了公平公正原则。通过在Leukemia、Colon、Glioma、Prostate、Lung和Ovarian数据集上从四个不同的角度对PTPR的性能进行了评估，即变量排名的收敛性、变量的重复率、样本的分类率及AUC。通过变量排名的收敛性和变量的重复的实验中可以看出，PTPR算法相对于MC算法，变量排名变化幅度明显低于MC，并以较少的迭代次数收敛到稳定的变量排名，并且PTPR多次实验所得到的结果相似性明显高于MC，受外界因素影响较小。通过分类率和AUC实验表明，PTPR所得到的特征变量在独立的测试集上获得了较高的分类，并保持稳定，而MC却动荡变化。综上可知，PTPR算法在搜索变量的过程中，能够快速有效的收敛到稳定的变量排名，在不同的数据集上所得到的变量集合在不同的分类器上保持了较高的分类率。

其他文献

基于多尺度几何分析的图像数字水印研究

数字水印技术产生和发展是和日常生活中的需求密切相关的,多尺度几何分析理论的出现为数字水印的研究提供了新的工具。多尺度几何分析是比小波变换更高效的图像稀疏表示技术,

学位

数字水印多尺度几何分析曲波变换NSCT混沌加密

电力营销机房的网络设备管理系统的设计与研究

计算机网络规模的日益庞大，拓扑结构的日益复杂，随之而来的是网络设备和新型组网技术不断出现。因此电力营销机房内部的网络设备也在日益更新且它们的管理也变得越来越特殊和独

学位

网络设备管理电力营销机房SNMPMIB

基于网络传输的视频火焰与烟雾探测器设计与实现

考虑到传统的感烟、感温等硬件传感器技术存在反应时间较慢、大规模布设成本较高等使用限制,而视频图像探测技术在消防火灾探测领域相比传统技术具有很多优势,尤其是可以检测

学位

智能消防探测机器视觉处理火焰图像处理烟雾特征识别

基于车载视频的前驶车辆测速方法与应用研究

随着国家经济的飞速发展,道路上行驶的车辆数量逐渐增多,高速公路的总里程也不断地增加。由于高速公路畅通无阻,一些机动车存在超速行驶的行为,超速会带来严重的交通事故与人

学位

车载双目视频车底阴影Camshift算法前驶车辆速度算法移植

湿式DCT离合器液压系统的自适应滑模控制研究

近年来,随着经济的快速发展和汽车自动变速器技术的不断提高,双离合器自动变速器(Dual Clutch Transmission,DCT)以其良好的动力输出性能和独特的结构等特点,成为汽车变速器

学位

湿式DCT离合器液压控制系统自适应滑模控制非线性稳定性分析

坯布疵点识别和分类方法研究

布匹疵点检测在布匹质量检测中具有重大作用。传统的布匹疵点检测方法具有检测速度慢、检测准确率低、对检测工人经验水平要求高等缺点，不能满足纺织品现代化大规模生产的要求

学位

布匹质量检测疵点识别疵点分类准确率

动力定位船典型单一故障下运动预测研究

近几年随着对海洋资源的开发，很多大型的海洋工程应运而生，因此对海上作业船的需求量也越来越多，要求也越来越高。一些大型动力定位（DP）船舶，如深海铺管起重船、半潜式海上钻井平台

学位

运动预测典型单一故障海浪不确定项OKID灰色神经

非方系统的控制及其在燃料电池中的应用

高维多变量系统常见于生产过程和制造工艺,多变量系统分为两类：方系统和非方系统。方系统为输入输出维数相等的系统,而非方系统为输入输出不等的系统。其中非方系统又分为胖系统和瘦系统,胖系统属于超定系统,即输入变量多于输出变量,瘦系统属于不定系统,即输入变量少于输出变量。工业控制要求的日益提高,输入变量和操作条件等的变化,产生了非方系统。对于非方系统的控制,传统的控制方法难以满足要求,所以需要新的控制方法

学位

非方系统PID控制模型预测控制质子交换膜燃料电池动态模型

基于贝叶斯理论的人脸识别算法的研究

相对于其他生物特征识别技术，人脸识别具有操作简单、结果直观、隐蔽性好的优点。因此人脸识别技术应用广泛，可用于身份识别、人脸视频检索跟踪以及人机交互等诸多领域。这些潜

学位

人脸识别贝叶斯网络相关性认知信息

车载红外图像的行人检测与跟踪技术

车载红外技术,作为红外技术在车辆领域的新应用越来越受到人们的关注它在车辆辅助驾驶系统中的应用可以有效的辅助驾驶员更好地识别周围环境,提高行车安全。本文主要研究的就

学位

车载红外目标跟踪车辆辅助驾驶行人识别行人检测

基于启发式搜索的生物特征辨识算法研究

与本文相关的学术论文