论文部分内容阅读
应用统计机器学习方法研究大规模单核苷酸多态性(SNP)与复杂疾病的关联关系面临着"维数灾难",首要的工作是把大规模SNP缩减为较小集合。为此,提出了多重遗传算法用于单核苷酸多态性的特征粗选择。该方法首次提出了用互信息衡量SNP与疾病间关联的紧密程度并作为遗传算法(GA)的适应值,通过多次运用遗传算法并合并寻优的结果得到候选的特征SNP集合。在SNP仿真数据上的实验及与最大熵(ME)方法性能比较表明,该方法最大可能丢弃了SNP集合中与疾病无关的SNP,同时保留了与疾病相关的SNP,为进一步研究提供了合