论文部分内容阅读
特征选择是当前人工智能领域,尤其是机器学习领域的研究热点之一。随着人工智能和计算机科学技术的迅速发展,特征选择在理论和应用方面均得到了较大的发展。特征选择不仅可以去除数据的冗余特征信息和无关特征信息从而提高原始数据的质量,而且还可以大大降低数据挖掘的成本。
本文主要讨论了集成学习在处理类别不均衡问题时的特征选择和多任务学习用于特征重用的研究及其相关应用。在类别不均衡方面,本文对于采用基于风险预报准则的特征选择的集成学习进行了深入地研究;在特征重用方面,本文对于采用遗传算法来动态地确定多任务学习的输入和输出特征的搜索策略进行了深入地探讨。
本文的主要工作在于以下三点:1)在Bagging集成学习中引入了非对称取样和嵌入式特征选择方法,从而提出并论证了基于风险预报准则特征选择的非对称Bagging集成学习算法:PRIFEAB;2)在Adaboost集成学习中引入了非对称取样和嵌入式特征选择方法,从而提出并论证了基于风险预报准则特征选择的EasyEnsemble集成学习算法PREE和基于风险预报准则个体特征选择的EasyEnsemble集成学习算法PRIEE;3)冗余特征用于多任务学习时的特征搜索策略,采用两位二进制编码的遗传算法随机搜索策略,从而提出并论证了基于遗传算法随机搜索策略的加强型多任务学习算法e-GA-MTL。
在多个标准数据集上的实验证明,本文所提出的算法比原有算法有更好的性能。同时,这些算法在药物活性预报、质谱数据分析和基因芯片数据分析等现实问题上得到了很好的应用,体现了良好的应用性。