基于置信度预测的半监督特征选择算法

来源 :中山大学 | 被引量 : 0次 | 上传用户:caculate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的特征选择算法直接在有类别标签数据集上进行特征选择,以选取对这些已知类别标签样本的类别具有最大区分能力的特征子集。但是在一些实际应用中,如在医学诊断、欺诈检测等领域,样本的类别标签通常不能很容易地获取。在这种情况下,训练数据可能存在有类别标签样本不足或者样本分布存在偏差等问题。此时,根据训练集上的数据所构造出的模型可能无法正确地反映真实数据分布。但另一方面,无类别标签数据通常都能大量地获取,并且它们一般都是比较接近真实数据分布的。半监督学习方法就是为解决这类问题而产生的机器学习方法。半监督特征选择只需要很少量的有类别标签样本,同时利用大量的无类别标签样本来进行特征选择。半监督特征选择的任务是当给定一个学习算法时,同时利用有类别标签数据和无类别标签数据找出一个能使学习算法达到精度最高的最优特征子集。 本文提出一种迭代式的基于置信度预测的半监督特征选择算法框架。在算法的每一次迭代中,原始的有类别标签数据和通过一定手段精心选取的无类别标签数据及其预测标签将被用于特征选择过程。对于无类别标签数据的选取我们采用了置信度的方法,这将保证所选取的数据将有较高的概率保证它的预测标签是正确的。因为我们引入了无类别标签数据,所合成的数据集更能反映真实的数据分布,因此在该合成的数据集上能选取到更好的特征子集。 本文在通过形式化分析、复杂性分析、合成样例分析和实验分析等方法对基于置信度预测的半监督特征选择算法进行了深入的研究。从理论分析和实验分析的结果来看,基于置信度预测的半监督特征选择算法(SemiFS_CP)是一种解决在有类别标签数据不足的情况下特征选择问题的有效方法。在大量公开数据集上的实验表明,我们所提出的算法能比其他只用有类别标签数据做特征选择的完全有监督算法,或其他的半监督特征选择算法在精度上高出1%到10%不等。当原始的有类别标签数据量特别小的时候,我们的算法能取得更高的精度提高幅度。
其他文献
长期以来,人们一直希望运输工具和机器自身能实现自主导航。从早期的科幻小说到2003年6月奔赴火星的“勇气号”,再到近来兴起的智能化高速交通系统,自主移动智能机器人系统已成
模糊现象是客观世界普遍存在的现象,也是经典数学难以用数学模型描述的问题。从上世纪60年代由Zadeh创始而被发展起来的模糊集理论,标志着数学研究对象由精确性量性对象到模糊
随着计算机及Internet的发展,远程教育越来越受到人们的青睐。作为远程教育平台中不可缺少的组成部分,答疑系统对提高教学质量起着至关重要的作用。智能答疑系统是当前自然语言
随着着高校信息化建设的快速发展,跨部门应用集成与独立异构系统之间的矛盾日益突出,建立一个能够集成现有异构应用系统且灵活兼容新系统的数字化校园服务集成平台的需求越来
多智能体系统(Multi-Agent System,MAS)体系结构及协作机制是多智能体理论研究的核心与热点问题,作为一种新兴的研究方法,基于协进化机制的多智能体协作具有广阔的研究前景。论
说话人识别技术作为生物认证技术的一种,是根据语音波形中反映说话人生理和行为特征的语音参数自动鉴别说话人身份的一项技术。说话人识别技术以其独特的方便性、经济性和准确
近年来,流媒体正在成为推动未来宽带应用的主动力。而流媒体典型应用中的流媒体直播技术凭借其不用下载等待,实时性好等特点,在VOD、远程教学等网络多媒体中得到广泛应用。流媒
过去半个多世纪中,博弈论作为探索个体间相互作用的有效工具,在多个领域均有广泛的应用。在2012年学者基于囚徒困境模型研究发现,存在一种称为零行列式的策略可以单方面控制
中国电信集团公司作为国内最大的基础电信运营商率先提出了由传统基础电信运营商向现代综合服务提供商的转型战略。内蒙古电信公司作为中国电信集团公司在内蒙古地区的分支机
随着计算机技术和网络的飞速发展,流媒体技术的产生满足了人们快速获取多媒体信息的需求。它基于RTP/RTCP协议,运用流式传输技术,可以使人们在最短的时间内获得想要的多媒体资讯