基于支持向量机的PU问题分类算法

来源 :重庆师范大学 | 被引量 : 0次 | 上传用户:wujielele
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PU(Positive and Unlabeled)问题是一个定义在只包含少量正类样本点和大量未标签样本点的数据集上的分类问题,它是机器学习中半监督问题的一种特殊情况.在机器学习的很多应用(例如:文本分类,基因序列,图像识别等)中,获得大量的已标签样本需要耗费大量的时间和劳动力,因此研究PU问题具有重要意义.支持向量机(SVM)具有显著的理论与实践优势,在机器学习领域有着广泛的应用.利用支持向量机来解决PU问题的方法有Biased-SVM(B-SVM),One-Class SVMs等,其中B-SVM在已有的SVM模型基础上,将未标签的数据点全部看成负类点例,通过给予正类点一个较大的权重和负类点一个较小的权重来建立分类器进行分类,数值实验表明B-SVM的分类效果良好.非平行支持向量机(NPSVM)是支持向量机的延伸,它不仅具有支持向量机的优点,而且在处理类间交叉的数据集和规模较大的数据集时有很大的优势.在本文中,我们基于B-SVM方法和NPSVM,提出l1-NPSVM并将其应用到PU问题中,此方法具有一定的特征选择功能.通过将其转换成线性规划形式进行求解,使得求解过程简便高效.数值实验表明此算法分类效果较好.绝对值不等式SVM利用一个绝对值不等式来处理一般半监督问题中的未标签点,通过将未标签点合理分布于分类超平面两侧来建立分类器进行分类,此方法易实现且分类效果不错.在本文中,我们通过计算未标签点与已标签正类点之间的距离来选择部分未标签点作为负类点,将PU问题转换成普通的半监督问题,并利用绝对值不等式SVM对转换后的问题进行求解.数值实验表明此算法简单可行且分类效果较好.
其他文献
随着京津冀协同发展战略的实施,河北省与京津地区合作愈加频繁。但是三地的经济发展水平却存在着巨大的差异,河北省的经济发展严重滞后于京津地区。而城镇化的发展不仅可以扩
南非是中国在非的第一大贸易对象,又是非洲第二大经济体,两国之间的贸易关系极其紧密。在中南两国深入经济合作背景下,南非媒体对中国的相关报道数量与日俱增,分析南非的媒体
近年来,关于多智能体网络的分布式优化问题引起了许多学者的关注,其中分布式凸优化问题是大家研究的重点之一。目前针对分布式凸优化问题大多采用的是次梯度算法。然而,在许多实际问题中次梯度往往难以计算,有时甚至不可计算。因此,本文将提出一类分布式凸优化的零阶算法。该类算法首先用Gaussian光滑化方法来逼近不可微函数,其次采用Push-Sum通讯协议考虑时变有向网络中的分布式Gradient-Free算
好友推荐问题是个性化推荐领域中重要的研究课题,近年来受到了工业界和学术界的广泛关注。近年来,作为Web2.0技术典型应用的科研社交网络因满足了大量科研人员个性化的社交需
脊髓损伤(spinal cord injury,SCI)是一种具有高死亡率和致残性的神经损伤性疾病,可导致损伤部位及以下永久性的感觉丧失和运动功能障碍,给患者造成了巨大的心理压力和家庭负担
近年来移动互联网呈现井喷式发展,移动应用的质量越来越受到软件商的关注。Android是当今市场占有率最高的移动操作系统,覆盖手机和平板电脑。随着Android系统的快速发展和普
目的探讨我国高龄老人认知功能受损和下降对全因死亡的关联关系,同时探讨年龄(80-89岁和90岁及以上)和性别(男性和女性)差异。本研究旨在评估高龄老人认知功能状况对晚期寿命
第一部分 基线18F-FDG PET/CT半定量指标及中期、治疗结束后PET反应在滤泡性淋巴瘤中的预后价值目的:探讨基线、中期和治疗结束后的正电子发射计算机断层扫描(positron emiss
随着新兴信息技术、制造工艺等软硬件技术的更新换代,以及市场需求不断提高,原有的经典调度已经远远不能满足实际生产制造要求,与经典调度相比,批生产调度更加贴合众多现代实际生产制造需求,因此针对批调度问题进行深入研究,成为实现企业生产资源高效利用、生产效益最大化的关键问题之一。本文将针对钢铁热处理中的实际生产制造问题,基于当前智能感知、云计算等新型信息技术在实际生产制造中的应用,分别对考虑了不同类型的阶
胃癌是一种发病率较高的恶性肿瘤,因现有的技术水平很难达到早期诊断,所以在临床上胃癌的致死率较难改善,因此越来越多的研究将注意力及精力投向对胃癌新的诊断标志物及治疗