主动式半监督学习算法的研究

来源 :烟台大学 | 被引量 : 0次 | 上传用户:qianqian3580
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半监督学习是目前机器学习与数据挖掘的研究热点,通过较少的监督信息(如标注样本点或成对约束信息)和大量的未标注数据提供的数据分布信息,能对数据集内的点进行正确归类。大量研究表示,高质量的监督信息有助于聚类,而监督信息的选择不当可能会造成聚类结果的下降,因此监督信息的选择得到人们的关注。本文将半监督学习与主动式学习相结合,通过主动获取高质量的监督信息来改善聚类的效果。主动式学习策略一方面通过获取具有最高信息量的点的类别,来加快学习过程;另一方面,通过确认一些不确定性较高的成对约束信息,也能快速提高归类效果。本文的工作大体分为三个部分:首先,提出了一种混合约束的半监督最近邻学习算法,标注点和成对约束信息以不同方式同时发挥作用,取得了较好的效果。在该算法中,标注点用于计算未标注点与各类别已知数据集之间的距离,而成对约束信息控制未标注点的类别分配过程。其次,提出了基于邻域不一致性的主动式学习策略,包括数据点的学习和成对约束的学习两个方面。在数据点的学习中,提出了两种学习策略,即基于Citation-KNN的打分策略和基于桥点的学习策略并与另外两种算法进行了对比;在成对约束的学习中,提出了纠错式学习算法ALEC。通过实际数据集上的实验验证了以上学习策略的有效性。最后,对大数据集给出了预处理方法,通过提取骨架的方式得到数据集的代表点集合,在代表点集合上进行聚类后,对原数据集进行标注。初步实验表明,通过对原始数据集的压缩,可以在保持CRI稳定的同时大幅降低聚类所需的时间。
其他文献
长距离无线mesh网络LDmesh(Long-Distance wireless mesh networks)因其成本低、带宽高、覆盖广、易于部署的特点,在偏远地区的远程医疗、远程教育以及野外大区域的环境监控等领
随着多媒体技术的发展,以音频、视频和图像信息为主体的多媒体信息逐步取代了文本信息。基于文本标记的传统信息检索技术难以实现对多媒体信息的检索,如何有效、快速地检索多媒
随着计算机软件技术的不断发展,计算机软件已广泛应用于国防建设的各个领域中。然而,很小的软件错误也可能导致整个系统的崩溃。在作战系统中,模型的不一致将导致执行过程中产生
基于视觉的人体动作识别是模式识别、计算机视觉和图像处理等多个学科的交叉研究课题,在人机交互、基于内容的视频检索、运动视频分析和智能视频监控等领域有着深远的理论研究
算法是计算机科学的灵魂,算法的研究是计算机研究的重要领域之一。算法的可靠性、正确性和生产效率一直是算法设计领域中的关键问题,受到各国学者的高度重视。基于递推技术的算
美国“9.11”事件后,人们迫切需求一种快速有效的身份验证技术以确保系统安全和公共安全,基于人脸识别的身份验证方法的出现给人们带来了希望。人脸识别比其它人体生物特征身份
目前大部分流数据挖掘方法都是从基于静态数据集的数据挖掘方法改进而来的。并且秉承了基于静态数据集的数据挖掘的理念将数据存于可控制范围内,并在此范围内进行数据挖掘,因此
Oracle作为一个管理大型数据库的优秀工具,在当今社会的各个领域得到了广泛的应用。Oracle数据库中的海量数据处理性能在信息化过程中越来越受到人们的重视。随着数据库应用管
任何有效的学习算法都至少要对每一个数据点观察一次,但并非所有数据点应得到同样的重视。本文基于随机采样思想提出两个支持向量机的快速随机近似算法,简单的随机采样算法SA
医学超声图像和合成孔径雷达(Synthetic Aperture Radar,SAR)在成像过程中由于成像机理及设备或周围环境因素等影响,均存在着一种特有的呈斑点状的噪声—speckle(斑点)噪声。超声