【摘 要】
:
物体识别是机器学习中的基本问题,解决对文本、图片、视频等数据做分类识别的问题。在数据量较少的情况下,传统的机器学习方法已经取得了很好的效果。但是,随着信息量指数式
论文部分内容阅读
物体识别是机器学习中的基本问题,解决对文本、图片、视频等数据做分类识别的问题。在数据量较少的情况下,传统的机器学习方法已经取得了很好的效果。但是,随着信息量指数式的增加,获得大量的数据标注已经变得几乎无法完成,这使得传统的机器学习方法在处理这类问题的时候显得力不从心。在这样的情况下,半监督学习方法应运而生,它是使用少量有标注数据的信息,将其扩展到未标注数据上,从而可以解决示例数据和标注数据在数量上严重不匹配的问题。本文阐述了针对难以获得的精确标注和容易获得的粗略标注同时存在的情况下的半监督学习问题,研究了协同训练的鲁棒性问题,即对给定初始标注数据中的错误,对协同训练性能的影响。在协同训练的鲁棒性问题的基础上,本文将信息瓶颈算法和计算后验概率的方法相结合,创新性地提出了一种使用无监督学习方法产生伪标注的方法。与现有方法相比,该方法仅需要较少的标注信息,并可有效降低计算复杂度。在使用伪标注的过程中,本文创新性地提出了一种使用伪标注的协同训练方法。该方法以重排序算法为主要框架,与现有方法相比,此方法对初始的错误标注,具有较高的鲁棒性。在初始标注中存在较多错误时,改进后的方法仍然可以训练出性能较好的分类器。本文在利用伪标注来进行协同训练时,从统计学角度对该方法进行了理论分析,在数学上对该方法在提高协同训练的鲁棒性方面的有效性进行了研究,并探讨了朴素贝叶斯分类和信息瓶颈方法在理论基础上的相似性。
其他文献
大气激光通信是利用激光束作为信息传输的载体,以大气作为传输介质在空间中直接进行语音、数据、图像等信息的双向传送。激光在大气中进行传输,不可避免地会受到大气中各种自
普通摄像机在拍摄较大场景时,由于视场较小,只能拍摄到目标场景的局部部分。为了在保持高分辨率的条件下得到较大视场图像,就需要使用图像拼接技术。图像拼接是指将两幅或多
作为骨干传送网的波分复用(Wavelength Division Multiplexing, WDM)光网络中每个波长提供了海量的容量,一旦网络发生故障将会导致大量业务的中断。因此,光网络中引入了生存
在未来全空间位置感知服务信息网络融合的发展趋势下,无线局域网室内定位技术作为这一体系的重要组成和衔接部分将逐渐受到重视和青睐。由最初的距离依赖型算法发展到现在的
随着CT、MRI、X光片等影像设备的普及,近年来可供临床、教学和研究使用的医学图像数量正在迅速膨胀。基于文本的数据库管理方式由于其主观性、人工性等原因己经渐渐无法满足
传统的IP地址既代表位置标识也代表身份标识,存在语义过载的问题,这种方式不利于终端的移动性,同时也不利于未来网络的可扩展性。位置和身份分离协议网络(ID/Locator Separat
POLSAR图像分类是POLSAR图像处理中的重要内容,也是POLSAR图像解译的关键技术之一。POLSAR图像分类是将POLSAR图像解译系统中的前端部分单独提取出来作为具体应用的典型实例
随着数据通信和控制技术的不断发展,航空电子设备也逐渐向信息化、综合化、智能化和高精度方向发展,传统的软硬件结构已经不能满足系统性能指标的要求,因此需要一个新的通信
通信技术已经成为引领信息潮流的重要力量,强劲地推动着人类社会向信息化社会方向的迈进。光网络凭借着其自身的巨大优势,已经发展成建设未来国家信息基础设施的重要基石。自
近年来,我国的经济有了飞速的发展,人们的生活水平有了很大的提高,因此,现今的企业发展更加的需要实现对能源进行循环利用,尤其是社会主义市场经济的飞速发展,更要求在各种建