基于广义可加模型的半监督学习方法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:h4975915
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今的大数据时代下,半监督学习方法作为利用无标记数据进行学习的主流技术,在许多应用中发挥了重要的作用。然而,传统半监督学习方法的理论研究和实证分析大多是在随机缺失假设下进行的,即要求有标记数据和无标记数据来自于同一分布,但这在现实生活中是很难满足的。例如在商业银行发放房屋信用贷款问题中,在不同的地区,文化和风俗习惯的不同很有可能使个人的房屋信贷情况有很大的差异;再比如,不同时期人们的信贷情况也有可能随着国家政策或个人家庭收入情况的改变而表现出差异。在这种情况下,若再使用传统的半监督学习方法进行训练,反而可能造成很大误差。本文首先对传统的半监督学习方法进行了归纳概括,分析了各个方法存在的优势、不足以及各自适用的场合,进而针对上述不足,提出了一种新的半监督学习方法——基于广义可加模型和Group Lasso惩罚的半监督学习方法。和传统半监督学习方法一样,该方法将同时利用有标记样本和无标记样本,并对其施加Group Lasso惩罚,最后用块坐标下降算法同时实现参数的估计和变量的选择。本文对提出的新方法进行了模型说明和详细的算法推导,在此基础上,就生活中数据间可能存在的多种关系,将我们的半监督学习方法在多种情形下进行了模拟计算,以分类误差、真阳性率、错误发现率作为指标,对我们的半监督学习方法和监督的Group Lasso模型的预测能力和变量选择能力进行了对比。模拟结果表明,总体上来说,我们提出的新的半监督学习方法在各个方面的表现均显著优于监督的Group Lasso模型,特别是在有标记样本和无标记样本的真实函数不同时优势最为明显。最后,本文对该方法在房屋信用贷款风险评估领域的应用展开研究。结果表明,当存在无关变量,并且有标记样本和无标记样本来自不同分布时,我们的新的半监督学习方法在变量选择、结果预测以及模型稳健性上的表现均较为出色,并一致优于监督的半参数(Semi-parametric)Group Lasso和普通的Group Lasso模型。
其他文献
鲁氏耶尔森菌(Yersinia ruckeri)是一种世界性的感染多种冷水性鱼类的重要病原菌,给世界水产养殖业造成了严重的经济损失。为探讨四川部分区域鲁氏耶尔森菌的耐药表型、耐药
我国南方土壤镉单一及镉砷复合污染问题日益凸显,治理农田土壤Cd及Cd-As复合污染,保障稻米质量安全已成为近年来研究热点。重金属Cd和As在土壤中所表现出的吸附性、溶解性以
癌症已经成为全世界人类的最大致死原因,乳腺癌是目前女性最常见的恶性肿瘤之一,发生于上皮组织,发病率位居女性恶性肿瘤之首,全世界数百万妇女遭受着乳腺癌的折磨。乳腺癌是
近年来,人工智能技术取得了突破性的进展,引起了学术界和工业界的高度重视,甚至受到国家层面的政策关注.人工智能技术主要应用在计算机视觉、语言和图像处理、医疗诊断、机器
目的:对比极低出生体重儿撤机后使用经鼻间歇正压通气(nasal intermittent positive pressure ventilation,NIPPV)或经鼻双水平正压通气(biphasic positive airway pressure,
山羊传染性胸膜肺炎(Contagious Caprine Pleuropneumonia,CCPP)是由山羊支原体山羊肺炎亚种(Mycoplasma capricolum subsp.capripneumoniae,Mccp)引起的一类严重呼吸道疫病,
目的:通过研究NRP-1mAb对肝癌HepG2细胞株的生长抑制和促凋亡作用及其机制,并初步探究NRP-1mAb联合rhVEGI-192对肝癌HepG2裸鼠移植瘤的放射增敏作用及其机制,以明确这两种分
关键词抽取是从文本或文本集合中抽取描述主题性的词或短语。准确地抽取文本中的关键词可以快速总结文本内容,在许多自然语言处理任务中都有着至关重要的作用,如信息检索和支持决策等。当前大多数的关键词抽取方法不能针对每篇特定的文本进行抽取,通常都是抽取一个文本集合或者一个语料库中的关键词,而且不能灵活的捕获单词之间的语义关系。针对上述问题,本文提出两种新颖的从英文文本中抽取关键词的算法。一种是特定文本中强语
目前开关电源正朝着高频小型化趋势发展,原边反馈反激谐振变换器具有电路结构简单,开关损耗小等优点,非常适用于高频的中小功率AC-DC电源。由于该变换器利用寄生参数谐振实现
随着互联网和多媒体技术的不断发展,人们对视频清晰度的需求日益提高,大量高清及超清视频对计算机存储空间和传输带宽带来了巨大的冲击。为了应对视频急剧增长的数据量带来的