基于度量学习和聚类的一致性预测器算法研究

被引量 : 0次 | 上传用户:selanyihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一致性预测器算法是一种带置信度的域预测机器学习算法,该算法通过将所有满足预先设定的置信度的假设类别都作为域预测结果进行输出,从而实现预测风险可控。一致性预测器与传统的以提高点预测准确率为目的机器学习算法相比,更适用于高风险领域。一致性预测器算法本质上是在线的,并且其在计算测试样本的随机性检验值时要频繁的存储和访问原始的样本序列,这对于一些大数据应用来说是难以承受的。另外,一致性预测器也存在易受非平衡因素影响的问题,其小类样本的域预测结果并不能满足预先设定的置信度(即小类的预测风险不能很好的控制)。但是目前针对一致性预测器在线计算效率和非平衡的研究较少,本文针对这两个问题对一致性预测器算法进行改进研究。针对在线计算效率问题,本文提出了一种基于度量学习的一致性预测器算法,将度量学习算法引入到一致性预测器框架中,通过度量学习将部分在线计算代价转移到离线部分,同时也通过度量学习得到的空间转换矩阵将离线信息应用于在线预测,从而达到在保证预测效率的基础上提高在线计算效率的目的。针对非平衡问题,本文分别在数据层面以及算法层面提出了基于聚类抽样的一致性预测器算法和基于聚类划分的一致性预测器算法。基于聚类抽样的一致性预测器算法通过对训练样本中的大类进行聚类后重新抽样得到平衡的训练样本,从而消除或降低非平衡影响。基于聚类划分的一致性预测器算法是通过对大类聚成k类,然后每个小聚类和原始小类一起构成一个分类器,测试样本的随机性检验值p取k个分类器结果中最大的大类随机性检验值对应的分类器结果。两种改进算法都能有效的降低非平衡影响,使得小类预测风险准确控制。
其他文献
龙为中华民族的象征,从最初的龙图腾崇拜到奉龙为神,经历了漫长的过程。在中国民众的思想中,龙具有止旱降雨的神性,释道经典亦多有阐述。山西地处干旱、半干旱区域,降水较少,大同地
植物崇拜是一种具有多重性的文化现象,它在古希腊人的社会生活与宗教生活中有着重要的影响,同时它对于西方文明与其他人类文明也产生了不可忽视的影响。论文分为绪论、正文与结
印度尼西亚由17,508个岛屿组成,人口超过2.38亿而位居世界第四。其中,本地穆斯林约有2亿多人,占印尼总人口的88.2%,而华人约有800多万人。笔者之所以选取印尼邦加‘‘SMK BAK
随着我国社会经济的持续高速发展,社会的能耗需求也越来越大,对节能技术的需求也越来越迫切。据统计资料显示,空调耗能已占全国耗电量的20%左右。为了营造校园优秀的学习生活环
金融资产价格的时间序列预测在经济学中是一个重要的研究领域。传统的计量方法一直在预测研究和实践领域中占据着重要地位。虽然随机漫步理论声称,价格的变化是连续和独立的,但
细集料的毛体积相对密度是进行沥青混合料体积指标计算的一个重要参数,也是较难测准的一个参数。该文用CoreLok法和我国《公路工程集料试验规程》(JTG E42-2005)中的T0330法对
一、个人信用极其征信的经济学分析经 济学范畴的个人信用 ,又称消费者信用 ,按照信用管理领域的分类方法 ,主要包括商业企业提供的零售信用和金融机构提供的现金信用。如商
20世纪80年代,翻译理论界出现的“文化转向”为翻译研究拓宽了视野,勒菲弗尔引进并运用改写这一概念,将翻译置于广阔的社会文化语境中进行考察,强调意识形态、主流诗学和文化等因
本研究的目的是通过探索和理解霍华德·加德纳的多元智能理论在外语教学中的作用,通过对圣玛丽大学孔子学院夏令营教学的分析,来设计一份适合于夏令营的课程设计——基于多元
第二人称代词的隐匿性表达是日语的一个普遍现象,在日常的人际交往中发挥着重要作用。它被称为人际交往的润滑剂、粘着剂,能够让交际双方顺利进行交流。隐匿性表达不能独立存在