大规模混合数据分类的核方法研究

来源 :天津大学 | 被引量 : 2次 | 上传用户:wyf1233
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际应用中存在着大量包含符号属性和数值属性的混合数据。如何在大规模混合数据中利用机器学习方法获取有价值的新颖知识,一直是信息学科的一个研究重点。本文围绕着大规模混合数据分类任务的需求,沿着混合数据分类核方法和大规模优化算法展开研究,其主要工作和创新点如下。(1)提出了了一种新的混合数据支持向量机学习算法,提取符号数据之间隐含的空间结构信息。混合数据学习的难点是符号属性的处理,其主要原因是符号属性之间缺乏类似数值属性的空间结构信息。本文提出了一种新的符号属性数值化处理方法。该方法与核方法相结合,根据模型的性能评价指标(如泛化误差)将符号属性映射到实数空间,从而提高模型的分类性能,获取符号属性之间潜在的空间结构信息和序关系信息。根据不同的属性映射策略,分别提出了混合数据线性和非线性支持向量机算法。(2)提出了了一种新的符号数据核函数,并构建了混合数据多核学习算法。针对符号数据的特点,我们提出了一种新的比值高斯核函数和符号属性one-of-N编码的快速计算算法。将混合数据中的符号属性与数值属性分开处理,符号属性根据其不同的编码方法形成不同的核矩阵,数值属性则根据其不同的核函数和超参数形成多核矩阵。实验表明,该方法能有效提高混合数据的分类性能,减少符号数据编码方法对学习性能的影响。(3)为线性支持向量机、非线性支持向量机和多核学习算法提出了了一系列的快速优化算法,以满足大规模数据处理的需求。本文根据KKT条件推导了一种新的支持向量机最优判别条件,并根据该条件提出了随机序贯最小优化算法。该算法不仅能有效提高线性支持向量机的训练速度,满足大规模数据处理的需求;同时无需对线性判别函数中的偏置项做近似或忽略处理,提高模型的分类性能。序贯最小优化(SMO)算法是非线性支持向量机和多核学习中的一个重要优化方法。本文从SMO工作集选择的角度出发,提出了两种新的最优步长工作集选择策略。该策略能有效减少SMO-MKL多核学习和非线性支持向量机优化算法的迭代次数,提高其训练速度。本文提出的学习算法不仅扩展了核方法理论的应用范围,同时为混合数据、异构数据和多模态数据的学习提供了一种新的解决思路。下一步将对异构数据和多模态数据进行深入研究。
其他文献
为了深入研究嵴病毒(sw Ko V)主要结构蛋白基因VP1,根据Gen Bank中已发表的猪嵴病基因序列设计特异性引物,采用RT-PCR方法扩增猪嵴病毒CH441株VP1基因,并对其进行克隆与测序
深圳是全国最早面临产业转型和发展循环经济的城市之一。利用模糊综合评价方法,通过分析2003-2012年深圳循环经济发展的实践效果发现,深圳循环经济的发展总体呈螺旋式发展态
目的探讨影响原发性高血压患者发病的危险因素与性别的相关性。方法选择原发性高血压患者共960例,根据性别分为男性、女性两组,对比两组患者相关危险因素。结论男、女两组对
<正>我的老家在湘北偏远丘陵的一个小山村,现属湖南澧县复兴厂镇双堰村。新中国成立前,那里土地贫瘠,一穷二白,中老年人都是文盲。过年或办喜事,没哪家贴红对联,只是堂屋里有
期刊
目的分析细菌性食物中毒病原学特征,评价微生物检验效用,总结检验经验。方法 2010年1月至2015年5月,共开展食物中毒检测明确为细菌性食物中毒105起,对85起事件中的食品,所有
篮球对团体配合要求较高,需要球员间能够达成良好的默契,提升个人能力,便是提高团队配合能力的有效途径,其中防守意识,是衡量个人篮球水平的主要衡量标准之一。因此本文就篮
贵刊今年第7期在《王姬会诊报告》中指出了一个地名错误。笔者认为,王姬把美国加利福尼亚州的一个海滨城市——圣迭戈说成圣地亚哥,是事出有因。原因之一,在美国许多华人和
二十世纪的东北亚,既有战争又有和平,前半个世纪烽火连绵,战乱频仍,每一次战争都导致了东北亚政治格局的显著变化和社会经济的停滞倒退;后半个世纪相对安宁,东北亚各国都获得
<正>几乎每一座城市都有它的标志物。如太平洋西岸的烟台,人们将高高矗立的烟台山灯塔视为100多年的印象标的一样,圣迭戈的标志物,非航母莫属。太平洋西岸,山东半岛北侧,有一
<正> 目次一、"亲亲相隐"制度的产生、发展二、"亲亲相隐"制度的泛化三、"亲亲相隐"制度的历史意义四、其他地区和国家类似"亲亲相隐"的规定五、"亲亲相隐"制度回归的探讨亲