【摘 要】
:
提出了基于核诱导距离度量的鲁棒判别分析算法(KI-RDA).KI-RDA不仅自然地推广了线性判别分析(LDA),而且推广了最近提出的强有力的基于非参数最大熵的鲁棒判别分析(MaxEnt-RDA).通过采用鲁棒径向基核,KI-RDA不仅能有效处理含噪数据,而且也适合处理非高斯分布的非线性数据,其本质的鲁棒性归咎于KI-RDA通过核诱导的非欧距离代替LDA的欧氏距离来刻画类间散度和类内散度.借助这些散
【机 构】
:
College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanj
论文部分内容阅读
提出了基于核诱导距离度量的鲁棒判别分析算法(KI-RDA).KI-RDA不仅自然地推广了线性判别分析(LDA),而且推广了最近提出的强有力的基于非参数最大熵的鲁棒判别分析(MaxEnt-RDA).通过采用鲁棒径向基核,KI-RDA不仅能有效处理含噪数据,而且也适合处理非高斯分布的非线性数据,其本质的鲁棒性归咎于KI-RDA通过核诱导的非欧距离代替LDA的欧氏距离来刻画类间散度和类内散度.借助这些散度,为特征提取定义类似LDA的判别准则,导致了相应的非线性优化问题.进一步借助近似策略,将优化问题转化为直接可解的广义特征值问题,由此获得降维变换(矩阵)的闭合解.最后在多类数据集上进行实验,验证了KI-RDA的有效性.由于核的多样性,使KI-RDA事实上成为了一个一般性判别分析框架.
其他文献
增量爬取是搜索引擎保持抓取数据新鲜度的重要技术,其实现思路分为朴素同步策略与主动同步策略两种。这两种思路目前在实现上存在着各自的不足,重要原因是其实现框架考量方面的不足。因此对增量爬取过程进行深入分析,界定出增量爬取所需要解决的核心问题;通过泛化解决核心问题的具体方法,定义出实现增量爬取技术的策略框架。基于该框架,可在完整回应核心问题的同时,采用灵活实现策略的具体方法,以保证增量爬取实现方案取得复
图数据结构具有较强的模拟复杂结构的能力,能够很好地表达数据对象之间的关联,广泛地用于各领域非结构化数据建模。为解决大量数据子图查询处理中的不确定情况,本文提出了基于MapReduce的双向匹配查询算法,并提出了有效的索引结构以提高查询算法的效率。最后,在真实数据集和合成数据集上的实验结果证明了算法的正确性、高效性和扩展性。
社交网站作为在线交流的最新形式,吸引了数以亿计的用户,同时产生了海量数据。为此,如何存储大量的用户及其交互信息成为了社交网站的一个挑战。在深入分析了社交网络数据的特点之后,提出了一种用来描述社交网络中用户交互行为的交互关系有向图模型,该模型可以很好地反映用户交互的一些特性;提出了一种采用增量方式对社交网络进行分区的方法,该方法具有很好的可扩展性并能较好地解决数据本地化问题;构建了一套存储、管理与维
如今的互联网领域时刻都在产生海量的数据,文本数据是重要的组成部分。在这些文本数据中,存在大量的近似复制文本,这些相似程度很高的文本对给相关处理程序增加了额外负担。针对云计算环境,提出了一种基于MapReduce的近似复制文本检测算法,它能够在给定的文本集合与相似度阈值条件下,经过过滤与验证操作后返回所有相似程度不低于该阈值的文本对。真实数据集上的实验结果表明,与现有工作相比,所提算法能更为高效地返
信息社会中在线百科已成为人们获取知识的重要途径,而在线百科的标签系统作为其重要组成部分,不仅可以帮助人们在浏览某张页面时获取其他相关页面的信息,而且对于海量文本分类,以及提高在线百科检索系统的检索效率都有很大帮助.充分利用在线百科页面间的链接关系,提出了一种基于页面间的同质性原理和向量空间模型的全新针对在线百科的标签推荐算法HVSM.该标签推荐算法具有普适性,可在不同在线百科系统间推荐标签.实验结
对象级别的信息检索已经引起越来越多的关注和研究.针对这一研究问题,设计并实现了一个对象级别的关系数据库信息检索方法DBORank,来有效提高关系数据库信息检索效果.DBORank方法从数据库和信息检索两个角度出发,设计了一种灵活有效的评分机制,它既考虑了对象级别数据图的链接结构,又考虑了图中对象结点的内部结构,边的类型和权值,对象内容相关性等因素,同时优化了对象评分的迭代算法.实验表明DBORan
针对不确定数据的概率分布难以获取的客观实际,讨论了缺失概率分布的值不确定离散对象的决策树。定义了(条件)概率区间,并证明了(条件)概率区间是可达概率区间;基于可达概率区间,定义了(条件)熵区间,并给出了求解(条件)熵区间的上/下界的方法;采用条件熵区间作为属性选择度量,提出了一种新的不确定决策树,将以0-1划分对象的决策树扩展到以概率区间分配对象的决策树,这样不仅可以处理缺失概率分布的值不确定离散
关于稀疏编码的研究在最近几年成为许多研究领域的焦点,已有学者将其引入视频目标跟踪问题中。在贝叶斯推理框架下,基于l1-跟踪子能较好地处理目标物在视频场景中的各种复杂变化,达到较为鲁棒的跟踪效果,但算法复杂度高,很难进行实时跟踪。对原始l1-跟踪子在稀疏编码的过完备基构造,对目标物出现各种复杂变化的处理方式以及目标物模板的更新这三个方面进行了改进,设计了无需更新目标模板的高速跟踪方法;并通过大量比较
社交网络中影响最大化问题是寻找具有最大影响范围的节点。影响最大化的大部分求解算法仅仅依赖社交网络图。基于微博的转发关系树和微博内容的情感倾向性,以及用户的社交网络图,提出了一个能够刻画用户情感影响的情感影响最大化模型——情感影响分配模型(SID),证明了SID模型下的情感影响最大化问题是一个NP难问题,给出了一个具有精度保证的贪心算法。在真实的微博数据上的实验结果表明,SID模型能够有效地找出情感
对信息网络数据集进行面向主题、多维、多层次的在线分析处理(OLAP)面临数据规模爆炸,问题复杂性剧增等技术难题,传统OLAP技术不再适用.提出了面向信息网络的在线图处理(OLGP)模型,OLGP包含节点集合、边集合、信息维集合,每个节点包含拓扑维集合;设计并实现了OLGP模型的核心操作(信息维上卷、拓扑维上卷、异步上卷)算法.对含有17431位作者的12499篇ACM论文的真实合作者网络数据集进行