【摘 要】
:
在现实世界的应用中,通常包含大量复杂类型的数据,其中符号数据(Symbolic Data)是很典型的一种数据类型。在过去的三十多年间,数据挖掘和机器学习许多领域的研究都取得了长足的发展和进步,但绝大多数集中于对数值型数据的分析,如何对符号数据进行有效的分析并服务于实际应用,是目前数据挖掘和机器学习领域亟待加强研究的重要问题之一。在机器学习与数据挖掘领域,对符号数据的主流分析方法是改进已成功应用于数
论文部分内容阅读
在现实世界的应用中,通常包含大量复杂类型的数据,其中符号数据(Symbolic Data)是很典型的一种数据类型。在过去的三十多年间,数据挖掘和机器学习许多领域的研究都取得了长足的发展和进步,但绝大多数集中于对数值型数据的分析,如何对符号数据进行有效的分析并服务于实际应用,是目前数据挖掘和机器学习领域亟待加强研究的重要问题之一。在机器学习与数据挖掘领域,对符号数据的主流分析方法是改进已成功应用于数值型数据的现有算法。由于符号数据的取值通常没有数字或序数意义,这个特点决定了其无法直接应用适用于数值型数据的距离、内积、均值和中心等度量工具,因此广泛应用于数值型数据的机器学习和数据挖掘算法,如K-Means、DBSCAN、KNN和SVM等,均无法直接应用于符号数据分析,这使得符号数据的分析和挖掘相对于数值型数据更为困难,也更具有挑战性。本文结合“核平滑”与“Mercer核”两种核学习方法,构建符号数据分析与挖掘的核学习框架,开展符号数据的分类分析、聚类分析和稀有类挖掘问题的研究,提出了解决符号数据相似/相异性度量、内积计算、Mercer核映射、簇中心表示和聚类数目估计等若干基础性、关键性问题的新方法。论文的主要研究内容包括:首先,针对符号数据的概率分布估计问题,本文基于核平滑方法建立符号数据的核估计模型,证明了核概率一致估计的充分条件,给出了核带宽最优估计方法,为进一步开展符号数据分析的相关研究提供了理论与模型基础。其次,针对符号数据的相似性度量和内积计算问题,提出核数据自表达空间转换模型KDTM,定义了新的符号数据内积、相似性和距离度量方法,并进行理论性质的深入分析。这些成果具有普遍性意义,为解决符号数据分析的相似性/相异性度量这一基础性问题给出了新途径。第三,开展面向符号数据非线性分类的研究。基于新的符号数据内积和距离计算方法,提出了符号数据Mercer核计算问题的有效解决方案,设计并实现了符号数据非线性分类算法SVM-S,在多个数据集的测试表明SVM-S算法具有很好的分类效果。第四,针对符号数据聚类、簇中心表示和聚类数目估计等问题,应用核学习模型定义了一种以贝叶斯型概率表示的符号数据簇中心表示法,解决了无法以均值来表示符号数据簇中心的难题。接着提出面向符号数据的软子空间聚类算法KCC,并给出一种新的聚类有效性指标,用以评价算法的聚类质量以及确定数据集的聚类数目,充分的测试表明KCC算法具有良好的聚类效果和时间性能。第五,开展符号数据稀有类挖掘问题的研究。将核学习方法应用于符号数据的稀有类检测(RCD)问题,提出基于符号频率差异的距离度量方法FDDM,对于不平衡符号数据集的挖掘具有特别的意义,并提出基于数据密度和类簇间数据分布差异性准则的符号数据稀有类识别算法RCDCS,在多种数据集上的测试表明其具有良好的效果和性能。最后,对论文的研究工作进行总结,展望了之后的研究前景。
其他文献
水文循环与生态系统生产力、养分循环以及全球气候变化密切相关。森林经营与管理对水文过程的影响已经成为森林水文学研究的主要议题。在中国南方,大面积的常绿阔叶林被杉木人工林所取代造成了众多的生态环境问题。如此大面积的土地利用变化会对水文过程带来怎样的影响,已经成为人们关注的焦点。目前森林采伐及采伐后的森林更新是不可避免的,森林更新造成的土壤扰动与降雨再分配的改变可能引发更大的地表径流和土壤流失,然而很少
自1981年学位制度建立以来,我国的学位与研究生教育取得了长足的进步和丰硕的成果,尤其是进入21世纪,我国的学位与研究教育更是突飞猛进,但同时也存在着结构不合理、学科建设水平不高等问题。当前的学位与研究生教育处于关键发展阶段,特别是海峡西岸经济区建设和福建发展对高层次创新人才提出了新的任务和要求,如何改革福建省学位与研究生教育,从数量建设到质量建设的转型,是当前教育者所面临的重大问题。本文以我国学
都市区的产生和发展是十八世纪以来城镇化发展的一个重要结果。在迄今为止的国内外研究中,对都市区内部城镇要素及其组合时空格局的认识多以基于西方发达国家和地区经历的都市区理论与实证研究为基础。然而,晚于发达国家一两百年的发展中国家城镇化进程具有城乡界限淡化的重要特征,在此过程中都市区各城镇要素可在不同的时间和远为广泛的空间范围中的不同地域上产生和累积,并因此产生了和西方典型都市区有所不同的城镇要素及其组
对于开放系统而言,系统与外界的相互作用是无法避免的,会引起系统消相干。比如原子的自发辐射、腔泄漏等耗散过程,都将导致系统量子态的消相干,降低量子信息处理的有效性,因而被视为是量子通信和量子计算的不利因素。为了尽可能减少或消除耗散对量子信息处理过程的消极影响,特别是对作为量子信息重要资源的量子纠缠的影响,通常采用无消相干子空间、量子纠错、几何相位以及量子态的纯化等方法。这些方法都将耗散作为消极因素加
光微流微腔传感技术是结合微流控技术与光学微腔的一个新兴前沿交叉研究领域,它不仅具有传统光学微腔极高的品质因子和极小的模式体积等优异光学性质,同时又具备微流控技术样品低用量、功能高集成的优势,为材料学、化学、生命科学、生物医学等领域的基础研究与应用开发提供了一个很好的平台。本论文主要以回音壁模式微腔和法布里-珀罗腔为载体,构建和实现了新型高品质因子光微流微腔,并在低阈值激光器和高灵敏度传感器方面开展
腔光力学是近年来快速发展的一门纳米物理学与量子光学的交叉学科,主要研究光与微米或纳米尺度机械运动间的相互作用。受激光驱动的一端固定、一端可来回振动的光学腔系统就是一个典型的腔光力学系统。得益于微纳加工技术的巨大发展以及新思想新方法的应用,目前人们已经可以在各种不同新奇的系统中实现光力耦合,系统的参量和尺度也覆盖了很大的范围。对腔光力学系统的研究是目前国际上具有前瞻性和挑战性的前沿领域,不仅有助于揭
蔡獻臣(1563-1641)福建省同安縣浯洲平林(今金門縣瓊林村)人。萬曆十六年(1588)鄉試第二,次年廷試二甲第六名。授南京刑部主事,官至光祿少卿。晚年家居講學近二十年。著有《清白堂稿》等。《清白堂稿》有崇禎刻本,又有咸豐瓊林族人抄本。獻臣鹽籍,世居瓊林。瓊林蔡氏科名自十四世蔡標始。獻臣祖蔡標舉人,父蔡貴易進士,至獻臣三世科名。獻臣及子女姻親均閩南科舉人家。獻臣重要交遊有王世貞、湯顯祖、何喬遠
职业篮球运动员的有效流动能够促进球员在整个联盟各俱乐部优化配置,平衡各俱乐部球队实力,增加比赛结果的不确定性,使比赛更具观赏性。运动员能否有效流动跟运动员流动的制度安排关系密切,合理的运动员流动制度安排能够有效促进运动员流动。因此,研究我国职业篮球运动员流动制度就显得尤为必要。我国职业篮球运动员流动存在不同的契约主体以及由他们所组成的不同层级委托代理关系,在信息不对称等情况下各层级代理人都有可能出
张量方程在有限元、有限差分、谱方法、高维线性偏微分方程的离散化、张量互补问题、数据挖掘、数值偏微分方程等领域有着广泛的应用.基于张量格式的迭代算法,克服了张量方程转化为线性方程组时维数快速增加的缺点,已经成为数值代数领域研究的热点问题之一.张量方程是线性方程组以及矩阵方程的推广.求解线性方程组以及矩阵方程的算法已得到广泛的研究,主要包括分裂迭代法与子空间方法.目前,这些算法已被推广到张量方程的求解
上世纪以来,由于化石燃料燃烧、化肥过度使用,全球大气氮沉降速率不断增加。氮沉降增加造成了诸如土壤酸化、水体富营养化、生物多样性丧失等一系列后果;同时,陆地生态系统氮通量的迅速增加,使原本较为封闭的氮循环过程逐渐开放。因而,在氮沉降增加背景下,生态系统的氮保留能力成为生态学家研究的热点。已有研究表明,生态系统氮保留的可能机制有(1)植物增加生物量从而积累氮,(2)增加微生物生物量氮,(3)降低土壤硝