【摘 要】
:
两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色,其广泛地应用于分类、聚类、异常检测、特征选择和实例检索等机器学习算法中。对连续数据的度量已经很成
论文部分内容阅读
两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色,其广泛地应用于分类、聚类、异常检测、特征选择和实例检索等机器学习算法中。对连续数据的度量已经很成熟了,而对离散数据的相似性度量还具有很大的研究意义。许多数据驱动的相似性度量方法是通过数据集获取属性值的分布情况,从频数、概率、信息熵等角度构造度量函数。考虑到带有类标签的离散数据的类信息对学习器的训练具有指导作用,本文将利用属性值的类条件概率构造相似性度量函数,并对其在无序和有序离散属性上分别讨论研究,主要研究内容如下:(1)提出基于条件概率的无序离散属性相似性度量。该度量方法利用属性值的类条件概率结合信息熵理论,以两实例对象的共同信息量与描述两者总信息量的比值作为其相似性。并将其应用到多个数据集中,实验结果显示在该度量方法下的学习器具有较低的错误率。(2)提出基于条件概率的有序离散属性相似性度量。针对属性值的序关系,该度量使得序关系相邻的值相似性越大;反之,序关系远隔的值的相似性越小。将其与(1)中提出的度量方法相结合,并应用到混有有序和无序离散属性的多个数据集中,实验结果表明其具有较好的性能。(3)将本文提出的度量方法应用到数据属性包含有序和无序的小额贷款用户申请资质数据集上,并与其他常用相似性度量在该数据下的实验测试结果进行比较。实验结果显示本文提出的新方法在各个性能评估指标上的表现较优,由此表明其具有一定的有效性。
其他文献
近年来,关于隐形衣的研究引起了国内外科研工作者的高度关注,首先以变换光学理论为基础的无源隐形得到了快速发展,随后,有源隐形凭借自身独特的优势也很快被提出。在直流情况
冷分子的实验制备与研究是近几年来原子分子和光物理研究领域中的前沿热点之一,同时也是一个包含物理、化学、量子信息、凝聚态物理和天文物理的跨学科交叉研究领域。激光冷
图的内划分问题是图论的划分问题中一个有趣的待解决的问题。图的内划分是指将有限图G =(V,E)的顶点集V划分为两个非空的部分,使得每个部分的顶点在自己所在部分中有至少一半
"二步发酵法"是我国科学家自主研发的维生素C生产工艺,参与发酵的两株菌——伴生菌和产酸菌,在发酵的过程中各自承担重要的角色,二者的相互作用关系一直是研究的热点。本文以
miRNAs是一类内源性非编码转录后调控的小RNA,通过作用于靶基因m RNA的非编码区抑制靶基因翻译或引起其降解,从而参与基因表达调控;在机体的发育、增殖、分化、凋亡等生物学
本文首先在范数是一致Gateaux可微的实Banach空间中研究渐近非扩张型映象的Reich-Takahashi迭代序列的收敛性,在没有任何有界条件下,建立了Reich-Takahashi迭代序列的强收敛
在现有的偏微分方程(PDE)方法中,Bloor-WilsonPDE(BWPDE)方法因其较高的运算效率而被广泛应用于交互几何设计、实体建模、计算机辅助制造、网格重建及医学可视化等领域。然而
金属锂-气体电池具有接近化石燃料的超高理论能量密度(11430wh kg-1),有望替代锂离子电池成为驱动电动汽车的电源,引起人们的广泛关注。由于有机电解液较宽的电化学窗口和高离子传导率,因此基于有机电解液体系的金属锂-气体电池发展前景广阔。然而,锂-气体电池电极动力学过程缓慢引发了严重的极化问题,导致电池的能量转化率低,循环稳定性差。为解决上述问题,大量学者致力于设计高效催化剂以推动锂-气体电池
泛素化调节系统是真核细胞内调节蛋白质功能的最重要的调节系统之一,几乎参与了细胞内所有的生命过程。蛋白质通过泛素化酶与去泛素化酶的催化实现泛素分子(Ub)在蛋白上的修
近年来,推荐系统已经成为解决信息过载问题的首选方法,其中又以协同过滤算法的应用最为广泛,而相似度度量方法是协同过滤算法的核心。目前已经有许多衡量用户或项目之间相似