局部割边权统计量正态分布近似对SETRED算法的影响

来源 :2005第一届中国分类技术与应用研讨会(CSCA) | 被引量 : 0次 | 上传用户:lych001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
SETRED是一种结合了数据审计技术的半监督学习算法,它利用局部割边权统计量分布来协助过滤在自我训练中可能被学习器错误标记的无标记样本.对采用精确计算局部割边权统计量分布和采用正态分布近似可能给SETRED算法性能造成的差异进行了研究.结果表明,在样本属性比极低的数据集上,精确计算统计量分布有助于克服不平衡数据集对算法性能的影响.但是,通常情况下使用正态分布与精确计算统计量分布相比,算法性能并无显著差异,这说明在实际算法中使用正态分布近似是可行的。
其他文献
我们在日常生活中随处可见的LED发光二极管不再是什么新鲜科技,LED在多个细分市场上的强劲增长势头已是既定事实。广告显示屏或数字标牌是LED应用最广泛的领域之一。从单色显
基于MPI(MessagePassingInterface)消息传递实现了黄河二维水沙数学模型的并行编程.以数据的分布存储作为区域划分的依据,实现了计算量的负载平衡;在全局网格和局部区域之间
会议
本文介绍了商业性有限元软件MSC.Nastran在"神威Ⅰ"系统上并行化移植的思路和实现方案.动力响应分析是NASTRAN最基本和最常用的分析功能之一,对该模块的并行化移植进行了研究
缺失数据处理是数据挖掘过程中数据预处理的一个重要内容.介绍了缺失数据的产生机制和处理准则以及目前流行的缺失数据处理方法,提出了基于朴素贝叶斯分类器的缺失数据处理模
目的 :总结阴囊内容物扭转的诊治体会。方法 :报告 38例阴囊内容物扭转的临床诊治资料并复习文献。结果 :13例睾丸扭转者经手术或手术复位后保留了睾丸 ,15例坏死睾丸予以切
期刊
草图理解是人工智能学科的一个新兴的分支,旨在自动或半自动地识别并抽取草图、素描和图案的正确语义知识.草图的随意性和歧义性是草图理解的挑战性问题,现有草图理解系统只
会议
聚类有效性问题是判断聚类结果优劣的关键问题,如果初始聚类数选取得不合适,会使聚类结果与数据集的真正结构不相符,从而导致聚类结果产生较大的差异性.针对模糊C-均值(FCM)
目的:探讨自发性气胸的误诊原因. 方法:对我院2002~2004年收治的自发性气胸病例进行回顾性分析. 结果:我院呼吸内科2002年1月~2004年12月三年间共收治自发性气胸病例56例,其
会议
在机器学习和数据挖掘领域中,分类器通常设计为最小化测试样本的错误率,然而这只有在所有错误具有相同的错误分类代价时才有意义.在现实问题中,不同情况下的错误往往具有不同
概念漂移(conceptdrifts)是流数据分类所面临的一个重要问题.当前解决该问题的主流方法是将训练数据分割成数据块,并使用集成学习(ensemblelearning)方法进行分类.但是,这些
会议