基于样本密度峰值的不平衡数据欠抽样方法

来源 :计算机应用 | 被引量 : 1次 | 上传用户:bluedogdog
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据分类是数据挖掘和机器学习领域的一个重要问题,其中数据重抽样方法是影响分类准确率的一个重要因素。针对现有不平衡数据欠抽样方法不能很好地保持抽样样本与原有样本的分布一致的问题,提出一种基于样本密度峰值的不平衡数据欠抽样方法。首先,应用密度峰值聚类算法估计多数类样本聚成的不同类簇的中心区域和边界区域,进而根据样本所处类簇区域的局部密度和不同密度峰值的分布信息计算样本权重;然后,按照权重大小对多数类样本点进行欠抽样,使所抽取的多数类样本尽可能由类簇中心区域向边界区域逐步减少,在较好地反映原始数据分
其他文献
目的分析临终综合护理对肿瘤晚期患者生活质量的影响。方法选择本院于2016年1月-2017年11月间收治的50例肿瘤晚期患者为研究主体。划分为A组和B组,均是25例。A组给予临终综合
职业教育应"以社会需求为目标,以就业为导向",高职高专的英语课程模式要侧重提高学生的职场英语能力,尤其是实际应用能力,使学生在未来的工作中能够运用英语处理职业岗位上的各
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
本文应用聚类分析方法,按自然、社会经济因素对稻作生产及其栽培措施效果影响相似性的原则,把四川划分为六个稻作区.a.盆南丘陵长暖季伏旱双季稻作区;b.盆东平行岭谷高温伏旱
介绍了林达绕管型水冷甲醇塔在内蒙古九鼎化工有限责任公司开车及初步运行情况。绕管型水冷甲醇塔具有温度分布均匀、结构可靠、运行稳定等特点,可用于合成、变换及硫回收等
"观念"的性质问题是洛克哲学研究领域的经典问题。要研究洛克哲学,首先就要面对这个问题。本文所做的工作不是具体回答这个问题,而是从实质内容上澄清这个问题,其到底在追问
目的:探讨人工流产术时应用2%利多卡因进行镇痛以及扩张宫颈的方法和效果。方法:选择150例早孕患者(实验组),在宫颈旁侧4点、10点处分别注入2%利多卡因2 ml,3-5分钟后宫口松驰,即施吸
C49S和C86S均属温光型核不育小麦材料,在低温短日照条件下不育,在温暖长日照条件下可育。不育性主要受温度影响,光照也起一定作用。其不育基因的表达,主要受隐性核基因控制,
我们不妨设想:如果张恨水编写一部1917—1949年的文学史,该是什么模样?如果国民政府在1945年组织专家编写1911—1945年的文学史,又该是什么模样?如果穿越时空对1898—1949年
阐述了醇烃化精制工艺流程;介绍醇化塔内件设计思想;总结了醇烃化工艺在河南心连心化学工业集团股份有限公司合成氨生产中的应用及效果。对生产运行中存在的问题进行了相应的