【摘 要】
:
随着大数据(Big Data)的广泛应用,数据挖掘(Data mining)与机器学习(Machine learning)作为处理数据的重要手段,已然成为当今研究的一个热点问题。许多数据挖掘的算法得以进
论文部分内容阅读
随着大数据(Big Data)的广泛应用,数据挖掘(Data mining)与机器学习(Machine learning)作为处理数据的重要手段,已然成为当今研究的一个热点问题。许多数据挖掘的算法得以进行的先决条件就是所要处理的属性值是离散值。所以如何使用好的离散化对数据进行预处理更是重中之重。并且在离散化步骤中,没有任何离散化算法可以适用于任何环境下,需要根据数据集的特点和学习环境等选择合适的离散化方法。本文通过对中外数据离散化技术现状的深入研究,分析了根据数据集的统计特性检测以确定其分布模型,以及对不同离散化方法之间选比判定依据,设计了一种最优离散化方法自动选择机。研究提出了一种针对环境的并行比较并获得最优离散化的数据准备算法(Auto Optimize Algorithm,AOA),针对不同数据集,算法首先进行对数据集的统计特性检测以获得数据集的分布特性,根据分布特性进行数据集的异常值检测和剔除。其次,并行完成与分布特性适配的离散化。最后,通过比较不同离散化方法的熵、方差指数、稳定性这三个参数所构成的最小欧氏距离(Minimum Euclidian distance,MED),根据三个参数自动化比选,获得最优离散化的预处理成果。仿真表明,对北京(温带气候)与三亚(热带气候)样本数据集进行关联规则挖掘结果中,比较四种固定分别使用等频离散(EFD),等宽离散(EWD),基于均值标准差离散(AVST),K均值离散(KMEANS)的离散化数据预处理方法,在使用AOA对数据进行数据预处理后,在不同最小支持度阈值情况下,挖掘得到关联规则数更多,平均置信度更高,挖掘运行时间基本相当,因此得到更好的挖掘结果。并且基于AOA实现自动化最优离散化算法选择工具。
其他文献
随着国内经济的不断发展,企业的快速成长,人才的培养及留用成为企业能够发展壮大的关键。而薪酬的公平性因素,作为留人的关键因素之一,则显得尤为重要。在过去的多数薪酬研究中,多数以公平理论作为基础,特别是关于分配公平的研究较多,很多都是关联员工的公司满意度。但是在实际的薪酬公平研究中,存在着薪酬增加,但不公平感并没有相应下降的情况,仅仅用公平理论解释该现象,显得不够直观。因此引用近年来的新观点:相对剥夺
<正> 教学《卖火柴的小女孩》,我想了方法,要同学分别记住“二”、“五”、“三”。“二”指的是什么?“二”指的是两个时间。从课文上看,作者写的是“大年夜”和“第二天清
便携式产品提供的功能越来越纷繁,用户日益需要准确地监测电池电量,以便灵活管理可用电源,明确显示剩余工作时间,尽可能延长系统运行的时间。电池电压模拟剩余电量的方法确实
病历摘要患儿男,5岁,于1990年12月28日入院。于入院前1.5年开始发热,体温在38~39℃,伴轻咳。按“上感”治疗3d 后热退。病后10d 自感右腿无力易跌倒,1月后右腿跛行,1年后左腿
本文通过了解铝管力学性能的检测过程及方法,识别出影响检测结果的因素,进一步对检测结果的不确定度进行评定。
目的 探讨右美托咪定联合七氟醚吸入诱导用于病态肥胖合并重度鼾症患者喉罩置入的可行性和安全性。方法 前瞻性选择2018年1~12月首都医科大学附属北京友谊医院拟行减重手术的
前言 子宫内膜癌为女性生殖道常见三大恶性肿瘤之一,近20年来在世界范围内其发病率有上升趋势。子宫内膜癌的病因仍不十分清楚,但对于大多数的子宫内膜癌,长期的无孕酮拮抗的
目的 研究肝癌组织、癌旁组织中HBsAg、HCV抗原表达与临床及组织学的相关性。 方法 采用免疫组织化学方法对肝癌组织及癌旁组织中的HBsAg、HCV抗原表达进行了标记和分析,
开展细微化服务活动是近年来不少旅游行政部门在行业管理中对提高旅游服务质量做出的一个重要举措,它对于旅游饭店的经营管理工作同样适用。开展酒店细微化服务,对于提升酒店形
蔬菜品质和新鲜度的高低不仅影响食用时的口感,而且营养程度也不一样。作为蔬菜品质和新鲜度重要参考指标之一的叶绿素和含水量的检测,已经越来越受到国内外学者的重视。相比