论文部分内容阅读
随着信息科技的快速发展,人类社会开始步入创造和挖掘知识的信息革命时代。信息技术逐渐应用于电信、金融、教育、电子商务甚至政府决策等领域。而在国家全面建设医疗信息化的浪潮中,将大数据技术应用于与民生息息相关的医疗健康领域成为当下发展的一个热点。由于医疗数据的特点如海量、高维度、不规范等,对医疗健康信息进行数据预处理是挖掘分析前的一个不可或缺的重要步骤。通过预处理分析不仅可以提高数据挖掘的质量,还能从一定程度上提高挖掘效率。本文结合现有技术,分别对两个医疗健康数据集进行预处理分析并对部分方法进行技术改进,主要工作如下:(1)“人口死亡”数据集预处理方法的研究与改进。对“人口死亡”数据集进行特点分析并对其进行合适的预处理分析,着重研究采用随机森林算法对数据集“死亡方式”属性的缺失值进行填补。由于该数据集的非平衡性大大影响随机森林填补缺失值的效果,因此采用过采样技术SMOTE算法对数据集进行平衡性改善;并针对SMOTE算法存在的缺陷提出创新性改进。实验表明,数据集在使用改进的SMOTE算法进行平衡性改造后,随机森林对数据集的缺失值填补效果更佳。(2)“癫痫病脑电波”数据集预处理方法的研究与改进。研究脑电波数据集预处理相关技术;并着重研究局部线性嵌入算法对脑电波频域信号进行降维。针对局部线性嵌入算法选择邻域点过大时造成的“短路边”问题,提出一种基于K-Means和均值的自适应选择方法。经过实验对比分析,改进后的局部线性嵌入算法具有更好的降维效果并具有良好的推广能力。(3)对两个健康数据集进行预处理分析设计与实现。结合各自特点,将预处理技术及其相关改进应用于“人口死亡”数据集和“癫痫病脑电波”数据集分析中,为下一步的数据挖掘工作提供有效的高质量数据集。经实验表明,通过预处理后的数据集挖掘质量更佳且效率更高。