数据清洗方法分析及其在网络日志数据处理中的应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:john20002000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真实数据往往是“脏”的,数据质量良莠不齐,影响数据分析的可用性和准确性。目前在数据清洗领域,算法庞杂,领域针对性强。现有的综述文献大多只针对某一特定领域,没有一篇综合性的数据清洗综述文章。因此通过搜集和整理近年提出的数据清洗算法,并进行归类和分析,综合展现数据清洗领域目前各算法的优缺点,为感兴趣的研究人员学习算法或进一步改进算法提供方便。根据不同的需求,对数据的清洗可以分成三种处理方法:错误检测;数据修复和特征选择与构造。对于错误检测方法,分析四种类型重复记录检测算法。按照定量和定性两种方式对属性错误和约束冲突错误检测算法进行分类。对于数据修复方法,缺失值插补是被研究最多的问题,将缺失值插补算法分成四种类型进行对比分析。除了基于完整性约束规则类型对修复违反一致性错误的算法进行分类外,按照另外三种分类标准进行分析。对特征的处理有特征选择和特征构造两种方式,其主要区别在于是否改变原始特征。特征选择算法是该领域的研究重点,数理统计和机器学习算法在特征选择领域一直被广泛应用。近年来,越来越多的研究者表现出对进化算法的兴趣。在特征选择问题中,如何找到全局最优解的同时减少特征数量是需要考虑的问题,而这正好是进化算法擅长的。特征构造将数据投影到其他维度空间。对几种常用的特征构造算法进行了分析和讨论。实验以Spark服务器集群为实验测试平台,针对真实的网络日志,分析日志的特点,就缺失值和特征选择问题选择最优的数据清洗算法,完成日志清洗的工作。
其他文献
2008年的金融危机使世界经济受挫、全球化进程受阻。面对传统的反全球化与当前的逆全球化相叠加、传统的恐怖主义与新民粹主义相叠加等严重局面,习近平发出"共担时代责任,共
文章在对文化科技融合产业划分和商业模式构成要素分析的基础上,从商业模式构成要素的角度对沈阳文化科技融合产业商业模式的特点进行总结、分析,提出沈阳文化科技融合产业基
我国是以农业为主的国家,长期以来,“三农”问题是党和人民关心的重要议题。我国农业人口占据了全国人口一半以上,如何保证农民收入、农村稳定以及农业增长不仅是每年一号文
中国古典婚恋悲剧性作品是中国古典戏曲的重要组成部分,作为一种烙印着独特民族文化气质的作品类型,它的产生与本民族的文化、社会、历史、悲剧心理等因素息息相关。悲剧性研究不仅要揭示悲剧之所以为悲剧的根性特质,而且需统摄作家、文本、观众三个层面。本文旨在通过文本细读、对照分析等研究方法,对不同时期的婚恋戏曲的悲剧性作品进行研究,总结其发展规律,揭示婚恋悲剧性作品生成背后的文化内涵。第一章主要阐述宋元婚恋戏
小组合作模式分为导入、合作、共享三个活动环节,学生在平等、尊重、互助、互学的小组合作学习氛围中能够逐步形成学习共同体。在道德与法治课堂教学中,教师要以具体课堂案例
目前在我国学界关于宅基地相关概念存有许多不同观点,笔者对宅基地、宅基地使用权等相关问题进行梳理研究,以期丰富宅基地理论,促进宅基地立法发展。本文认为宅基地是指城乡
2019年3月18日,习近平总书记主持召开学校思想政治理论课教师座谈会并发表重要讲话,对思想政治理论课的重要地位、思想政治理论课教师队伍建设以及思想政治理论课的改革创新
目的探讨黛力新对冠心病患者经介入治疗围术期焦虑和生活质量的影响。方法将我院2013年10月至2014年12月期间收治的186例冠心病介入治疗患者分成两组,对照组予以冠心病常规治
人口问题是人类社会发展过程中需要统筹解决的主要问题之一。文章通过Eviews建立人口自然增长率OLS回归模型,并在保证没有多重共线性、异方差性与自相关性,且模型通过协整检