工业大数据相似重复记录数据清洗关键技术研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:hgs26
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
工业大数据是支撑未来智能信息化的基础,企业在发展过程中积攒了大量珍贵的数据信息,这些数据在企业的发展过程中起着举足轻重的作用。但由于存在不完整数据、重复数据、缺省数据、冗余数据等数据质量问题,使得基于这些数据的分析往往产生错误的结果,这就必须关注数据本身的质量问题,本文主要对工业大数据中的相似重复记录进行研究,并进行相应的处理工作。由于传统的清洗算法对相似重复记录清洗效果较差,本文结合工业大数据数据特点,以及中西文表达不同的特点,针对传统编辑距离因属性缺失造成的重复记录误判情况,提出模式编辑距离以及综合属性权值的概念,可以实现区分中西文表达差异同时可以最大化合理考虑数据的领域特点,从而提高检测精度。工业大数据集中对整个数据集进行相似记录匹配是没有必要的,故提出基于长度过滤和动态伸缩窗口的概念,利用长度过滤(大于阈值)算法将不可能构成相似重复的记录进行筛除;通过设置动态伸缩窗口,比较窗口内的记录间相似度,整个窗口在滑动过程中动态调整其大小,减少了不必要的记录匹配。本论文的目的在于深化相似重复记录识别方面的研究,并为相似重复记录检测在工业大数据中的应用起到抛砖引玉的作用。实验证明,改进的SNM算法在识别相似重复记录方面,检测精度和效率均有所改善,也验证了相似重复记录识别算法在工业大数据中应用的价值性。
其他文献
文章通过"色彩构成"课程教学,讲述了装饰绘画与色彩构成的关系;分析了优秀装饰作品中色彩构成的语言;阐述了学生对"色彩构成"课程的掌握情况和对用色彩构成原理进行装饰绘画(
<正>赵伟:360基因检测创始人,北京宏图云天科技有限公司总经理。1998年毕业于东北林业大学。2000年加入3721,从此开始了互联网人生。曾在雅虎中国、阿里巴巴、奇虎360等互联
行政优益权,也称为行政特权,是指在行政合同中,行政主体所享有的一系列保障其有效行使行政职权和履行行政职责的特权,这些特权是由行政合同中的权力因素所决定的。我国目前虽
格里菲斯作为世界电影史上具有里程碑意义的导演,不仅完善了叙事电影的基本语言,并将之标准化,还发展了电影剪辑技巧,拓宽了电影的表现时空,为蒙太奇理论的提出奠定了美学基
Based on the data from 36 major cities in 2004 and 2005, this paper analyses the rationality of present housing price level, focusing on the high price-to-incom
今年“3·15”前夕,《中国质量万里行》上海市场调查中心发放了1万份汽车4S店满意度调查问卷,同时还对上海的36家汽车4S店进行了暗访。结果显示,汽车4S店实际上并非想象的那
在影视翻译成为跨文化交际手段的今天,电影片名的翻译不仅是该片的点睛之笔,还是其能否为目的语地区观众所接受的重要元素。由于文化意识的不同,两岸三地在英文电影片名汉译
针对蛇纹石易恶化硼镁石浮选环境的问题,通过浮选试验研究了不同粒度蛇纹石及矿物量配比对硼镁石浮选效果的影响.试验结果表明:浮选过程中蛇纹石与硼镁石颗粒间易发生相互作用
<正>随着我国城镇化率的不断上升,城市洪涝灾害却呈频发趋势,不但在多雨的南方城市,连缺水和干旱的北方和西北城市的城区也常遭水淹,给人民生命财产带来巨大损失。它已成为我