【摘 要】
:
数据质量对数据建模和数据分析具有直接影响,如模型的泛化能力和分析的精度等,开展数据异常检测和修复在数据质量工程、数据挖掘中具有现实意义和价值。完整性约束是关系数据
论文部分内容阅读
数据质量对数据建模和数据分析具有直接影响,如模型的泛化能力和分析的精度等,开展数据异常检测和修复在数据质量工程、数据挖掘中具有现实意义和价值。完整性约束是关系数据库中修复冲突数据的主要方法,但约束本身很有可能是不精确的。现有数据修复算法考虑过于简单的不精确约束,并通过加入谓词对约束进行细化。但事实是不精确约束可能不仅包含将正确数据错判为冲突数据的过简约束,还包含不能正确识别冲突数据的过繁约束。为了使修复结果更为精确,本文同时考虑谓词的加入和删除两种情况,提出一种数据和约束统一修复的算法,该算法在一次修复后给出满足约束集变体的、具有最小数据修复代价的修复方案。在真实数据集上的实验结果表明和现有方法相比该算法修复性能更好。简单数据集不含完整性约束,现有修复算法不能应用于其中。本文利用成对约束和数据集密度信息,提出一种基于密度聚类的半监督修复算法。该算法遵循数据修复的最小改变原则,首先利用样本集自身的密度信息和成对约束形成临时聚类簇;然后利用成对约束将临时聚类簇进行分割或者合并形成最终聚类簇,在聚类的同时完成不精确数据的修复。实验证明本文提出的算法能成功提高数据修复精度和数据聚类精度。
其他文献
与金属、陶瓷相比,聚合物具有独特的性能,因此广泛用作轴承、轴套、密封圈、刹车片等机械零部件的摩擦副材料。聚甲基丙烯酸甲酯(PMMA)是一类性能优异的热塑性聚合物材料,但纯PMMA摩擦系数高、不耐磨,极大的限制了其在摩擦学领域的应用。提高PMMA的减摩耐磨性能是聚合物摩擦学中的一个重要研究方向,填充改性是提高复合材料摩擦学性能的重要方法之一。因此,研究单一或多种填充剂协同作用下PMMA基复合材料的摩
幼儿园教育中的重要部分之一就是阅读教育,阅读是对文字的延伸,幼儿学会早期阅读能力,对于未来的阅读学习和识字有很大帮助,并且能够强化幼儿的表达能力,是非常重要的幼儿教
随着互联网与多媒体技术的快速发展,网络上可用图像数量呈现爆炸式增长,社会进入了以“大数据”为标志的网络数据时代。因此,如何快速从海量数据库中搜索到特定的图像,已成为一个极具挑战性的任务。在实际应用中,由于哈希算法具有高效的检索效率,所以成为最受欢迎的候选方法之一。哈希算法的本质是解决一个离散优化问题,然而,大多数现有的哈希算法都选择去掉离散约束来解决一个松弛的连续优化问题。由于松弛会引起误差,所以
现代社会,伴随经济发展和社会分工的日益细化,国家越来越多的对财产权进行某种形式的限制和剥夺,以实现资源配置的最优配置和公共利益的最大化。我国宪法、物权法等均对传统
近年来,出版行业中纸质文本和电子化资源进行联合发行的模式发展迅速,图书电子化成为书籍出版的新常态。图书电子化资源包括视频、音频、图片和文本等多种形式,各类电子化资
随着沿海地区旅游业的快速发展和人们生产水平的提高,海洋污染逐渐成为一个日益突出的话题。贝壳、珊瑚礁等海洋资源遭受严重的破坏,海洋环境遭到赤潮的严重污染,直接影响到
表面等离子体(surface plasmons,SPs)是一种电磁表面波,当沿金属表面传播时,在金属表面处拥有最大的场强,在垂直于金属界面方向上是一种指数衰减场,它即能够被电子激发同时也能够被光波激发。在介质与金属表面交界处,表面等离子体的光子态密度较高,这一特点大大增强了光与物质间的相互作用,从而提高了光的探测能力。表面等离子体独特的光学特性为光学传感器的发展开辟了一条新的道路,并且在改善光子器
近年来,随着海洋强国战略的不断深入,我国对海洋综合管理问题有了更多的关注。海水光学参数是表征海洋的一个重要方面,其对全球物质循环和气候变化也有重要的指导意义。海洋
由于胶质母细胞瘤(Glioblastoma multiforme,GBM)的异质性特点,使得表现在不同子区域的核磁共振(Magnetic resonance,MR)影像的纹理特征不同,隐藏的与预后有关的危险信息也不
随着信息时代的不断地发展,目前的通信技术越来越难满足人们对通信容量日益增长的需求。光纤作为新一代的传输介质以其信息传输量大,传输速度快等优点,有着迅猛的发展趋势。多芯微结构光纤凭借其新颖的导光机制以及基超模优良的传输特性,近年来有着迅猛的发展,在光纤通信系统,光纤激光器,光纤器件以及光纤传感等领域中有着重要的应用。本文从多芯微结构光纤出发,研究了多芯微结构光纤的模式数量,色散和模式面积特性,以及超