【摘 要】
:
随着大数据时代的到来,信息科学技术不断迅速发展,数据规模呈现快速增长趋势,但在大量相关数据中,数据质量问题普遍存在。数据质量是衡量数据好坏的核心标准之一。一般情况下用这几个数据质量维度来评价数据的好坏:完整性、准确性、一致性和及时性。质量不高的数据会严重影响大数据信息时代下的信息应用。对信息的错误理解,会给人们增添很多不便,甚至造成灾难性的后果。因此迫切的需要对数据质量的相关问题采取措施,数据质量
论文部分内容阅读
随着大数据时代的到来,信息科学技术不断迅速发展,数据规模呈现快速增长趋势,但在大量相关数据中,数据质量问题普遍存在。数据质量是衡量数据好坏的核心标准之一。一般情况下用这几个数据质量维度来评价数据的好坏:完整性、准确性、一致性和及时性。质量不高的数据会严重影响大数据信息时代下的信息应用。对信息的错误理解,会给人们增添很多不便,甚至造成灾难性的后果。因此迫切的需要对数据质量的相关问题采取措施,数据质量的问题也成为了数据领域的重要的研究工作。数据完整性就是数据质量问题中一个重要方面,保证数据的完整性变得尤为重要。因为在许多场景中,保证查询答案的完整性是至关重要的。具体来说,数据集中没有包含足够的信息来回答查询我们就叫做数据不完整,分为属性值缺失和元组缺失。如何基于完整性对数据进行填充,是研究数据质量的一个基本问题。现有的填充缺失值的方法,仅能通过计算或者随机填充并不能准确的填充缺失值,同时也没有考虑到数据的完整性。本文针对缺失值的填充,提出了基于完整性利用其他数据源来进行填充缺失值的策略。本文同时考虑了元组完整性和属性值完整性两个方面,对于如何基于完整性对填充缺失值进行了系统的研究。由于现代信息的快速发展,数据源的数量也不断增长,访问太多的数据源会带来巨大的开销,这使得利用数据源来进行缺失值填充的成本过高,所以如何选择合适数据源成了本文的主要研究问题,主要研究成果如下:1.本文研究了填充缺失属性值的数据源选择策略。在基于完整性填充缺失属性值的问题上,本文提出了一种基于最小哈希签名的数据源选择策略,首先基于属性值缺失我们定义了数据源选择的增益模型使得我们选择的数据源的收益最大化;然后利用最小哈希技术,使得可以在不访问数据源的情况下利用数据源的签名来进行有效的数据源选择;设计了近似贪心算法来解决这个NP-难问题,算法在准确性上和传统贪心算法是有可比性的,而在效率方面是明显优于传统贪心算法的。真实数据和合成数据上实验表明:利用最小哈希签名来进行数据源选择的方法是准确和高效的。2.本文研究了填充缺失元组的数据源选择策略。在基于完整性填充缺失元组的问题上,本文提出了一种基于遗传算法的数据源选择策略,首先基于元组缺失我们定义了数据源选择的增益模型使得我们选择的数据源的收益最大化;然后我们提出了利用遗传算法来搜索最优数据源的策略,保证了我们填充后的目标数据源的完整性。我们将该问题转换成了0-1整数规划问题,利用不断交叉和变异的遗传算法,选择最合适的数据源来进行填充。该算法采用高质量的过程搜索最优解方法,在真实数据和合成数据中表现出良好的性能和很高的扩展性。
其他文献
目的:鼻腔鼻窦恶性肿瘤作为耳鼻咽喉头颈外科高发恶性肿瘤之一,其发病率有逐渐升高的趋势,严重危害患者的生命健康。目前,鼻腔恶性肿瘤的病理类型繁多,但不同的病理类型的临床表现、治疗方法以及预后有所不同。为此,本文将分析近10年鼻腔鼻窦恶性肿瘤病理组织分型的特征,拟探讨鼻腔恶性肿瘤的总体高发年龄、高发性别、高发病理类型以及其在不同年龄、不同性别、不同时间段内高发病理类型是否有所差异,旨在总结出鼻腔鼻窦恶
随着科技进步和网络技术的发展,互联网成为了公众获取信息、表达意见的重要平台,网络舆情也已成为社会舆情的重要组成部分。政府是国家的管理者,也是网络舆情的主要应对者。公众对政府的信任度直接影响着政府治理网络舆情的有效性。因此,研究网络舆情环境下公众对政府信任度的影响因素具有重要的理论意义和实践价值。本文首先对国内外研究现状进行了综合阐释和评述,在此基础上对网络舆情、信任等内涵和特点进行分析,并对网络舆
聘禮作爲五禮賓禮之一,在周代社會較爲盛行,其既關涉諸侯國之間的交往是否和諧順利,也牽涉到民眾生活的安穩與否,是中國古代禮儀制度的重要組成部分。本文以《三禮》文獻爲中
在HIV-1的复制周期中,逆转录酶(RT)起着非常关键的作用,也被认为是开发抗HIV药物关键靶标之一。大量研究表明,具有嘧啶环骨架的化合物显示出十分广泛而优秀的生物活性,其中多类嘧啶衍生物表现出优秀的抗HIV-1活性。本论文基于二芳基嘧啶类化合物(DAPYs)和新型嘧啶类逆转录酶抑制剂的构效关系和研究进展。采用分子杂交策略杂合二芳基醚类化合物的分子结构,设计合成了一类结构新颖的IPAPYs(Ind
市场摊区智能监管是智慧城市建设的重要功能之一。对于市场摊区监控目标(包括溢出摊位、占道经营摊位等)采用传统的人工巡查方法效率低下且存在监管漏洞,视频监控方法正逐步被采用,对市场摊区监控目标的自动检测识别方法成为迫切的需求。本文针对这一现状,研究市场摊区监控目标检测识别方法。本文提出了基于运动目标分析的非法摊区检测方法。在禁止摆摊的划线监测区域内通过本文改进的背景差分方法和卡尔曼滤波方法对运动目标进
目前,生物特征识别技术受到国内外安全专家的关注,人脸识别具有非接触、安全性高等优点,但其容易受到面部表情、光强度和遮挡等因素影响。步态识别具有识别距离远、伪装困难等优点,但其容易受到人物情绪、负重和衣着等因素影响。因此,本文研究基于人脸和步态双模态的融合方法,提高识别的准确性。另外,提出结合步态双视角融合和区域下采样的方法,提高系统的运行效率和鲁棒性。本课题的研究内容主要包括:1、人脸和步态的预处
随着航天技术的不断发展,载人深空探测项目不断推进,深空通信业务中对流媒体传输业务的需求日益增加,针对深空环境下流媒体传输协议的研究也越来越多,先后出现了基于容迟/容断网络的束流服务协议(Bundle Stream Service,BSS)和RTPover DTN(Real-time Transport Protocol over Delay/Disruption Tolerant Network)
真核生物基因组被有序地组织压缩形成染色质,染色质可以分为两种:常染色质和异染色质。异染色质被高度凝缩,这种致密的结构对维持染色体完整性和稳定性,以及转座子沉默至关重
在快速发展的智能交通领域,采用单一传感器的车辆检测系统已经很难满足行业对信息多样化的要求,因此多传感器融合的车辆检测系统是行业发展趋势。视频检测系统能够快速、准确地识别目标,并且可以显示实时画面;微波雷达检测系统具有检测距离远、受天气影响小等优点。本文将微波雷达与视频检测到的信息融合,充分利用多传感器的优点,实现多参数提取和系统功能的多样化。本文利用线性调频连续波雷达进行距离测量、速度测量、角度测
钢管混凝土结构因其具有承载力高、截面模量大、塑性韧性好、耐久性好、便于施工、抗震性能好等诸多优点,使其在实际建筑工程中得到广泛的应用,众多学者对其力学性能进行了详细研究。高强混凝土具有抗压强度高、耐腐蚀性较好、抗渗及抗冻性能较好、徐变较小等优点。应用高强钢材较普通强度钢材相比可以减少构件截面尺寸和结构总重量,相应减小焊接工作量,从而提高结构的疲劳使用寿命,也可以减少防锈、防火等涂层的用量,提高建筑