带有可信度标记的增量式数据修复方法研究

来源 :计算机科学与探索 | 被引量 : 0次 | 上传用户:lydr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,数据蕴含着巨大价值,成为当今信息社会的重要战略资源。然而,在对数据进行加工、处理的过程中,产生了大量不一致数据,对企业决策造成了不可预知的恶劣影响。现有的工作主要基于函数依赖研究数据修复技术,已有的修复方法分为三类:前两类需要企业提供Master数据库或给定元组的可信度值,然而在实际应用中,这样的条件未必能满足;而第三类基于最少删除原则的修复方法又会造成信息的丢失。同时,当函数依赖X→Y存在冲突时,现有的方法仅支持修改Y属性值。针对以上不足,在没有给定元组可信度的情形下,提出了带有可信度标记的
其他文献
知识推理是解决知识图谱中知识缺失问题的重要方法,针对大规模知识图谱中知识推理方法仍存在可解释性差、推理准确率和效率偏低的问题,提出了一种将知识表示和深度强化学习相结合的方法RLPTransE。利用知识表示学习方法,将知识图谱映射到含有三元组语义信息的向量空间中,并在该空间中建立强化学习环境。通过单步择优策略网络和多步推理策略网络的训练,使强化学习智能体在与环境交互过程中,高效挖掘推理规则进而完成推理。在公开数据集上的实验结果表明,相比于其他先进方法,该方法在大规模数据集推理任务中取得更好的表现。
针对目前表情识别准确率偏低,表情数据集中类别样本类间差异小、类内差异大以及误标注样本产生的误分类等问题,提出了一种结合改进VGGNet和Focal Loss的人脸表情识别算法。在迁移学习的基础上,通过设计新的输出模块对VGGNet模型进行改进,提升了模型的特征提取能力,能够较好地避免过拟合现象;通过设置概率阈值对Focal Loss进行改进,避免误标注样本对模型分类性能产生影响。实验结果表明,该模
在带钢的生产过程中可能会因为生产工艺的问题导致带钢表面出现缺陷,传统的带钢表面检测方法存在检测速度慢、检测精度低等问题。在计算机深度学习快速发展的今天,为实现带钢表面缺陷快速有效的检测,提出改进的掩码区域卷积神经网络(Mask R-CNN)算法,使用k-means II聚类算法改进区域建议网络(RPN)锚框生成方法;同时调整Mask R-CNN模型的网络结构,去掉掩码分支,提高了模型的缺陷检测速度
为了解决LBP算法抽取的纹理特征仅考虑了邻域像素的特征,忽略关键的局部和全局特征的问题,提出一种基于改进型LBP算法的WCM-LBP植物叶片图像特征提取方法。该算法融合了加权局部均值算法WRM-LBP和加权全局均值算法WOM-LBP,通过提取叶片基于区域的关键几何特征和纹理特征对LBP特征描述符进行加权改造,并采用加权局部均值和加权全局均值代替传统的中心像素点,最后将叶片图像的R、G和B通道颜色分
针对金属表面缺陷检测中目标尺寸小和特征不清晰导致漏检的问题,提出一种改进YOLOv3的金属缺陷检测算法。在YOLOv3网络结构的基础上,将第11层浅层特征与网络深层特征融合,生成一个新的尺度为104×104特征图层,提取更多小缺陷目标特征。加入DIo U边框回归损失,为边界框提供移动方向以及更准确的位置信息,加快模型收敛。利用K-Means++聚类分析数据集上的先验框尺寸信息,筛选出最优的Anch
针对物流配送领域的一种新型交付方式——无人机联合配送车协同配送包裹,研究无人机与配送车联合路径以最小化交付时间的问题,提出了一种新型优化迭代算法。该算法将问题分为两步,首先确定配送车路线及客户节点分配,然后固定配送车路线及无人机节点,确定二者汇合节点生成无人机配送路线。算法最后保留满足约束条件的无人机路线及对应配送车路线,得到联合配送总耗时。以此方式从最少的配送车节点开始迭代,通过更新全局上界得到
新型冠状病毒肺炎(COVID-19)大流行疾病正在全球范围内蔓延。计算机断层扫描(CT)影像技术,在抗击全球COVID-19的斗争中起着至关重要的作用,诊断新冠肺炎时,如果能够从CT图像中自动准确分割出新冠肺炎病灶区域,将有助于医生进行更准确和快速的诊断。针对新冠肺炎病灶分割问题,提出基于U-Net改进模型的自动分割方法。在编码器中运用了在ImageNet上预训练好的EfficientNet-B0
通过预约缓解集装箱码头拥堵是提高港口运作效率的有效途径。考虑集卡公司和码头运营商双方的利益以及码头内部作业系统的复杂性,以减小外集卡在预约时间窗内的平均排队长度和集卡公司期望到达的预约时间窗与被调配到的预约时间窗间的差异为目标,运用排队论相关知识和逐点固定流体近似方法(PSFFA),建立了多目标规划模型,以确定一个使集卡公司和码头运营商双赢的集卡调度计划。引入实例数据,利用CPLEX求解模型,并将结果与蒙特卡罗仿真结果作比较,以验证模型的有效性,并在此基础上调节参数优化预约模式。算例结果表明,集卡预约多目
针对NSGA-II算法在处理车间排产优化问题中出现的子代种群多样性差、收敛能力差等问题,提出了一种改进NSGA-II的车间排产优化算法。改进NSGA-II算法主要对传统NSGA-II算法的交叉和变异环节,提出新的改进自适应交叉和变异算子,通过对个体拥挤度与种群平均拥挤度进行对比,并结合种群迭代进化过程,将遗传概率与种群个体及种群进化迭代次数关联,避免盲目导向性,提高种群的收敛速度;提出新的均匀进化精英保留策略,通过自适应分层次选取种群个体,解决子代种群多样性差的问题。针对车间排产问题,选择“最大化最小交货
绿色港口日渐成为港口发展的必然趋势,为了提高集装箱码头的服务水平及降低其能耗,综合分析了集装箱码头的装卸作业流程,考虑岸桥、场桥、集卡在不同作业状态下的能耗,且以总完工时间和总作业能耗最小为目标建立了多目标混合整数规划模型。使用MATLAB编码改进自适应遗传算法求解所建模型,并分别与CPLEX和原始遗传算法的求解结果作对比,证明了该算法的优秀性。更改能耗目标和作业时间目标所占权重进行求解,发现考虑各设备在不同作业状态下的能耗会影响总完工时间,且能耗与作业时间是相互冲突的目标,追求低能耗会造成作业效率的牺牲