关键属性组的相似重复记录检测方法研究

来源 :科学技术与工程 | 被引量 : 0次 | 上传用户:spls108
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对相似重复记录的检测是数据预处理中的关键环节。针对海量数据相似重复记录检测过程中,记录属性维度过高导致的查准率和时间效率较低的问题,提出了基于统一互信息的关键属性组查找算法,通过过滤噪声属性,降低属性维度。最后,在真实数据集上通过对该算法和基于原始数据所有属性的相似重复记录检测算法在准确率和效率方面的比较,验证了所提出算法的有效性。
其他文献
为研究居民租车出行意愿以及车型选择,提高租车出行选择行为的预测模型精度,使用相关性分析筛选与居民出行租车选择行为密切相关的影响因素,确定租车出行选择的动态因素(即季
利用点云数据空间分布特征和回波强度信息,结合局部均值变点统计方法,提出了一种用于激光雷达数据帧的车道标线识别算法。该算法首先基于车载激光雷达采集的道路周围环境点云
天空背景的复杂性与飞机目标的多样性,对基于传统目标检测算法的飞机目标检测带来了巨大的挑战。按图像的稀疏表示理论,提出了多尺度超完备字典的飞机目标检测算法。算法综合了不同尺度下超完备字典各自的优点:利用低分辨率图像块学习小尺度字典,构造小尺度分类器,在低分辨率测试图像中完成前景粗检测;利用高分辨率图像块学习大尺度字典,构造大尺度分类器,在高分辨率测试图像中完成前景精检测;最后通过飞机图像块学习飞机目
桩身侧摩阻力是桩基设计非常重要的参数指标;而桩侧摩阻力的软化行为会引起桩承载能力的降低。基于桩-土软化模型推导出了单桩荷载传递规律的解析解。通过单桩静载荷试验,对
在皮肤电反应(galvanic skin response,GSR)信号采集过程中,由于环境等因素不可避免地会引入噪声,需要在进行模式识别前对采集信号进行去噪处理。利用MATLAB研究不同小波组合对
充气钻井是发现和保护致密油气藏、防止裂缝性储层漏失、提高机械钻速的重要技术手段。通过实验资料和计算论证,阐述了充氮气钻井井筒环空与钻柱内两相流体呈现出的多种流型
针对目前对LNG储罐的风险分析多数仅以单个储罐为研究对象,鲜有考虑储罐间的相互影响这一研究现状。提出将多米诺效应分析引入到LNG储罐区的风险分析当中。首先,对单个LNG储
碱污染土碱土作用过程对温度极为敏感,实践中发现按现行《土工试验规程》测定含水率、液塑限和比重时,烘干或加热过程都会严重影响参数测定准确性,为了系统的研究这一影响规
为了使高原驾驶员适宜性评价更加客观准确,从驾驶员疲劳角度出发,将影响驾驶员疲劳的主要因素连续驾驶时间作为参照依据,运用模糊理论,对驾驶员视觉特性、速度估计特性、反应
采用落锤冲击加载的方式,结合焦散线方法,研究了裂纹缺陷对有机玻璃( PMMA)板条试件动态断裂行为的影响效应.通过对试件断裂破坏过程的观测和分析,得到了裂纹尖端动态应力强度