【摘 要】
:
用户的用水类型是供水企业对用户用水收费的重要标准。用户用水类型标签作为供水企业对用户定价的关键凭证,在用户的用水类型申报、供水企业的运营减负及利润保障上起着极为重要的作用。然而随着供水产业改革以及用户规模扩大,用户用水标签错标、标签无法随用户用水性质自动更新等问题日益加剧。供水企业客户基数大、用户长期流动、变动频繁,同时运营资金投入少、人工维护困难等问题使大数据量下用水用户标签的更新和清洗难以实现
论文部分内容阅读
用户的用水类型是供水企业对用户用水收费的重要标准。用户用水类型标签作为供水企业对用户定价的关键凭证,在用户的用水类型申报、供水企业的运营减负及利润保障上起着极为重要的作用。然而随着供水产业改革以及用户规模扩大,用户用水标签错标、标签无法随用户用水性质自动更新等问题日益加剧。供水企业客户基数大、用户长期流动、变动频繁,同时运营资金投入少、人工维护困难等问题使大数据量下用水用户标签的更新和清洗难以实现,对供水企业造成巨大的成本损失,同时也对用水用户群体带来极大的不便。针对供水企业已有用水用户数据维度单一、用水类型标签人工核验成本高昂等问题,本文从供水企业提供的真实数据出发,结合用户个人信息、历史用水数据、经纬定位信息等,实现了一种基于聚类特征与主动学习的用水用户标签清洗方法CFAL,为供水企业的用户用水类型标签更新、清洗提供决策支持。本文首先采集了江西省上饶市信州区下的用户用水历史数据及用户基本信息数据,并根据国家《用水分类标准》及当地供水企业的三级用水分类对采集的真实用户数据进行分类。其次基于箱线图关键阈值对原始用水数据进行离群点处理,借助数据库对原始数据进行转置,通过特征工程生成用水用户的统计特征模型。然后将用户的地址信息转换为经纬度数据,以用户的经纬坐标为基础生成用户的聚类特征,并使用独热编码(One-hot Coding)的方式将聚类算法的类簇预测标签映射为数值特征,从而构建用水用户的聚类特征。最终基于已经过人工实地标签核验的数据集,对比了随机采样和CFAL对错标样本的筛选能力,并对比了传统主动学习方法和基于聚类特征的主动学习方法CFAL在不同分类器及样本选择策略下的性能。比较得出,基于聚类特征的主动学习方法CFAL可以显著降低用水类型标签人工采样核验的成本,寻找错签样本的能力提高了8.2%,同时对分类模型的Micro F1及Macro F1指标性能最高提升了8.7%和1.8%。
其他文献
随着5G技术的逐步普及以及6G技术的深入研究,越来越多的高速移动场景开始对移动网络提出了更高的要求,即通信链路既需要满足低误码的高通信质量,又需要满足高速率的高通信效率。对此,自适应链路相关的技术逐渐成为研究者们日益关注的研究热点。然而,高速移动场景下的信道与低速信道有着很大的不同,信道各项参数在短时间内快速变化,传统的信道估计难以以低代价实现对快变信道的准确跟踪。而自适应链路技术的重要基础之一就
人脸关键点检测是计算机视觉领域一个很重要的课题,诸多人脸分析任务都依赖于精确的人脸关键点定位,比如表情识别、头部姿态估计、人脸合成等。随着近年来深度学习的发展,人脸关键点检测已经取得了极大的进展,但是在无约束环境下,由于姿态、遮挡等挑战的存在,人脸关键点检测依旧是个难题。目前基于深度学习的人脸关键点检测算法可以进一步细分为两类:一类基于坐标回归,由神经网络实现从图像到数值坐标的直接映射;一类是基于
近年来,人工智能特别是深度学习技术在模式识别、场景感知和任务决策等方面取得了突出的效果和成绩。与此同时,边缘计算和设备如嵌入式终端等的发展也带来了更高的数据处理和计算需求。深度神经网络出色的数据特征提取和分析能力在边缘计算场景有着广泛的应用前景。然而,深度神经网络的复杂度严重限制了其在资源有限的边缘计算场景下的部署和应用。因此,如何有效地降低深度神经网络的复杂度是本研究的重点问题。首先,本研究从深
随着我国技术的发展以及医疗保障体系的完善,基于人工智能和大数据的临床决策支持系统逐渐成为满足人民健康需求的重要工具。本文基于合作单位浙江省立同德医院的实际需求,围绕慢性肾脏病的预测和药物不良反应识别展开研究。第一项研究从浙江省立同德医院收集了2213名病人的电子医疗记录,其中639名病人发展为慢性肾脏病。然后,本研究提出MD-BERT-LGBM方法建立预测模型,并与现有的其它机器学习方法进行比较。
智能卡设备作为一种保障用户信息安全的产品,其内部实现的密码算法都是满足理论安全要求的商用密码算法,如DES,AES,RSA等,以确保恶意攻击者无法获取内部的关键信息。这些密码算法都是经过了一系列理论验证和筛选,以及传统密码分析方法实际攻击后被证明安全的算法。但是,这些密码算法实现在具体的物理设备上时,设备运行过程中的泄漏信息提供了关于设备中关键信息的先验知识,使得攻击者能够通过旁路攻击这种手段恢复
电弧故障已逐渐成为住宅建筑电气火灾事故的主要成因之一。由于电弧故障拥有因其复杂、随机和不确定等特性,传统的空气开关断路器无法及时响应切断电源并因此失效。针对这种情况,本文对电弧故障特征进行了初步分析。提出了基于时间片的电弧故障特征检测算法,结合该算法和离散小波变换(Mallat算法),实现了一个数字硬件检测电路。该电路与高速ADC一起协同工作,对电弧故障信号进行分析和计算,克服了传统MCU软件实现
水声传感网络(Underwater Acoustic Sensor Networks,UWASNs)是探索、观测及利用海洋的重要基础设施,媒体接入控制(Medium Access Control,MAC)协议是其中的关键技术之一。MAC协议负责分配信道资源,保证网络节点尽可能合理地共享信道。论文以数据收集为应用场景,研究水声传感网络的MAC协议。针对现有协议存在多应用适应或分区域服务质量(Qual