人工智能在数据清洗中的应用

被引量 : 0次 | 上传用户:xiangqi520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着业务的不断拓展,大量的生产管理、技术质量、财务成本等各个领域的数据不断产生。如何充分利用这些数据和系统,提高数据的质量,为决策支持系统提供正确的数据,实现从数据到信息、信息到知识的提炼,从而为企业的生产经营作出正确决策提供服务,是摆在我们信息技术人员面前的一大课题。数据清洗,也称做数据净化,从数据中检测和去除错误及不一致的数据部分以改善数据质量。本文针对CATT项目数据的数据质量问题以及用户的特殊需求,建立了数据清洗过程的元数据模型,对清洗过程用到的数据库对象和知识库对象进行管理,并创新性的在公司数据仓库项目中引入人工智能方法参与数据清洗。在本项目的元数据模型中,把知识元数据分为逻辑和信息两大类。逻辑是一种规则,是加工信息的具体方法,由设计人员进行具体设计和实现。信息是对现实世界中具体事物的抽象反映,可以由程序自动更新。对数据的清洗操作,利用规则对清洗后的数据进行的验证等等都属于逻辑。而各种数据,包括脏数据,清洗后的数据,验证后的结果,清洗过程中要用到的数据字典等等都数据信息范围。本文中的人工智能模块使用了贝叶斯文本识别方法,通过朴素贝叶斯分类器识别客户的特殊需求字段是否符合正确样本的特征。通过把人工智能模块整合到整个的清洗过程中,通过email提醒来通知维护人员出现可疑数据,从而大大降低了人员维护的工作量并实现了项目的需求。通过测试,本文所描述的数据清洗方案具有自动化程度高,人为管理少,结构清晰,便于维护和运行效率高等特点。
其他文献
炎症在许多神经退行性疾病的发病机理中起着关键性的作用,其中包括局部脑缺血、帕金森病、阿尔茨海默病以及与艾滋病相关的脑水肿。炎症反应过程主要是白细胞(单核细胞和中性
本文以安徽省阜阳市(皖北区域)、六安市(皖中区域)和安庆市(皖南区域)为主要研究对象,运用对比研究的方法,从创业支持、创业促进、创业融资、创业教育、减少障碍五大方面剖析
血友病B是一种由于人凝血因子Ⅸ缺陷导致的遗传性严重出血性疾病,临床治厅主要依靠输血或凝血酶原复合物,常规治疗暂时有效,需经常输注,而且容易感染AIDS及肝炎病毒,因此,人们设想
0本文首先对图书馆计算机网络安全需求作出阐述,明确图书馆计算机网络安全防范对策制定方向,然后对图书馆计算机网络安全风险进行分析,最后针对计算机网络安全风险出现主要原
现代企业激烈竞争的结果已经使生产企业、商业企业和物流企业都进入了一个微利时代,而且各个企业之间的竞争体现在生产经营、市场运作的各个方面,不仅在技术、人才上展开,同时也
中国饭店业发展的前二十年一直是以国外中高档客源的星级酒店为主,一提到酒店,人们往往会联想到喜来登、索菲特、万豪等高档豪华酒店,但是随着中国加入WTO,北京奥运会、上海世博
目的:观察电针相关井穴对血管性痴呆(vascular dementia,VD)大鼠学习记忆和清除自由基能力的影响.方法:参照Pulsinelli4血管闭塞法(4-VO)造模,结合行为学试验筛选VD模型.用跳
本文以金川公司53万吨硫酸控制系统的构架为原型,介绍了分布式控制系统(DCS)的设计和应用开发,所设计的DCS提供了一个适合多总线接入的统一平台,向下通过现场总线技术延伸到
本文以成都市为例,对旅游城市旅游行政管理系统进行了初步研究。在当前的旅游行政管理学术研究中,学者们主要的研究方向有:从理论方向进行探索,如旅游行政管理组织研究、旅游行政
<正>"黑名单"针对的对象在外部表现上是一种违法、违规行为,在内在特征上是一种危害社会公共利益、行业利益或企业利益的行为就行政"黑名单"而言,在给违法、违规行为以威慑的
会议