EntityManager: Managing Dirty Data Based on Entity Resolution

来源 :计算机科学技术学报(英文版) | 被引量 : 0次 | 上传用户:szhg5583
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Data quality is important in many data-driven applications, such as decision making, data analysis, and data mining. Recent studies focus on data cleaning techniques by deleting or repairing the dirty data, which may cause information loss and bring new inconsistencies. To avoid these problems, we propose EntityManager, a general system to manage dirty data without data cleaning. This system takes real-world entity as the basic storage unit and retrieves query results according to the quality requirement of users. The system is able to handle all kinds of inconsistencies recognized by entity resolution. We elaborate the EntityManager system, covering its architecture, data model, and query processing techniques. To process queries efficiently, our system adopts novel indices, similarity operator and query optimization techniques. Finally, we verify the efficiency and effectiveness of this system and present future research challenges.
其他文献
目的 探讨颅骨嗜酸性肉芽肿的CT表现。方法 搜集 15例我院经临床病理证实的颅骨嗜酸性肉芽肿的CT资料进行回顾性分析。 15例病人均作过CT扫描 ,其中 4例还同时作了颅骨X线
肠结核是由结核杆菌侵犯肠道引起的慢性特异性感染。由于其临床表现不典型,缺乏特异性,容易漏诊、误诊、贻误治疗。其好发部位是回盲部,亦称为回部结核。本文总结我院1993年6
职业道德建设是社会主义精神文明建设的一个重要方面,也是一个国家、一个民族经济发展和社会文明的重要标志之一。在我国完善社会主义市场经济体制、构建社会主义和谐社会的
期刊
Extreme leing machine (ELM) is a leing algorithm for generalized single-hidden-layer feed-forward networks (SLFNs). In order to obtain a suitable network archit
体部肿瘤X -刀治疗新技术越来越受到临床重视。其疗效的好坏与CT定位有密切联系。本文就我院开展的体部肿瘤X -刀治疗 3 2例的CT定位进行总结、分析。1 材料与方法定位设备 :GE公司SYTec
药学服务是21世纪药师的任务,以服务患者和临床为宗旨的全程化药学服务模式,成为新世纪药学发展的主要方向,优良的药学服务,也将成为医院生存发展的关键因素。1药学服务的主