论文部分内容阅读
本文在分析数据ETL(Extract-Transform-Load)现存技术情况后,从技术可行性上做了足够的论证,提出了ETL解决方案原型,利用中间数据作为文件接口,把ETL各个过程独立开来,同时利用元数据技术管理数据访问和清洗算法,这样既达到灵活交互,又便于控制出错的效果,ETL原型中还实现了用户评估功能,更方便了用户的交互。同时,对数据ETL中数据清洗算法作出了一定的研究,实现了聚类算法在数据清洗中的应用。
通过原型的实现,为进一步实现数据ETL集成的强大功能奠定了良好基础。