论文部分内容阅读
随着互联网的快速发展,因特网大大地改变着人类的生活方式和商业模式,Web资源浩瀚如海而且廉价,使得越来越多的公司、机构以及组织希望从中挖掘出有价值的商用信息以应用于决策支持。然而数据挖掘、数据仓库的数据源往往来自于结构化的数据,如关系数据库等,数据需求的迫切与数据格式定义的不一致性,使得将Web信息转换成关系数据库的数据,并对转换后的数据进行处理,为决策支持提供高质量的数据显得尤其重要。本文主要对Web数据存储和数据清洗技术进行了深入的学习和探讨,并利用数据清洗技术解决存储过程中因Web信息重复产生的数据冗余问题,本文主要的工作内容如下:1.在介绍XML和分析Web信息显示特点的基础上,探讨了XML作为Web信息与关系数据库转换中介的优势,在对XML与关系数据库相互映射规则研究的基础之上,构造了一个以XML为转换中介将Web数据存储到关系数据库,并将数据清洗技术应用于数据库的重复记录清洗的模型框架,同时将该模型框架应用于Web教学资源信息的存储与清洗,来验证其有效性和实用性。2.深入学习和探讨了相似重复记录检测中的字段匹配算法,如基本字段匹配算法、Smith-Waterman(S-W)算法以及基于编辑距离的字段匹配算法。在分析字段匹配算法对于中文字段匹配的不足和重复字段特征的基础上,提出了基于字段关键字匹配优化方案,使得相似重复记录的召回率R(Recall)和查准率P(Precision)都能得到较好的满足。3.由于本文提出了基于字段关键字匹配的算法改进,所以本文对关键字的提取技术进行了研究,本文着重对基于词共现模型的自动摘要的关键字提取算法进行了深入的探讨,并对关键字的特性进行了分析,提出了基于关键字特性的改进算法,并通过实验验证了改进的可行性。4.在将XML数据转换成关系数据库记录之前,将改进的关键字提取算法与DOM结合,提取XML文档节点的关键字,将提取到的关键字作为该节点的子节点回写XML,为数据清洗时采用基于字段关键字匹配的优化算法奠定基础。