基于XML的Web数据存储与数据清洗技术研究与实现

被引量 : 0次 | 上传用户:www474033605
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,因特网大大地改变着人类的生活方式和商业模式,Web资源浩瀚如海而且廉价,使得越来越多的公司、机构以及组织希望从中挖掘出有价值的商用信息以应用于决策支持。然而数据挖掘、数据仓库的数据源往往来自于结构化的数据,如关系数据库等,数据需求的迫切与数据格式定义的不一致性,使得将Web信息转换成关系数据库的数据,并对转换后的数据进行处理,为决策支持提供高质量的数据显得尤其重要。本文主要对Web数据存储和数据清洗技术进行了深入的学习和探讨,并利用数据清洗技术解决存储过程中因Web信息重复产生的数据冗余问题,本文主要的工作内容如下:1.在介绍XML和分析Web信息显示特点的基础上,探讨了XML作为Web信息与关系数据库转换中介的优势,在对XML与关系数据库相互映射规则研究的基础之上,构造了一个以XML为转换中介将Web数据存储到关系数据库,并将数据清洗技术应用于数据库的重复记录清洗的模型框架,同时将该模型框架应用于Web教学资源信息的存储与清洗,来验证其有效性和实用性。2.深入学习和探讨了相似重复记录检测中的字段匹配算法,如基本字段匹配算法、Smith-Waterman(S-W)算法以及基于编辑距离的字段匹配算法。在分析字段匹配算法对于中文字段匹配的不足和重复字段特征的基础上,提出了基于字段关键字匹配优化方案,使得相似重复记录的召回率R(Recall)和查准率P(Precision)都能得到较好的满足。3.由于本文提出了基于字段关键字匹配的算法改进,所以本文对关键字的提取技术进行了研究,本文着重对基于词共现模型的自动摘要的关键字提取算法进行了深入的探讨,并对关键字的特性进行了分析,提出了基于关键字特性的改进算法,并通过实验验证了改进的可行性。4.在将XML数据转换成关系数据库记录之前,将改进的关键字提取算法与DOM结合,提取XML文档节点的关键字,将提取到的关键字作为该节点的子节点回写XML,为数据清洗时采用基于字段关键字匹配的优化算法奠定基础。
其他文献
在上海解放前后,中央、华东局和上海市委猛打反腐"预防针",提醒干部注意廉洁自律。为了进一步制止贪污腐败现象,新中国成立后,上海在中央统一部署下发动了"三反"运动,并建立
加快农业科技创新,加速科技成果转化,是推进农业和农村现代化建设的必由之路。农技推广的重要性有目共睹、显而易见,这是世界各国的共同经验。在我国,农技推广也已经有上千年
工作-家庭关系的研究出现于20世纪70年代后期,国外对此领域的研究较多,而国内则处于起步阶段。现在有关工作-家庭关系的研究大部分集中在它的负面影响上,而对于正面影响的研
生物质快速热裂解技术可将农林业废弃物转化为液体生物油,所得生物油基本不含硫、氮和金属成分,属于绿色燃料。由于生物油具有较高的含氧量,导致了其不稳定,限制了直接应用,
本文主要针对上海移动客服系统的资源使用情况展开讨论。为了更有效地评估、管理和调控系统资源,研究了系统资源消耗、变动与业务流量的对应关系。通过对客服后台系统应用服
目的:通过检验不同发病阶段Eales病患者血液中Th1、Th2细胞因子、氧化及抗氧化水平的变化,探讨免疫平衡、氧化及抗氧化损伤机制在Eales病发病过程中的作用,为该病的诊断、治
随着经济全球化的发展和我国改革开放的深入,社会需要越来越多的双语人才。在当前双语教育已成为新疆民族教育热点问题的情况下,新疆伊犁州哈萨克族中学开展以哈汉两种语言为
提高中华民族的素质,培养德、智、体诸方面全面发展的建设者和接班人,使受教育者生动、活泼、主动发展是我国教育的目的。这一教育目的实现离不开各少数民族的努力。哈萨克族
目的观察正清风痛宁联合甲氨蝶呤及柳氮磺胺吡啶对类风湿关节炎活动性的影响。方法将84例患者随机分为两组,治疗组联合应用正清风痛宁、甲氨蝶呤、柳氮磺胺吡啶肠溶片,对照组
大家知道,广播电视是通过声音和图像进行宣传的,运用有声语言是它传播信息的主要手段。编辑部门所有文字稿件,包括新闻(消息)、通讯、评论等新闻性节目,各种知识性节目,文艺