基于XML的Web数据存储与数据清洗技术研究与实现

被引量 : 0次 | 上传用户：www474033605

【摘要】

：

随着互联网的快速发展,因特网大大地改变着人类的生活方式和商业模式,Web资源浩瀚如海而且廉价,使得越来越多的公司、机构以及组织希望从中挖掘出有价值的商用信息以应用于决

【作者】

：

邱英

【发表日期】

：

2008年期

【关键词】

：

数据存储数据清洗自动摘要 XML 编辑距离

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的快速发展,因特网大大地改变着人类的生活方式和商业模式,Web资源浩瀚如海而且廉价,使得越来越多的公司、机构以及组织希望从中挖掘出有价值的商用信息以应用于决策支持。然而数据挖掘、数据仓库的数据源往往来自于结构化的数据,如关系数据库等,数据需求的迫切与数据格式定义的不一致性,使得将Web信息转换成关系数据库的数据,并对转换后的数据进行处理,为决策支持提供高质量的数据显得尤其重要。本文主要对Web数据存储和数据清洗技术进行了深入的学习和探讨,并利用数据清洗技术解决存储过程中因Web信息重复产生的数据冗余问题,本文主要的工作内容如下:1.在介绍XML和分析Web信息显示特点的基础上,探讨了XML作为Web信息与关系数据库转换中介的优势,在对XML与关系数据库相互映射规则研究的基础之上,构造了一个以XML为转换中介将Web数据存储到关系数据库,并将数据清洗技术应用于数据库的重复记录清洗的模型框架,同时将该模型框架应用于Web教学资源信息的存储与清洗,来验证其有效性和实用性。2.深入学习和探讨了相似重复记录检测中的字段匹配算法,如基本字段匹配算法、Smith-Waterman(S-W)算法以及基于编辑距离的字段匹配算法。在分析字段匹配算法对于中文字段匹配的不足和重复字段特征的基础上,提出了基于字段关键字匹配优化方案,使得相似重复记录的召回率R(Recall)和查准率P(Precision)都能得到较好的满足。3.由于本文提出了基于字段关键字匹配的算法改进,所以本文对关键字的提取技术进行了研究,本文着重对基于词共现模型的自动摘要的关键字提取算法进行了深入的探讨,并对关键字的特性进行了分析,提出了基于关键字特性的改进算法,并通过实验验证了改进的可行性。4.在将XML数据转换成关系数据库记录之前,将改进的关键字提取算法与DOM结合,提取XML文档节点的关键字,将提取到的关键字作为该节点的子节点回写XML,为数据清洗时采用基于字段关键字匹配的优化算法奠定基础。

其他文献

解放初期上海的反腐败工作研究

在上海解放前后,中央、华东局和上海市委猛打反腐"预防针",提醒干部注意廉洁自律。为了进一步制止贪污腐败现象,新中国成立后,上海在中央统一部署下发动了"三反"运动,并建立

期刊

反腐败清廉形象三反上海

浙江省基层农技推广体系现状与发展对策研究

加快农业科技创新,加速科技成果转化,是推进农业和农村现代化建设的必由之路。农技推广的重要性有目共睹、显而易见,这是世界各国的共同经验。在我国,农技推广也已经有上千年

学位

浙江省基层农技推广现状与对策

企业员工工作—家庭支持研究

工作-家庭关系的研究出现于20世纪70年代后期,国外对此领域的研究较多,而国内则处于起步阶段。现在有关工作-家庭关系的研究大部分集中在它的负面影响上,而对于正面影响的研

学位

工作-家庭支持工作-家庭冲突离职意向

玉米秸秆粉在流化床中热裂解规律的试验研究

生物质快速热裂解技术可将农林业废弃物转化为液体生物油,所得生物油基本不含硫、氮和金属成分,属于绿色燃料。由于生物油具有较高的含氧量,导致了其不稳定,限制了直接应用,

学位

生物质流化床热裂解生物油床料

移动网络客服系统性能模型的研究与分析

本文主要针对上海移动客服系统的资源使用情况展开讨论。为了更有效地评估、管理和调控系统资源,研究了系统资源消耗、变动与业务流量的对应关系。通过对客服后台系统应用服

学位

IVR排队论泊松分布负指数分布χ~2校验数据库CCSSOAPCORBA

Eales病TH细胞亚群异常及氧化应激的研究

目的:通过检验不同发病阶段Eales病患者血液中Th1、Th2细胞因子、氧化及抗氧化水平的变化,探讨免疫平衡、氧化及抗氧化损伤机制在Eales病发病过程中的作用,为该病的诊断、治

学位

Eales病TNF-alphaIL-10IFN-gammaTh1/Th2SOD氧自由基Luminex

哈萨克族中学化学双语教学的现状、问题及策略

随着经济全球化的发展和我国改革开放的深入,社会需要越来越多的双语人才。在当前双语教育已成为新疆民族教育热点问题的情况下,新疆伊犁州哈萨克族中学开展以哈汉两种语言为

学位

哈萨克族双语教学化学双语教学

伊犁哈萨克自治州直属中学双语教学实施状况个案研究

提高中华民族的素质,培养德、智、体诸方面全面发展的建设者和接班人,使受教育者生动、活泼、主动发展是我国教育的目的。这一教育目的实现离不开各少数民族的努力。哈萨克族

学位

双语教学教学模式存在的问题策略

正清风痛宁降低类风湿关节炎患者病情活动性临床观察

目的观察正清风痛宁联合甲氨蝶呤及柳氮磺胺吡啶对类风湿关节炎活动性的影响。方法将84例患者随机分为两组,治疗组联合应用正清风痛宁、甲氨蝶呤、柳氮磺胺吡啶肠溶片,对照组

期刊

类风湿关节炎病情活动正清风痛宁

县级台播音员艺术生命初探

大家知道,广播电视是通过声音和图像进行宣传的,运用有声语言是它传播信息的主要手段。编辑部门所有文字稿件,包括新闻(消息)、通讯、评论等新闻性节目,各种知识性节目,文艺

期刊

播音员县级台播音工作

基于XML的Web数据存储与数据清洗技术研究与实现

与本文相关的学术论文