异构数据抽取转换分析工具(ETLA)的设计及关键技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:yanhsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息化的发展,企业纷纷新建商业智能系统进行数据分析和辅助决策。而数据的异构导致了系统实施、数据整合的困难,解决异构数据采集、高效转换问题是当前数据交换、处理的研究热点。当前的解决方案多采用ETL(Extract-Transform-Load)技术。 本文首先介绍了ETL技术的研究背景和研究现状以及ETL的基本概念。在总结现存ETL技术不足的基础上,提出了本文的研究目标和研究内容。 本文详细论述了自行研发的基于网络的异构数据抽取工具(ETLA)的设计思想及其主要技术。包括ETLA工具的系统框架、实现流程、集成技术以及基于数据项的源-目数据映射及其解析技术。 在分析数据源的异构性、动态变化性和目前集成技术的基础上,提出了一种基于Wrapper/Mediator技术的扩展框架,实现宽松集成,保证数据源之间最大限度的自治性。为了给用户提供统一的数据视图,本文提出了UDME公共数据模型描述数据对象及对象之间的关系,这种数据模型可以很容易的描述原子对象与复合对象之间的对应关系;采用基于HTML发现的WEB数据抽取技术准确从WEB源文件中抽取所需的数据,实现了WEB数据的简单高效集成。 源目数据的映射技术关系到数据抽取的有效性和抽取规模。本系统采用了基于单数据项的表达式映射法。用户自定义目标表和确定映射关系表达式,系统通过读取相关元数据,将与映射相关的源数据字段抽取到数据准备区实现转换集成,保证了按需抽取,提高了抽取和转换的效率。 本文最后对ETLA系统实现的研究工作做了总结,并提出了下一步的研究方向。
其他文献
最近十年来,视频编码技术在数字电视,高清电视,视频会议和多媒体通信等很多领域有非常关键的作用。由中国音视频编码标准工作组开发的AVS-M视频编码标准在压缩效率和编码复杂
目的 通过对老年急性白血病患者采用粒细胞集落刺激因子(G-GSF)联合化疗的治疗,寻求老年急性白血病较好治疗方案.方法 4例急性淋巴细胞白血病采用VDP方案,13例急性髓细胞白血病采用DA方案或MA方案.化疗前1d外周血白细胞<10.0×109/L的骨髓增生明显活跃以下的患者均加用G-CSF 300μd皮下注射.白细胞≥10.0×109/L的患者在化疗后白细胞<2.0×109/L时加用G-CSF
信息技术的应用,改变了人类传统的事务处理方式,促进了社会的进步和发展。同时,人们也越来越意识到信息安全在国家安全和社会稳定中的重要性。作为保障信息安全的重要手段,数
目的 评价静脉注射免疫球蛋白(IVIG)佐治麻疹重症肺炎的临床疗效.方法 对26例应用IVIG治疗与28例未使用的麻疹重症肺炎病例进行比较,包括症状、体征、血气改善情况及临床疗效.结果 治疗组热退时间、肺部罗音消失时间、痰菌阴转时间均较对照组明显缩短(P<0.05、<0.01、<0.01),治疗组疗效明显优于对照组(P<0.05).结论 IVIG佐治麻疹重症肺炎为一种有效的方法。
目的 观察重度盆腔子宫内膜异位症(内异症)腹腔镜术后辅助米非司酮(Ru486)治疗的疗效,探讨病情程度与血清CA125的关系.方法 将294例重度内异症患者分成2组,A组(129例)用腹腔镜术治疗,B组(165例)腹腔镜术治疗后采用Ru486治疗,分析其疗效及术后复发率与血清CA125的关系.结果 联合治疗组有效率(67.3%)高于单纯手术组(46.3%)(P<0.05);联合治疗组6例转氨酶升高
目的 观察美托洛尔联合参松养心胶囊治疗器质性室性早搏(PVB)的疗效.方法 将108例伴器质性心脏病的PVB患者分为治疗组(美托洛尔联合参松养心胶囊组)56例和对照组(胺碘酮组)52例,疗程均为4周,观察2组临床症状及动态心电图改善情况.结果 治疗组对PVB的总有效率为89.3%.对照组的在症状改善上总有效率为84.6%,在动态心电图上总有效率为90.4%,2组的疗效相近(P>0.05),而在显效
随着因特网的迅猛发展和多媒体业务的高速推广,宽带接入网成为主流的接入方式。鉴于目前电话双绞线和有线电视电缆普遍存在的实际情况,各种数字用户环路(DSL)技术成为电信运营
在移动通信及高速无线数据通信中,由于多径效应和信道带宽的有限性以及信道特性的不完善性而产生的码间干扰(ISI)成为影响通信质量的重要因素,信道的均衡技术是克服码间干扰的
目的 调查分析湖南省2007年狂犬病的疫情动态和流行规律,为制定综合性的防控措施提供科学依据.方法 收集全省狂犬病疫情及患者调查等监测资料,进行描述性流行病学调查分析.结果 全省报告334例,发病率为0.52/10万.发病呈散发,以农民为主,男性高于女性,0~9岁组及50~69岁组病例较多;发病潜伏期中位数77 d,临床全部表现为狂躁型;暴露后处理伤口者占31.94%,9.61%注射了狂犬疫苗,3
目前心血管疾病是女性主要的死亡原因,发展中国家>50岁的女性一半死于冠心病.回顾性研究显示女性心血管疾病流行病学、临床表现、治疗措施、疾病顶后均与男性有差异.Framinham试验最早研究了心血管疾病(CVD)的危险因素,它最早阐述了心血管疾病的传统危险因素包括高血压、高血脂、糖尿病、肥胖、吸烟等,近来发现了许多新的危险因素,如C反应蛋白、脂蛋白(a)、纤维蛋白原等,另外,研究也发现心理社会因素也