论文部分内容阅读
信息系统形态在不断演化:随着网络技术和数据管理技术的快速发展,不同的企业、不同部门都积累了大量应用和数据等资源。新兴信息系统大多是基于这些跨管理域的资源构造的所谓集成型应用;另一方面,用户需求的快速涌现导致应用形态的变化,由专业人员主导的应用开发模式已经难以满足用户多样化的需求,出现了类似于数据混搭这种由用户灵活、快速构造的轻量化应用。本文关注用户自主构造集成型应用的问题,特别是当中的跨管理域数据资源集成。
文中分析“资源一体化”瓶颈问题及影响用户主导应用构造的关键要素,提出数据服务概念,将其作为数据资源的统一抽象:以直观、易于理解的嵌套表作为数据服务的公用数据模型,并强化数据集成系统的可定制性以及技术细节隐藏能力。在上述特定背景下,本文将应用构造视为数据服务组合,关注当中的数据资源访问一体化、数据资源集成和集成效率优化三个关键问题,有以下具体贡献:
(1)针对跨域数据资源数据模型的异构性和数据模式的不确定性,分别就网页数据和半结构化数据给出相应的服务化算法,在允许用户定制目标数据模式的前提下实现了数据资源向嵌套表公用数据模型的高效转换。
对于网页数据,用户在网页上进行个性化标注之后,算法实现属性的对齐并维护属性的隔离性质,自动计算数据的封装范围和数据模式。实验表明,对于无用户定制的网页封装,算法与ViNTs等工作的效果近似;对于有用户定制的网页封装,算法的准确率、召回率和结构化正确性指标相比于同类工作Grubber分别高出27%,26%和40%。对于半结构化数据,用户为数据源指定模板数据实例,算法通过该数据实例提取数据模式,并自动把该数据源的其他实例直接映射为符合该模式的嵌套表。实验表明,相比于基于模式映射的朴素方法,该算法在互联网数据集上的服务化效率平均提高了28%,在TPC-H数据集的平面数据与嵌套数据的服务化效率分别提高了36%和34%。
(2)针对异构数据的集成业务逻辑难以表达的问题,结合电子表格的操作模式和嵌套表数据模型设计了嵌套电子表格,在实现了嵌套关系代数的表达能力和基本控制流模式的前提下,为用户隐藏了查询的嵌套结构并自动生成模式映射关系。
针对用户难以理解数据的结构与关联的问题,嵌套电子表格把嵌套表作为数据的呈现与操作载体;针对用户缺乏专业编程知识的问题,在嵌套表上提供规范化的操作与公式语言,让用户以可视化的方式操作具体的数据实例。在以上工作的支持下,嵌套电子表格实现了强于嵌套关系代数的表达能力,同时支持顺序、并行、合并等基本控制流模式,实现丰富的可定制性。另外,嵌套电子表格能够自动生成目标数据模式及模式映射关系,并向用户隐藏了嵌套查询结构,实现了良好的技术细节隐藏。实验表明,相比于基于数据流编程的IBMMashupCenter,在保障操作错误率基本相当的前提下,用户在嵌套电子表格中完成相同的数据集成任务可减少约40%的操作时间。
(3)针对数据即时更新引起的复合数据服务运行效率低下的问题,分析和归纳了复合数据服务的等价变换性质,并基于该性质给出了复合数据服务的运行优化算法,提高了复合数据服务的运行效率。
当多个复合数据服务同时运行时,频繁的数据更新会降低系统的运行效率,使得用户无法即时获得最新数据。针对这一问题,复合数据服务的运行优化算法将服务的中间结果缓存并与其他服务共享,同时在底层数据更新时仅重新计算受到影响的数据,以减少服务响应请求的计算量;另外,分析了复合数据服务的等价变换规则,利用这些规则对用户构造的复合数据服务进行等价变换,再通过非线性0-1规划从中选出优化方案。为增强可定制性,用户可以自主选择哪些服务需要缓存中间结果;相应地,本方法能够据此对优化方案进行适应性调整。在TPC-H测试集上的实验表明,相比于数据视图优化的代表工作MVPP,本方法优化后的复合数据服务运行效率更高,比优化前平均提升了15%。
基于以上研究,构建了以用户为中心的数据服务组合工具,并在国内电信设备制造商“零代码一体化Widget构造与管理环境”项目接受了实际检验,印证了研究成果的可行性与价值。