基于单元阵列的电子表格计算语义错误检测与修复

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:jacklee12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
电子表格是当前广泛使用的终端用户开发工具,并广泛应用于数据记录、金融、教育等多个领域。电子表格中的数据与公式都具有一定的计算语义,当电子表格中的数据或公式未能反映终端用户的语义意图时,就会产生计算语义错误。该类错误极易导致电子表格中数据出现不一致性问题,从而降低电子表格的质量。  电子表格中的通用计算语义错误是难以自动化检测与修复的,因为电子表格中数据和公式正确与否需要终端用户人为判定或提供规范严格检查,而在电子表格中不存在显式的规范。我们发现电子表格的一行或一列中的某些连续单元格往往具有相同的计算语义,这些连续单元格被称为单元阵列,而且单元阵列中可能存在公式丢失、公式不一致、数据不一致等计算语义错误。基于这个新观察,我们设计了一系列新方法来自动化检测并修复单元阵列及与其相关计算语义错误。  本文从以下三个方面开展研究工作:  (1)针对电子表格的数据集EUSES与Enron进行一系列实证研究,分析单元阵列在电子表格中的实际应用情况。研究结果发现单元阵列在电子表格中十分常见,具有公式的电子表格中68.6%的电子表格存在单元阵列;83.1%的单元阵列中的数据依赖关系是其每个单元格引用与该单元格同行/同列的其他单元格作为输入(我们称之为同构数据依赖);在单元阵列位置分布上,单元阵列极少相交。基于该实证研究的结果,我们研究了针对同构数据依赖/非同构数据依赖的单元阵列及与其相关计算语义错误检测与修复机制。  (2)针对同构数据依赖的单元阵列,我们提出了一种相应的单元阵列检测与修复方法SameCheck。其中包括:基于单元阵列中同构数据依赖的特性,设计一组启发式规则来识别电子表格中的单元阵列;针对其中存在计算语义错误的单元阵列,提出了一种改进的程序合成机制生成单元阵列的计算语义,进而利用该计算语义来修复单元阵列相关的计算语义错误。  (3)针对非同构数据依赖的单元阵列,我们提出基于数据依赖相似性的单元阵列检测与修复方法ShareCheck。其中包括:一种基于单元格数据依赖相似性的单元阵列识别算法;以及利用单元阵列不相交等特性过滤误报单元阵列的求精算法。  我们基于EUSES数据集以及中国科学院软件研究所实际使用的电子表格,对SameCheck与ShareCheck进行一系列实验。实验结果表明:(1)单元阵列相关的计算语义错误是十分常见的,并且确实降低了电子表格的质量;(2) SameCheck与ShareCheck能够有效检测与修复单元阵列相关的计算语义错误,给终端用户提供有效的帮助信息;(3)ShareCheck在检测非同构数据依赖单元阵列的同时,能有效消除SameCheck误报的同构数据依赖单元阵列。
其他文献
随着个人电脑的使用普及,越来越多的单位和家庭都拥有了不同数量的电脑设备和其他的产品。在日常的工作和生活中,大部分的个人电脑只是处理一般的文档操作和低强度的事务处理。
人脸识别技术就是利用计算机分析人脸图像,提取有效的特征信息来辨认身份或者判别待定状态的一门技术。它涉及模式识别、图像处理、计算机视觉等诸多学科的知识,是当前研究的热
多通道交互是人机交互领域的重要研究方向,综合利用多个通道的信息能够提供更加自然、高效的交互体验。当前的触觉技术发展和可穿戴界面的交互特征给多通道交互的研究和应用设
本文主要研究了对园林数据的存储组织、查询管理和统计分析。利用地理信息系统(GIS)技术、数据库技术设计开发出园林信息管理模型,实现对公园绿地、附属绿地、行道树、古树名
随着越来越多的成功软件系统成为了遗产系统(legacy system),软件演化的重要性和普及性越来越强。软件演化已成为软件生存周期中最重要的形态之一,进入了软件的各个领域,成为了
随着Internet的迅速发展,各种信息以指数级的速度增长,类型也越来越多。如何有效地解决信息过载和信息迷失带来的种种问题,如何满足各种用户不同的个性化需求等,是研究人员面临的
在生物信息领域,基于多种相互作用检测方法,产生了大规模蛋白质相互作用数据;随着下一代测序技术的快速发展,产生了大量的DNA序列数据;由于蛋白质定量精度的提高,现代质谱仪器产
分析师常常通过数据探索理解数据内在规律和模式,验证猜想和理论。传统的数据探索常常通过试错的方式来对数据中的规则进行逐个验证,这在小的数据集上尚且可行,但随着大量的商业
随着城市数字化的发展,在现代化管理中,对优化城市的布局结构、城市基础设施、生态环境等城市地质调查工作提出了更高的要求。又因地质资料包含的信息量的巨大,借助地理信息系统
访问控制是信息安全的重要组成部分,在开放式信息系统中,访问控制是保证信息系统安全的一项重要措施;病毒、木马在互联网环境下对终端计算机系统造成的危害越来越严重。一个重要