样例驱动的相似连接谓词抽取与冲突解析系统

来源 :东北大学 | 被引量 : 0次 | 上传用户:kelly_0810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似连接查询是当前数据处理领域的热点研究问题之一,在信息检索、多源数据集成、实体识别、模式识别等领域有着广泛的应用。随着大数据时代的来临,数据类型繁多的特点需要相似性连接技术具备精确地处理具体连接谓词的能力。然而,传统的相似性连接技术通常依赖于固定的相似性函数,如编辑距离、杰卡德系数、余弦函数等,这些相似性函数仅能反映字符串间文本层面上的“相似”程度,不能精确地进行相似连接谓词的抽取。因此,如何进行相似连接谓词的抽取已成为亟待解决的问题。针对相似连接谓词抽取问题,用户可以通过样例给出其所需要的连接谓词。基于此,提出了样例驱动的相似连接谓词抽取与冲突解析系统框架,该框架以用户提交可连接实例对作为输入并从中学习隐含的可连接条件。在该框架基础上,本文提出了样例字符串间的最大化匹配序列(MMA)概念,设计了相应的精确求解算法E-MMA算法以及近似算法A-MMA算法并分别分析了算法的复杂度和近似比。本文定义了字符串间的相似性连接谓词内容和结构及连接谓词抽取方法以及样例中歧义的冲突解析策略。该连接谓词既具有足够的表达能力能够表述多样化的连接需求又足够简单便于学习。最后通过样例驱动的相似连接谓词抽取与冲突解析系统在多个数据集上测试了 E-MMA算法和A-MMA算法的性能,用户输入对系统抽取连接谓词准确性的影响,并比较了基于连接谓词的新型相似连接规则与现有的基于相似函数的连接规则的准确率,验证了本文所提出方法的高效性和可行性。本文首先介绍了字符串间相似连接的应用背景,并阐述了现有的基于相似度函数的连接规则面临的挑战。然后提出了样例驱动的相似连接谓词抽取与冲突解析系统,介绍了最大化匹配序列概念,提出了连接谓词抽取方法与冲突解析策略,之后对系统进行了性能测试。最后对系统做出了总结,并给出了不足,指出了未来的工作方向。
其他文献
伴随着计算机硬件处理能力的不断提高,计算机图形学得到了迅猛的发展,三维可视化技术作为计算机图形学的主要研究内容其应用也变得更加广泛。利用计算机图形图像学技术来绘制
21世纪以来,随着工业化、信息化、城市化的发展,大批农民工向城市转移,农村新生代劳动力受到了社会各界的广泛关注,由于成长环境的不同,这个群体的受教育水平、思维方式和行
目前,移动通信技术的不断成熟和智能终端设备的广泛应用,为移动社交网络(MSN,Mobile Social Networks)的提出和发展奠定了坚实的基础。作为一种全新的应用模式,MSN是现实在线
近年来,随着云计算、移动互联网和物联网等通讯技术的快速发展,网络通讯数据量呈爆发式增长,网络安全问题也日益凸显。针对多种网络安全协议设计的高速网络处理器满足了高速
太阳能的高效利用可以有效缓解我国能源的供需矛盾,而随着大气污染的加剧,大气气溶胶严重影响了太阳能的高效利用及光热转换效率。大气气溶胶通常指的是悬浮在大气环境中的空气动力学直径在0.001~100μm范围内的固体或液体颗粒物。作为当今气候研究中最大的不确定因素之一,气溶胶能够通过直接作用或者间接作用影响地气系统的辐射收支以及全球或局部地区气候,并且气溶胶的影响在一定程度上受其类型支配。对大气中气溶胶
移动云是云计算在移动互联网中的应用,社交云是社交网络与云计算技术融合的产物。将移动云与社交云相结合,就构成了移动社交云。移动社交云能够整合移动社交网络中的用户资源
随着网络的普及,网络娱乐用户规模持续高速增长,网络游戏、网络视频等相关形式的网络流量呈现指数型增加,网络能耗问题也越来越严重,传统的网络体系结构逐渐不堪重负,迫切需
随着人们对视频传输、内容播放等方面的安全性问题越来越多的重视,为了满足各种应用场合对视频安全性的需求,近年来,国内外学者针对视频数据的特点,提出了多种视频加密算法及
异构信息网络具有优异的语义表达能力,面向其的聚类与分类、实体相似性分析、链路预测等研究已在诸多实际生活与科研领域中得以应用。其中面向异构信息网络的相关实体查询作
数码印花技术是促进我国印染工业转型升级的关键技术,目前国内研发的数码印花机器主要采用人工检测方法实现产品质量检测,不但检测准确度低,而且人工成本高。随着机器视觉技