【摘 要】
:
在互联网中存储了大量的网络表格数据,这些网络表格蕴含丰富的语义信息,但表中数据通常存在不一致性,这种由数据不一致性导致的错误可能会给网络表格的使用者带来不同程度的困扰。研究学者们提出了很多网络表格的数据清洗算法,用以清洗网络表格中的不一致数据。现有的数据清洗算法存在一定的局限性:一方面,算法在清洗不一致数据时仅利用了表格中少量语义信息并且需要人为给定约束信息,导致算法的灵活性较差并造成额外的资源开
论文部分内容阅读
在互联网中存储了大量的网络表格数据,这些网络表格蕴含丰富的语义信息,但表中数据通常存在不一致性,这种由数据不一致性导致的错误可能会给网络表格的使用者带来不同程度的困扰。研究学者们提出了很多网络表格的数据清洗算法,用以清洗网络表格中的不一致数据。现有的数据清洗算法存在一定的局限性:一方面,算法在清洗不一致数据时仅利用了表格中少量语义信息并且需要人为给定约束信息,导致算法的灵活性较差并造成额外的资源开销。另一方面,由于算法存在错误检测不完全等问题,降低了数据清洗的质量。因此,本文提出了基于语义关联关系的不一致数据清洗方法。针对上述第一个问题,本文提出了基于网络表格的语义关联关系构造算法。算法首先利用预训练好的词向量表示网络表格中的列标签,其次通过整体语义相关性识别网络表格中语义信息最重要的关键列,最后使用层次化的语义相关性构造列标签之间的语义关联关系。实验证明,本文提出的语义关联关系可以作为有效的约束信息辅助数据清洗算法。针对上述第二个问题,本文首先利用词向量对网络表格中的拼写错误进行预处理。其次为了有效地减少交叉干扰项对不一致数据检测和修复造成的影响,利用关键列对网络表格进行分块预处理。最后利用语义关联关系作为约束信息,采用最大独立集的思想对分块后的表格进行清洗,并将清洗后的表格合并再清洗。实验表明,本文提出的算法在两个数据集上都取得了较好的清洗效果,并优于现有的数据清洗算法。
其他文献
公主和王子的经典童话故事早已深入人心,于是许多人对公主有了一种固定的思维模式。但是时代在变,童话也要被改写,就让我们听听与时俱进的新公主形象将是什么模样吧。
对大气式燃烧器,当燃烧器头部燃烧区产生负压时,其自动调节特性会受到影响。分析了燃烧器引射能力与燃烧区负压的关系,结合典型案例,量化分析了燃烧区负压对燃烧器一次空气系数的
2011年,由蓝天工作室制作的《里约大冒险》一经推出便获得观众的一致好评,在全球取得了4.85亿美元票房的巨大成功。时隔三年,金刚鹦鹋布鲁和珠儿组建了自己的家庭,并惊喜地发现珠
<正>失去了对学生的爱,教师也就失去了生活的乐趣。我自于一九七五年开始从教,三十多年来全部的爱无私地献给了学生,学生都亲切地把我称作为"好妈妈"。也曾经在刊物上登录过
中国土木工程学会城市燃气分会第九届编辑委员会(《煤气与热力》第九届编辑委员会)第二次会议于2009年10月25日-26日在青岛市召开,来自全国各地燃气热力公司、设计单位、设备制
《行政诉讼法》第十二条第(六)项作为行政诉讼案件受案范围之一,有其特殊性。特别是在2014年《行政诉讼法》修改后,此条增加了“等合法权益”的内容,将行政相对人的权益保护范围由之前的“人身权、财产权”扩张为“人身权、财产权等合法权益”,用“等外等”的立法技术将其他权益类型也囊括其中,加强了司法权对行政权的监督,使得行政相对人的各类权益得到更好、更广泛的保护。基于该条文所提起的行政诉讼案件在实务审判中
伴着日渐炎热的夏天,眨眼迎来了六月,原来小编来CE已经快一年了。渐渐地习惯了写稿的日子,渐渐地和正捧着这本杂志的你们成为了朋友。
2011年3月1日,西气东输二线南宁支干线管道工程开工仪式在广西壮族自治区南宁市校椅镇举行。西气东输二线南宁支干线管道,是广西壮族自治区建设的第一条跨省区天然气长输管线,也
女孩的头很小,所以她脑袋里能装那么多东西真是非常奇怪。她知道所有的数字:“6”、“8”——只要你说得出来。然而,她还知道一些其他人不知道的事儿。
基于半导体光纤环形腔激光器的四波混频型可调谐全光波长转换器的宽带理论模型,从理论上研究了输入信号光功率、注入电流、两个耦合器的耦合比、激射光波长和半导体光放大器