【摘 要】
:
实体解析和查询处理是数据库和大数据领域中两个重要的研究课题。实体解析是指识别数据集中描述现实世界同一实体的多个元组,并且对这些元组进行合并的过程。针对大数据和含
论文部分内容阅读
实体解析和查询处理是数据库和大数据领域中两个重要的研究课题。实体解析是指识别数据集中描述现实世界同一实体的多个元组,并且对这些元组进行合并的过程。针对大数据和含有重复元组的低质数据集,如果不考虑实体解析,可能导致传统查询处理方法低效,甚至失效。传统实体解析技术不能直接运用于查询处理,如何使得实体解析方法具有更好的有效性和可扩展性仍是悬而未决的问题。因此需要新的处理方法,既能够实时去掉重复元组又能够快速完成查询处理。为此,本文构建区域树索引,并基于该索引给出实时实体解析和查询处理方法。构建区域树索引,对《维数据空间Rn中的数据集进行实时实体解析。在一个n维数据集中,每个元组是一个《维实向量,针对存在重复元组的《维脏数据集,识别并聚类其中的重复元组:首先,提出空间划分算法PRC,将包含数据集的最小区域进行动态划分,每次将一个区域划分为若干个互不相交且完全的子区域;其次,在划分过程中将n维区域空间构建区域树索引;最后,利用分治机制有效地进行实时实体解析,即将大型数据集分解成若干较小的数据集,应用区域树索引,对每个较小的数据集进行实体解析,这样既降低了对物理设备的配置要求又使得解析过程快速有效。利用区域树索引和实体解析方法,给出点查询、区域查询及KNN查询处理的相应算法,得到的查询结果为不同的聚类或其代表。点查询利用区域树索引快速找到查询点所在叶节点,在节点链接的链表中针对列表属性,采用二分查找方法寻找查询元组位置,返回查询结果。区域查询通过查询区域与区域树索引中叶节点相互比较,找出与查询区域相交或包含的叶节点,在这些节点链接的链表中采用二分查找方式按列表属性找到距离区域中心最近点,在一定阂值内顺序遍历其它节点,找出区域内元组。KNN查询运用点查询与区域查询的相应处理机制,动态更新查询区域半径,直到找出K个满足条件的元组。针对上述基于区域树索引的实时实体解析和查询处理方法,使用十五个不同维数的数据集进行广泛的实验,其中维数n的范围为2≤n≤784。根据脏数据集中相应干净数据集的不同基数、不同维数及不同分布,实验对实时实体解析、点查询、区域查询及KNN查询进行了验证和分析。实验结果表明,本文给出的区域树索引和算法对实时实体解析和三类查询处理均具有较好的性能,对每条数据的处理均可在亚秒内实现,满足实时性要求。
其他文献
目的:耐辐射奇球菌(Deinococcus radiodurans,DR)对电离辐射、丝裂霉素C(mitomycin C,MMC)和过氧化氢等极端环境因素的冲击有强大抵抗力,课题组前期结果表明耐辐射奇球菌pprM/ppr
播散性隐球菌病是由新型隐球菌经血行播散导致中枢神经系统、肺、脑等多器官感染的深部真菌病。因该病发病率低,起病隐匿,临床表现无特异性,早期不易发现,误诊率高。本文报道
数学信息检索(Mathematical Information Retrieval,MIR)以数学表达式为通用语言应用于科技信息领域,是信息检索技术的重要研究内容。由于数学表达式的二维结构特性,要实现性能较高、能够得到实际应用的MIR系统,还有待进一步的研究与开发。本文针对目前多数MIR中对数学查询表达式和候选包含数学表达式的文档集合的匹配大部分是以数学表达式为主,却忽略了数学表达式上下文中所包含
未来社会是大数据的时代,2015年9月,国务院印发《促进大数据发展行动纲要》,系统部署了大数据发展工作。贵州省是我国首个大数据综合实验区,2016年9月,探索建立了贵州检察大
目的:观察MTH1小分子抑制剂TH287对胃癌细胞的抑制作用,探讨其潜在机制。方法:体外培养胃癌细胞株BGC-823和SGC-7901,用不同浓度MTH1抑制剂TH287处理胃癌细胞。采用CCK-8法和
ZnO被视为极具潜力的第三代直接宽带隙II-VI族半导体材料,在光学、电学等方面具备独特的性质,同时它的性能显著地依赖于其形貌和结构,其丰富的形态结构特点决定了它在纳米机
本研究采用抑草圈方法,以稗草为受体,在大田环境下对132个水稻品种进行抑草能力筛选,测定水稻、稗草的生理生化指标,并探讨水稻和稗草生理生化指标及与稗草抑制率的相关性。
基于半导体性单壁碳纳米管对外界环境敏感的荧光特性而构建的无标签荧光探针和生物传感器在生物医药领域有着广泛的应用。然而,目前使用的单壁碳纳米管几乎均为混合结构的单壁碳纳米管,除了具有荧光特性的半导体性碳纳米管外,还有可猝灭荧光的金属性碳纳米管。另外,不同手性碳纳米管之间的能量转移是否会干扰对生物分子的正常荧光探测,尚未验证。而且不同手性的碳纳米管的激发波长并不一致,只有用对应的共振激发波长获得的荧光
铜绿假单胞菌是一种具有高复发率及致死率的院内机会致病菌,它主要感染由于囊性纤维肺或癌症等疾病导致的免疫力低下的患者。目前,大量研究表明铜绿假单胞菌容易产生多重耐药
在现代金融数学领域里,扩散过程起着核心的作用,不论是在资产定价、衍生物定价方面,还是在利率期限结构理论等方面都得到了很好的应用,可以说是最具有吸引力的描述金融市场的