【摘 要】
:
目前,互联网的普及和应用改变了人们发布和获取信息的方式,几乎所有的机构与用户都会选择在互联网上发布数据,然而由于互联网提供了多样的发布形式且没有统一的格式要求,同领
论文部分内容阅读
目前,互联网的普及和应用改变了人们发布和获取信息的方式,几乎所有的机构与用户都会选择在互联网上发布数据,然而由于互联网提供了多样的发布形式且没有统一的格式要求,同领域的机构和用户发布的半结构数据表往往具有不一致的逻辑结构,这就使需要收集领域信息的用户面临很大的挑战,如何将这些结构不同的数据表统一并规范化存储成为一个亟需解决的问题。本文针对此问题进行了研究,提出了面向主题的半结构数据表的规范化、属性依赖和候选码识别方法,主要贡献如下:(1)提出了半结构数据表集成框架。对于半结构数据表集成方法提出了整体框架,描述了处理数据的完整流程,对规范表、非规范表、单元格、属性约简、差别函数等概念给出了形式化定义。(2)提出了非规范表规范化方法。通过表格的形式化定义,提出了一个可以自动地将不符合第一范式(1NF)的非规范表转化1NF规范表的方法。综合分析非规范表格的表头特征,提出了基于表头的规范化方法,包括识别规范表与非规范表、非规范表头的结构转化、表头中属性依赖关系的提取等。(3)提出了面向主题的属性依赖和候选码识别方法。以粗糙集中信息系统的属性约简算法为启发,提出了基于差别函数属性约简的属性依赖和候选码识别方法。通过非规范表头的嵌套结构提出了类核和非候选码集合的概念,并在此基础上改进了基于差别函数的属性约简算法。该算法利用增量式的同主题表格数据集、每个表格的类核、非候选码集合、核和差别函数、此主题的各个属性等共同计算属性候选码,最终得到此主题在二维表数据集中所有属性之间的依赖关系,并通过实验证明了方法的可行性和准确性。
其他文献
基于RGB的单模态人体动作识别已经有了许多研究成果,但由于容易受到视角变化、光照变化和背景变化等因素的影响,其发展和应用受到了一定的制约。为了减少这些因素的干扰,基于
生物体内氧化损伤的识别机制一直是科研热点,水分子在识别过程中起重要作用,但具体作用尚不清楚。时下探究生物大分子体系性质最为广泛的方法为分子力场,但没有一个合适的力
AVO技术是利用叠前道集上反射波振幅与炮检距(或入射角)的关系来预测识别油气藏。然而,在实际地震资料中,地下介质一般是薄层或薄储层,会对AVO响应的变化规律产生影响。因此本文从传统的单界面AVO技术过渡到薄层AVO响应,通过对薄层AVO进行正演模拟并讨论频率对薄层的影响,克服了AVO技术对单界面的局限性,可延伸应用到薄层的勘探中。因此,研究薄层AVO对识别薄储层、薄层以及隐蔽性的油气藏检测具有重要
地震灾害对建筑结构安全造成极大威胁。采用延性结构虽能有效降低地震对结构造成的影响,但仍会对结构主体造成不小的损伤。防屈曲耗能支撑的出现有效降低了地震中结构损伤程度,国内外学者对其展开了大量的研究,并成功研发出形式多样、特点鲜明的防屈曲耗能支撑。可时至今日,已经问世的防屈曲耗能支撑中仍存在有待提升地问题。为改善这一系列问题,在周云教授等人对防屈曲耗能支撑研究中所使用的削弱支撑芯材来改变应力分布形式以
偶氮苯聚合物是具有可逆顺反异构能力的光响应聚合物材料,也是目前研究最为广泛的一类光响应聚合物,特殊的光响应性质使其在信息存储、致动器和表面活性剂等领域得到广泛应用
研究目的肥胖是一种由于热量摄入和能量消耗之间的长期不平衡造成的慢性炎症性疾病,易导致代谢功能障碍和胰岛素抵抗。其与多种疾病密切相关,如非酒精性脂肪肝、高血压和2型糖尿病等。已有研究表明,成纤维生长因子家族的许多成员在代谢中具有重要功能。FGF9(fibroblast growth factor 9,FGF9)作为FGF家族中的一员,调节多种组织中干细胞的发育和功能,但是否影响机体代谢尚不清楚。我们
贫燃预混燃烧技术是一种燃气轮机低污染清洁燃烧技术,但是该技术在燃烧过程中极易引发火焰的燃烧不稳定,为了同时解决污染物减排和燃烧稳定性问题,本文提出了一种燃烧方式:扩散式阵列微火焰燃烧,结合微火焰燃烧技术和阵列燃烧技术。该文章采用多种火焰测试手段,系统的研究了不同燃料流速、喷嘴直径和排列方式对扩散式阵列微火焰的燃烧稳定性和污染物排放的影响等相关内容。希望能够得出阵列微火焰的燃烧规律,并对其稳燃机理和
目的:甲状腺癌在内分泌系统中是一种比较常见的的恶性肿瘤。第八版的美国癌症联合会/国际抗癌联盟(AJCC/UICC)的肿瘤分期系统有十分重大的变化。我们进行了这项回顾性队列分析,用来评估7/8版的变化并评估其对预测生存的效能。此外,我们还评估了来自不同分层患者的放射性碘(RAI)获益的差异。方法:数据来源来自美国国家癌症研究所组织和收集的“监测,流行病学及预后”(SEER)数据库。我们的研究纳入了从
随着数据库技术和信息处理技术的不断发展,医院信息系统不仅大幅提升医疗效率,而且沉淀积累了大量具有研究价值的医疗数据。但由于医院信息系统发展过程中阶段式建设的特点和
随着中国证券市场的逐步健全和完善,证券投资基金自20世纪90年代兴起,并逐步在正规化、法制化和市场化的进程中发展至今。封闭式基金和开放式基金是证券投资基金的两种类型,因激励约束机制相对宽松、流动性更强、透明度更高和投资更便利等多方面的巨大优势,开放式基金逐步成为我国投资者钟爱的投资选择。开放式基金主要包括两种资产管理方式,分别为主动管理型和被动管理型,当前行业中高达三分之二的资金都普遍采取主动管理