【摘 要】
:
知识库包含丰富的信息资源,是众多自然语言处理与完整知识库构建的基础,现有的知识库普遍存在偏领域化、数据量小、信息缺失等问题,同时人工构建通用知识库存在难度大、出错多、更新慢、耗时耗力等问题,而在现有知识库基础上进行数据融合具有速度快、出错少、易更新、覆盖全面等优点,因此多源异构知识库融合算法具有很高的研究价值。本文以开放的百科数据源为基础进行多源异构知识库融合算法研究,针对异构知识库之间存在的数据
论文部分内容阅读
知识库包含丰富的信息资源,是众多自然语言处理与完整知识库构建的基础,现有的知识库普遍存在偏领域化、数据量小、信息缺失等问题,同时人工构建通用知识库存在难度大、出错多、更新慢、耗时耗力等问题,而在现有知识库基础上进行数据融合具有速度快、出错少、易更新、覆盖全面等优点,因此多源异构知识库融合算法具有很高的研究价值。本文以开放的百科数据源为基础进行多源异构知识库融合算法研究,针对异构知识库之间存在的数据重复、实体歧义、信息缺失等问题,提出了“多信息加权融合实体对齐算法”和“基于TF-IDF加权的Word2vec词向量表示算法”分别完成多源异构知识库融合过程中的“实体对齐”和“属性融合”任务。针对本文所提出的融合算法分别设置了相关实验和对比实验,实验结果表明本文所提出的融合算法在准确率和召回率上相比于现有的融合算法均有所提高,验证了本文所提出的融合算法的有效性和实用性。本文主要贡献如下:(1)针对实体对齐任务提出了“多信息加权融合实体对齐算法”,本算法采用动态规划思想求解最小编辑距离及基于Doc2vec模型训练文本特征向量等方法,对实体的结构化属性及非结构化属性进行相似度求解,最终通过加权平均获取实体综合相似度,完成实体对齐任务。(2)针对属性融合任务提出了“基于TF-IDF加权的Word2vec词向量表示算法”本算法首先采用引入影响因子的TF-IDF算法进行属性文本中各词语的权重表示,然后采用Word2vec模型进行特征词向量训练,并将获取的词向量通过加权平均求取属性中各子句的特征向量,最终将子句特征向量进行相似度求解完成实体对之间的属性融合任务。(3)基于本文所提出的两种算法开发了“Graph Search”系统,此系统包含八大功能模块,全面覆盖了多源异构知识库融合及信息查询等功能,达到了数据自动化融合,信息关联化查询等目的,将本文所提出的融合算法进行了实际应用,再次验证了本文算法在多源异构知识库融合过程中的有效性和实用性。
其他文献
高温钛合金因其优异的高温强度、高温抗蠕变性以及低密度等优势,在航空航天发动机领域具有广泛的应用价值。当前钛合金结构件不断向大型、复杂和薄壁方向发展,这为铸造钛合金创造了巨大的发展空间。然而,目前国内铸造高温钛合金的最高耐受温度仅为450℃-500℃,在600℃应用条件下与国外差距明显。因此开发能耐600℃及更高温度的铸造钛合金已成为制约我国高速飞行器发展的关键。同时,航空航天发动机组件工况条件恶劣
汽车智能驾驶技术的进步与发展,推动着汽车工业的变革与转型升级。自动泊车技术作为汽车智能驾驶技术的重要组成部分,推动了城市交通中“泊车难”问题的解决,减少了城市交通的局部拥堵,节省了泊车时间,提高了城市生活效率,在一定程度上促进了城市的发展。传统的自动泊车技术利用超声波雷达对停车位进行检测识别,对目标车位周围的停驻车辆依赖严重,目标车位周围没有停驻车辆时则无法对车位进行检测识别。基于计算机视觉的自动
随着纳米技术的不断发展,纳米材料在不同领域得到了广泛的应用,包括化妆品、电子产品到药品,而金纳米粒子具有良好的生物相容性并且比较容易进行表面改性,因此常常被当作药物载体用于肺部疾病的治疗。当金纳米粒子通过呼吸进入肺泡后,会与肺表面活性物质(LS)相互作用,LS是由脂质、蛋白质组成的单层膜,是肺部抵御外来物质的第一道屏障。因此,了解金纳米粒子与LS单层膜之间的相互作用至关重要。尽管目前已经进行了大量
近些年来,智能机械手的研究与应用得到了广泛的关注,并成为工业生产与日常生活中不可或缺的组成部分。为保证机械手可靠、灵巧地的完成预定的任务,需要为智能机械手装配具有指尖信息感知能力的传感器。触觉感知技术是智能机械手自主控制和智能决策的基础与支撑,而力觉感知则是感知的重要研究内容。本文在总结前人研究的基础上用Galfenol合金为核心传感材料,基于理论建模与实验分析相结合的方式,开发一种适应于智能机械
外骨骼机器人是现在机器人研究领域的热点,其主要关键技术为步态实时识别技术。当前步态识别方法的信息采集和识别算法的设计主要以足底压力,惯性传感器等为主要研究方向。其中压力传感器由于其抗干扰性较强和极快的响应速度而备受关注,相应的足底压力传感器位置点确定成为了一项关键研究问题。同时,随着大数据的发展,机器学习算法在步态识别中也得到了青睐,然而参数选择问题也随之产生。本文针对以上两个关键问题进行了研究,
服务机器人构建场景的语义地图是服务机器人认知环境的基础,是机器人实现自主决策的前提,而机器人利用语义信息进行导航是语义地图构建的最终目的,是机器人与人和环境产生交互的一种体现。机器人如何利用环境中的语义信息像人类一样认知环境,构建环境的语义地图,并利用语义信息进行导航是机器人领域的核心问题之一。本文基于SLAM(Simultaneous Localization And Mapping)技术和深度
基于金属有机框架(Metal organic Frameworks,MOFs)纳米材料构建比色法生物传感器,实现对目标物质的快速、准确和灵敏检测是当今研究的热点内容。本文从设计构建中空的MOFs微囊和磁性核壳结构的MOF基纳米酶(MOF-based nanozymes,MOFzymes)出发,利用合理方式固定化酶构建比色法生物传感器,不仅能保证检测结果的准确性和灵敏度,还能实现传感器的重复利用,对
近年来,随着高压、特高压直流输电的发展,交直流深度耦合,加之电力电子设备的广泛应用,电网中电磁环境愈加复杂,谐波污染愈加严重。变压器作为电网中的核心电力设备之一,负责电能的变送及传输。铁心是变压器的关键部件,其损耗值在变压器总损耗中占比较大,因此,准确计算变压器铁心在复杂谐波激励下的损耗对于优化大型电力变压器的结构及提高电力系统中电能的传输效率至关重要。变压器铁心由数以万计的硅钢片叠积而成,硅钢片
采用20Cr2Ni4A合金钢制造的装甲车重载齿轮因其特殊服役环境,存在寿命低与可靠性差的问题。本文探索了稀土真空渗碳和离子注入的复合强化工艺,结合显微组织、力学性能研究不同强化处理状态20Cr2Ni4A渗碳钢的接触疲劳性能。通过多种表征和测试技术对强化层的微观组织结构和力学性能进行了测试与分析,并对稀土真空渗碳、离子注入复合强化处理对接触疲劳性能的的影响机制进行了探讨。在920℃、碳势为1.2%的
目前我国乡村地区对于低能耗住宅研究相对滞后,缺少系统的研究体系,在成果上与发达国家有很大差距。我国北方寒冷地区的一些乡村住宅受到气候、地理、经济、技术的影响,导致住宅舒适性较低。大多数农宅围护结构热工性能较差,造成冬季热量向外流失,且供暖效率低下,导致了乡村住宅能耗过高且室内舒适度低。针对这一问题进行深入分析,进而提出有效的解决策略,对乡村低能耗建筑的发展具有重要的现实意义。为降低乡村住宅能耗,本