基于双通道注意力机制的知识融合系统的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:chamcham
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,相关推荐、智能问答等需求的出现极大的促进了知识图谱技术的发展,构建大规模通用知识图谱成为国内外学者的研究焦点。然而由于现有的各类知识图谱间存在着严重的异构和冗余,因此在知识图谱融合时需要高效、准确的判断两实体是否指向同一客观物体,即通过实体对齐技术实现知识图谱的融合工作。目前,关于实体对齐技术的研究已经有了较大的进展,但是仍存在着一定的局限性。例如,随着数据量的增大,基于统计的传统概率模型具有时间复杂度高的问题;基于专家经验的实体对齐算法无法满足数据量增长所带来的自适应性问题,导致准确率较低;基于机器学习或深度学习的方法的主要问题是先验对齐数据获取困难,另外在中文文本下还存在着实体向量生成效率低的问题。在上述背景下,本文提出了基于双通道注意力机制的实体对齐算法,并设计实现了基于双通道注意力机制的知识融合系统,该系统能够高效、准确的实现实体对齐、图谱融合和知识图谱查询等功能。本文研究工作具体如下:(1)提出了基于双通道注意力机制的实体对齐算法。首先,针对中文知识图谱下实体向量生成效率低的问题,本文提出了基于连续词袋模型(Continuous Bags Of Words,CBOW)的实体向量训练模型E-CBOW,使用卷积神经网络(Convolutional Neural Network,CNN)对公开词向量进一步训练,得到包含实体语义信息和知识图谱结构信息的实体向量,避免了从one-hot编码开始的词向量训练,可以更加高效准确的训练实体向量。然后,针对基于深度学习的实体对齐算法中由于两实体间互相表示向量不准确而导致的实体对齐判断准确率较低的问题,本文设计了双通道注意力机制。该机制针对词信息和句信息的特点设计了不同的相似度学习方式以学习两实体词信息和句信息的注意力权重,以得到两实体间更加准确的互相表示向量,进一步提升最终实体对齐判断的准确率。最后,针对中文先验对齐数据量小的问题,本文提出了基于迭代思想的数据增量学习方法,通过这种方式将实体对齐模型训练和数据集扩充交替进行,在一定程度上解决先验对齐数据量小的问题。(2)针对用户对数据预处理、实体对齐、图谱融合和知识图谱的查询等功能的可视化操作需求,本文基于Django框架设计并实现了基于双通道注意力机制的知识融合系统。本文详细描述了知识融合系统的需求分析、系统架构和系统各模块处理流程,设计并实现了数据预处理、实体对齐、图谱融合、知识图谱查询等模块功能,最后我们从功能和性能两方面对系统进行了详细的测试。通过与现有BootEA和SEEA等实体对齐算法的对比仿真实验结果可知,本文所提出算法在Precision、Recall、F1-measure等各项指标上均有较大幅度提升。同时,经过系统测试,本文所设计的知识融合系统能够准确高效的进行知识图谱实体数据预处理、实体对齐、图谱融合和知识图谱查询等操作,满足知识图谱融合系统的功能和性能需求。
其他文献
合成孔径雷达(Synthetic Aperture Radar,SAR)既能够获取目标观测区域的高分辨率图像,又可以进行地面动目标检测(Ground Moving Target Indication,GMTI)。相比于机载SAR-GMTI系统,星载SAR-GMTI系统不受各国空域管制,能够获取更大的观测范围,在军事和民用上都发挥着重大的作用。但星载SAR-GMTI系统回波数据不易获取,工作环境更为
电子病历作为医院通过电子化方式记录患者就诊信息的诊疗记录,在医疗中作为主要的信息源,提供超越纸张病历的服务。随着医疗服务活动的开展,尤其是移动医疗设备与物联网技术
肝脏是人体腹腔内最大的的实质性器官,其发病率高,结构复杂,病变种类多,一直以来都是严重威胁人类生命和健康的一大因素。对于肝脏肿瘤这一疾病,在临床医学上主要对其进行检
随着铁路运输行业向高速化和重载化发展,轮轨系统面临的问题也日渐突出。钢轨磨耗问题不仅造成车辆维护成本的增加,而且还会恶化轮轨接触的几何匹配关系、影响轮轨间接触力及动力学特性等,更重要的是对行车安全会造成巨大威胁,严重时甚至造成列车脱轨等。所以钢轨的磨耗是一个不可忽视的重要问题,对其开展相关的研究工作具有重要的工程背景和社会意义。本文围绕钢轨磨耗问题主要进行了以下工作:(1)建立轮轨接触三维有限元模
我国仍处于社会主义的初级阶段,股票市场的日趋成熟与蓬勃发展大家都有目共睹,但与此同时现存制度的不完善以及市场投资观念的建设仍然与国外那些成熟的资本市场存在一定的差距。而作为各个上市公司的掌舵人,大股东的言行举止对上市公司整艘船的航线有着重要意义和影响。对于上市公司本身创立的年份而言,广大的中小投资者们更是“年轻”的,缺乏成熟的投资思维,也不具备着对于市场上各种各样的风险的良好识别与判断。在这样的情
由于机械式自动变速器(Automatic Manual Transmission)既具有自动变速的优势,同时也保留了传统手动变速器传动效率高、成本低的特点,所以在商用车上搭载AMT变得越来越普遍。AMT的换档规律对于车辆的燃油经济性有重要的意义。特别是对于混合动力车辆,优化其换档规律,既要考虑基于燃烧学、热力学的内燃机工作特性。同时也要兼顾基于电磁学的电机工作特性。综合考虑不同特性动力源对换档规律
消费者反悔权指的是在网络购物、电视购物、邮购等情况下,消费者在收到商品之日起的七日内可以行使要求经营者无理由退货的制度。在网络购物、电视购物、邮购等远程交易模式
马克思“人民主体性”思想是我党长期执政的重要基础和珍贵经验,“天地之大,黎元为先”,习近平总书记念兹在兹的是人民,身体力行的是为了人民。文化建设要“不忘本来、吸收外来、面向未来”,对马克思“人民主体性”思想及其当代价值的研究是为了更好地服务于新时代中国特色社会主义建设的实践,实现中国华民族的伟大复兴,实现人民对美好生活的向往。通过探索马克思在当时的特定时间、空间下,是何种基础、何种原因的推动让马克
纳米晶纤维素(Nanocrystalline Cellulose,NCC)作为传统纤维素的重要衍生物具有储量大、可再生、易制备等属性特征,同时还具有高杨氏模量、高透光率、高稳定性、高生物相容性等性能特征,被认为在纳米组装材料、新型光学材料、功能复合材料等领域有着广泛的应用前景。近年来,研究发现,NCC经蒸发诱导自组装可形成具有双折射性的纤维素胆甾型液晶相,然而,目前的研究对其自组装过程中的影响因素
学位
第一部分:目的:探讨临床特征因素对胰腺癌预后的影响。方法:收集2017年1月至2018年12月在导师所在医院确诊为胰腺癌的患者54例,整理患者的临床随访信息,包括姓名,性别,是否伴有糖尿病,肿瘤分期、淋巴结转移、血管侵犯、肿瘤标记物、手术方式以及术后生存时间,所有数据的分析采用Kaplan-Meier绘制生存曲线图,采用单因素和多因素COX回归分析各临床病理特征对患者生存时间的影响。结果:COX回