【摘 要】
:
随着人工智能计算能力的日益增强与可获取数据量的日益提高,知识图谱和事件图谱成为计算机领域内相当成熟的一个应用。但由于现有知识图谱和事件图谱大部分由一种语言构成,而一种语言无法对整个世界的知识进行全面描绘。在大数据时代,不同语言的信息共享已成为世界发展趋势。跨语言图谱融合由于多语言间的一词多义、一义多词以及未登录词等问题,一直是一个很难找到最优解决方案的研究难点。跨语言事件图谱融合旨在找到不同语言事
论文部分内容阅读
随着人工智能计算能力的日益增强与可获取数据量的日益提高,知识图谱和事件图谱成为计算机领域内相当成熟的一个应用。但由于现有知识图谱和事件图谱大部分由一种语言构成,而一种语言无法对整个世界的知识进行全面描绘。在大数据时代,不同语言的信息共享已成为世界发展趋势。跨语言图谱融合由于多语言间的一词多义、一义多词以及未登录词等问题,一直是一个很难找到最优解决方案的研究难点。跨语言事件图谱融合旨在找到不同语言事件图谱中指向现实世界同一事件的事件指称,有助于跨语言事件图谱的补全和验证。本研究以跨语言事件图谱融合模型构建作为重点研究课题,将图卷积神经网络算法应用在跨语言事件图谱融合模型中,利用事件主体图来表示事件图谱中事件中心节点以及事件相关的实体节点信息,将跨语言事件图谱融合模拟为跨语言事件主体图之间的图匹配问题,运用图匹配方法来计算事件主体图之间的相似度,最后根据事件中心实体图的匹配状态,将两个单语言事件图谱进行节点对齐,来完成跨语言事件图谱的融合。本文主要工作内容分为四部分:(1)数据采集:通过医疗网站、新闻媒体等,爬取结构化和非结构化多语言数据,做为图谱构建的数据集。(2)新闻事件抽取:通过搭建新闻事件抽取模型,对采集到的非结构化新闻数据进行抽取处理,转换为结构化数据,作为图谱构建的数据集。(3)单语言事件图谱构建:构建中文和英文两个单语言医疗新闻事件图谱,为图谱融合提供数据支持。(4)跨语言事件图谱融合:首先构建跨语言事件图谱融合模型,然后将模型应用到构建好的两个不同语言的事件图谱中,输出一个融合度较高的跨语言事件图谱。本研究以医疗相关新闻作为研究领域,构建出跨语言事件图谱融合模型,并对模型性能进行测试。本研究最终融合构建出包含中文和英文的跨语言医疗新闻事件图谱,让人们从多语言视角了解医疗领域新闻情势,辅助人们更好地分析和预测接下来的医疗领域新闻局势。
其他文献
近年来,零知识证明技术逐渐成为诸多学者研究的热点。以太坊被称为区块链2.0,含有智能合约及良好的生态环境,可更好地实现钱包的业务交换。目前现有的数字钱包进行业务交换时,由于业务交换双方的地址和交换数额为公开的,存在账户隐私泄露问题,所以无法保障业务交换匿名性和安全性。此外,部分数字钱包为全节点钱包,用户需存储全部数据信息,存在占用空间较大,加载速度慢,交易时间长等问题。因此,有必要对区块链数字钱包
超级电容器因其具备瞬时大电流充放电、循环寿命长等特点而获得了较为广泛的关注。除了提高超级电容器本身电化学性能外,器件的多功能化和智能化也成为了研究热点。在目前光能到电能转换存储系统的研究中,由于常规太阳能电池与超级电容器的连接系统过于复杂,增加了能量损耗以及成本,也不满足便携式、可穿戴器件的要求,因此需要制备具有光响应的能量转换存储一体化的器件。例如,具有光敏感性能的超级电容器。制备光电化学性能良
光纤传感器具有体积小、质量轻、抗电磁干扰和制作成本低等优点,可以对许多参量实现无标记、高灵敏度、以及复杂环境下的测量。因此,光纤传感器在现代测量技术的发展中具有良好的潜力和应用价值。长周期光纤光栅(Long period fiber grating,LPFG)由于其特殊的模式耦合,穿透包层的倏消逝波对其表面介质周围折射率(Surrounding refractive index,SRI)、浓度、等
目标的姿态估计一直是计算机视觉的重要课题。对于飞行器的空中姿态进行估计可以得到其姿态信息。该信息可以在对飞行器的下一步动向进行预测时提供一定的依据。目前主流的飞行器姿态估计算法大都基于手动特征提取或者深度学习技术,后者相关算法可以大幅度降低人力成本并且效果及鲁棒性都更加优异。但是目前算法普遍存在着速度过慢、预测误差较大以及移动平台适配不佳等问题。为了对这些问题加以改善,本文对现有算法进行优化从而实
随着信息化移动技术的快速发展,短视频共享平台早已经成为互联网用户日常生活中不可或缺的一部分,人们逐渐热衷于使用短视频共享平台来记录和分享生活。目前,社会中主流的短视频共享平台利用分布式存储技术来存储用户上传的视频数据,借助集群冗余备份机制来保证数据服务的稳定性,但是冗余备份与存储占用空间这两者之间的矛盾仍然是一个亟需解决的技术问题。同时,随着短视频共享平台用户量的爆炸式增长,如何安全存取用户上传的
拉曼光谱技术凭借独特的样品分子指纹信息,以及具有非入侵性、高化学特异性及受水干扰小等优点,使其在癌症诊断、生物学研究和材料等方面有很大的应用前景。但是由于拉曼光谱信息复杂,使其在样品信息解释方面存在挑战,因此需要有效的数据分析方法来解释复杂的光谱数据。随着人工智能技术的发展,越来越多的机器学习算法被应用在拉曼光谱数据处理中,如用于分类建模的有监督学习算法和可用于拉曼成像的聚类分析、谱分解算法以及多
现有的图像检测模型都是对通用目标进行检测,针对复杂背景下的图像小目标检测还存在难以准确识别的问题,特别是远距离小目标聚集与轮廓边缘不清晰时,检测误差较大。小目标在图像中所占面积小、分辨率低,提取的特征很少,进而不容易被检测。合并多个尺度特征信息能够增强小目标的特征,目前针对特征多尺度处理方式通常是采用特征金字塔(Feature Pyramid Networks,FPN),但是在特征金字塔融合的过程
近年来,能源紧张和化石能源产生的环境污染问题急需解决,寻求可再生清洁能源成为材料、能源等学科的重点研究方向。利用传统试错法和密度泛函理论计算的方式寻找光伏材料的错误率高,消耗资源大且耗时久。本工作结合机器学习预测与第一性原理计算,成功预测出高效且稳定的潜在二维钙钛矿材料(Ba2VON3和Sr2VON3),并对材料的能带结构、稳定性、光学吸收谱以及理论最大光电转换效率进行模拟计算,同时研究了碳离子注
随着互联网社交论坛中在线内容的激增,立场检测作为情感分析的一个重要子问题,得到了越来越多的关注与应用。与此同时,针对立场检测的研究也面临了较多挑战,比如静态词嵌入技术对文本上下文语义理解不充分和模型速率较慢等问题。现有的立场检测模型往往只针对单一语言或单一来源的数据集展开研究,也很少有研究者考虑模型的训练及预测速率。为解决上述问题,本文提出了基于DBMPT的立场检测模型,实现了具有立场检测功能模块
大频差可调谐双频激光器在激光干涉测量、光生毫米波、激光雷达等领域有着巨大的应用潜力。常用的双频激光产生方法主要是利用塞曼效应、Sagnac效应、磁光效应、旋光效应和双折射效应等,将一个激光频率分裂以获得两个频率。基于塞曼效应的0.632μm双频He-Ne激光器,因受到Ne原子荧光线宽(1500 MHz)的限制,频率分裂量较小。相比而言,固体荧光线宽要远远大于气体的荧光线宽,通过引入双折射效应获得双