基于文本数据的行业事理图谱构建系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:acup
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对知识图谱的研究不断深入,以事件为核心进行知识组织表示的方式逐渐被提出。已有的知识库通常关注“实体”以及“实体间的关系”,而忽视“事件间的逻辑”。但是,在真实场景的应用中,事理逻辑是一种极具价值的认知知识,对于这种知识的挖掘将使得人们对自身行为和社会发展变化规律的认识更加深刻。事理图谱就是以“事件”为核心而提出的新型知识存储形式,本质上它同样是一种知识的结构化表示方式,但由于其对事件的演化,通常在实际应用中能发挥更大的价值。本文聚焦于具体行业事理图谱的构建,主要完成的工作如下:梳理行业事理图谱构建系统的开发背景,提出切实可行的行业事理图谱构建框架。在详细调研了概念和知识的基础上,说明了行业事理图谱在行业研究中的重要性;随后展示了行业事理图谱构建系统的模块设计,用以从文本数据中构建行业事理图谱。分析行业事理图谱构建系统的各个模块,并给出具体实现方案。本文首先给出了实现中采用的事件定义方式,并运用自然语言处理技术提取要素,结合依存句法分析与语义角色标注提取事件。随后比较事件间的相似度,通过向量空间模型与余弦相似度的计算完成事件融合。事件关系抽取部分主要聚焦于因果事件关系的抽取,本文采用BERT模型实现输入数据的特征编码。后续经实际测试,最终采用Bi-LSTM+CRF模型完成相关工作。对行业事理图谱构建系统的总结与展望。本文基于所构建的行业事理图谱给出了相关描述,并揭示其在实际生产生活中的意义;分析行业事理图谱的挑战,展望其未来,并对本文提出的系统设计进行总结。
其他文献
在软件的开发和维护中,清晰的代码注释对于程序理解非常重要,开发人员可以通过使用注释的自然语言描述去理解一段代码的含义。然而,由于项目进度紧迫或开发人员能力限制等各种原因,许多项目中的注释常常缺失、过时、或者与代码不匹配。最近几年,基于深度学习模型为代码自动生成注释的研究工作取得了很大的进展,在为源代码建立语言模型的趋势推动下,目前技术的关注点大部分集中在源代码的结构上,而代码中的关键字内容例如方法
学位
消息推送平台是华为面向广大开发者的推送平台,负责为开发者提供向终端用户推送消息的渠道,是开发者与用户之间的一道桥梁。通过消息推送平台,开发者可以推送消息至终端用户,提高用户活跃度,用户则能够通过推送的消息获取实时新闻、商家折扣活动等信息。华为作为终端设备厂商,近几年发展迅猛,日益增长的设备量对推送平台的处理能力提出了巨大挑战。以往服务器单机并发量小,业务增长时增加机器就可解决问题,如今服务器增长已
学位
期权是指在未来一定时期可以买卖的权力。买方和卖方基于某种特定标的物签订合约,合约规定了在未来某个时间该标的物的价格,买方向卖方支付约定的权利金后,就可以在未来某个时间按照合约规定价格买入或者卖出特定标的物,但不会强制执行合约。随着信息化时代的到来,和传统证券交易方式相比,线上交易以更快的交易处理速度、更低的交易成本等优势成为了最主流的交易方式,从刚开始的电子撮合系统到如今的集中交易系统,更快速的新
学位
服务商是随着阿里广告联盟业务发展由头部推广者衍生出来的角色。在广告联盟发展过程中,部分头部推广者们的核心工作由推广广告逐步转变成了分发推广任务、精细化运营推广过程。同时他们可以通过收取服务费的方式获得大量收益。因此,这些头部推广者转变为服务商,成为阿里广告联盟中的重要角色。目前服务商大多是在线下渠道和广告主接触,缺乏有效管控,因此阿里广告联盟迫切需要一套线上机制来管控服务商。针对阿里广告联盟对服务
学位
图像作为一种重要的信息传递载体,在其生命周期过程中会受到各种因素的影响,从而引入噪声。噪声图像丢失了一部分信息,不仅阻碍了人对图像信息的获取,而且也对各种图像任务的准确率,例如图像分割、目标检测等产生直接的影响。因此进行图像去噪研究是一项非常重要的任务。经典图像去噪算法是一种基于数学方式的优化方法,其去噪过程是一个数学优化过程。如果图像分辨率很高,去噪处理需要花费很长的时间。因此经典图像去噪算法很
学位
近年来,随着中国经济的快速发展,国内银行市场不断扩张,相应支撑银行各种业务的信息系统也不断增多。作为特殊领域的银行应用系统,有着极为严格的监管要求,需要对应用系统服务器状态、数据业务状态等实施细粒度实时监控。然而,现有银行监控系统监控场景单一,监控后的告警信息缺乏有效管理,加上异构数据比例越来越大,无法挖掘大量数据的隐藏价值。此外,新的业务场景在产生大量数据的同时,还要求对这些数据进行高效处理,给
学位
近些年来,深度学习技术备受瞩目,在计算机视觉、自然语言处理等各个计算机技术领域大放异彩,取得了超越传统方法的效果。图像的重建与生成是计算机视觉领域重要的研究方向之一。图像重建(Image Reconstruction)旨在通过低层次稀疏的语义信息,通过各种手段去还原获得原始的高层次丰富的图像信息。无论在艺术领域的AI辅助绘图,工业设计领域的原型快速批量生成,还是在刑侦领域的嫌疑人肖像重建,图像重建
学位
随着华泰证券公司IT工作平台的模块数量日益增加,为了实现IT资源的高可用性,降低数据中心的运维成本,公司已经基本初步实现了“虚拟化数字中心”的建设。而传统的基于后台的虚拟化服务器管理方式,随着服务器数量的逐渐增加,管理员的工作强度也会相应增加。所以本文提出了面向华泰证券公司运维人员使用的服务器部署推荐系统,运维人员在系统中对公司机房内的服务器进行上架和下架,通过对于数据库中服务器信息的即时维护,使
学位
近些年来,随着软件规模的不断增长,加之软件需求的多样性、数字环境的复杂性、一致性、易变性和不可见性等因素的影响,软件的开发效率和质量仍无法满足软件产业发展的客观需要。因此,软件技术不断更新,其中用户需求的复用颇受关注。需求工程是软件开发过程中最早的阶段,用户需求的复用可以节约需求分析的时间,还可以帮助快速定位到其它可复用的软件资产。为了方便用户需求的复用,需要将非正式的、非结构化的用户需求转写为结
学位
随着信息产业的发展,软件产品的规模逐渐增大,企业中软件系统的回归测试成本也在迅速增加。许多企业面临测试时间长、效率低的问题。如何能够提高测试过程的效率和准确率是回归测试中一个重要的问题。为了解决这一问题,研究人员提出了测试用例优先级(TCP,Test Case Prioritization)技术,通过对测试用例进行排序,使代码缺陷尽早的被发现,缩短从测试人员发现故障到开发人员进行修复的时间。目前企
学位