海事Web信息挖掘与知识图谱构建

来源 :复旦大学 | 被引量 : 0次 | 上传用户:tomily98
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为响应国家建设“海洋强国”战略,发挥科技对海事发展的支撑和引领作用,本文提出了一个海事领域Web信息获取和分析框架MARISA(MaritimeInformation Sourcing and Analytics Framework),并以此进行海事Web信息的挖掘和知识图谱构建以及搜索。这样的框架可以为海事专家/数据分析员提供海事领域在Web上的最新动态、基于领域的文档自动分类和排序、可交互的知识图谱浏览及搜索,以促进专家更系统和科学地分析海事Web信息,为实现科学决策提供依据。  本文研究的主要内容包括:(1)通过搜索引擎在巨大的Web索引中定位潜在海事相关的文档并基于现有的领域知识对这些文档进行排序;(2)对搜索结果和全文文档进行基于领域的自动分类;(3)对文档中的主题关键词进行高亮处理,以便用户高效辨别文档与类别的相关度;(4)基于海事领域的文档集构建知识图谱,并提供知识图谱上的搜索算法供用户直观、全面、立体地探索知识图谱。在MARISA中,我们解决了以下研究挑战:  1.海事文档的收集和分类海事,是一个比较大而宽泛的主题,从Web上大量的数据中选择海事相关文档标注的成本很高,我们提出了一个两阶段数据标注方法可以有效地获取海事相关的数据集。我们支持两级的分类模型来对搜索结果和全文文档进行分类。搜索结果是由标题和摘要组成的短文本,数据的缺少和稀疏使得搜索结果分类成为主要挑战。我们对分类模型和主题模型进行研究,使用主题模型丰富了搜索结果的文本表示,实验证明加入主题模型的搜索结果分类模型能在不平衡的数据下获得更好的分类精度。  2.海事命名实体识别为了构建海事知识图谱,我们需要从文档中抽取不同类型的命名实体。一般的命名实体识别模型不是基于某个领域而训练的,而船只实体以及海事地理实体(如港口、海湾)在我们的系统中提供的信息量以及用处很大,因此提供这两种实体类型的识别是我们需要完成的任务。我们提出了有效的算法集成两个命名实体识别模型来提供人名、机构名、地名以及船只名的识别。实验证明我们的模型不仅很好地实现了船只名以及海事地名的识别,而且识别精度优于单个模型。  3.知识图谱构建与搜索知识图谱可以对信息实体及其之间的关系进行抽象和总结,从而为文档所涵盖的知识提供一个高层次的概述。为了获得海事领域的大背景知识以建立知识图谱,我们收集了一个包含11万文档的海事领域公共资料库,并提出了在公共资料库上构建知识图谱和在知识图谱上进行文档级、集合级和域级搜索的算法。  4.交互可视化用户界面是系统框架中的一个主要组件。用户界面的设计需要直观,但同时也要为用户提供足够的信息来判断分类的正确性。我们使用高亮主题关键词、展示命名实体子图等方法帮助用户理解文档,同时为用户提供友好且可交互的可视化界面以更好的浏览和查询知识库。
其他文献
最优化问题包括连续优化问题和离散优化问题,对于连续优化问题中的多模函数问题和离散优化问题中的非确定多项式(Non-Deterministic Polynomial,NP)难问题,智能算法求解这些问
各种工件在加工后内部经常会存在着不同程度的残余应力,残余应力导致了工件的变形与破裂。振动时效是一种有效的消除工件内残余应力的方法,它具有明显的优点:节省能源、污染小、
“点目标”这一概念首先来源于军事领域。在夜视环境下,空间作战的敌方目标一般都处于远距离的复杂云天背景之下,通过传感器采样得到的图像中,目标往往成像面积都在几个像素,甚至
本文对并行逻辑模拟中容错技术进行了研究。文章介绍了并行逻辑模拟的原理、系统组成和影响模拟性能的因素,论述了和容错密切相关的时间偏差协议。在对并行逻辑模拟系统的特殊
主要组织相容性复合物(Major Histocompatibility Complex,MHC)主要参与抗原的呈递,MHC分子与抗原短肽的结合是免疫系统产生免疫反应中必不可少的一个环节。因此MHC分子亲和肽
本文在简要介绍了XML应用接口之后,讨论了在进行数据交换的过程中可能遇到的一些问题并给出了解决办法。接着,介绍了整个数据交换平台的设计方案,相关XML文档的设计,以及客服数据
线特征是图像的显著特征,线检测广泛地应用在图像处理领域,占据着重要的地位,有关线检测的研究已有很多,但是他们大多关注线位置而忽略了线宽,对线宽检测的研究很少,而线宽检测也很
信号处理器作为硬件加速信号处理算法的重要实现,得到越来越广泛的应用。性能的保证需要从指令集定义,结构划分开始,贯穿于整个处理器的前端设计过程,如何在这一个过程中逐步优化
新一代移动通讯技术侧重于提高网络带宽和发掘网络性能,以应对急剧增长的数据流和业务流的需求。同时,也注重对新增的电信服务类型的研究,以满足日益增长的移动通信需求。然
多媒体同步是多媒体应用的一个关键技术,近年来受到广泛的关注。本文主要探讨课件编辑系统中的同步问题。首先对多媒体同步技术进行介绍,在此基础上引出网络环境下多媒体系统