论文部分内容阅读
为响应国家建设“海洋强国”战略,发挥科技对海事发展的支撑和引领作用,本文提出了一个海事领域Web信息获取和分析框架MARISA(MaritimeInformation Sourcing and Analytics Framework),并以此进行海事Web信息的挖掘和知识图谱构建以及搜索。这样的框架可以为海事专家/数据分析员提供海事领域在Web上的最新动态、基于领域的文档自动分类和排序、可交互的知识图谱浏览及搜索,以促进专家更系统和科学地分析海事Web信息,为实现科学决策提供依据。 本文研究的主要内容包括:(1)通过搜索引擎在巨大的Web索引中定位潜在海事相关的文档并基于现有的领域知识对这些文档进行排序;(2)对搜索结果和全文文档进行基于领域的自动分类;(3)对文档中的主题关键词进行高亮处理,以便用户高效辨别文档与类别的相关度;(4)基于海事领域的文档集构建知识图谱,并提供知识图谱上的搜索算法供用户直观、全面、立体地探索知识图谱。在MARISA中,我们解决了以下研究挑战: 1.海事文档的收集和分类海事,是一个比较大而宽泛的主题,从Web上大量的数据中选择海事相关文档标注的成本很高,我们提出了一个两阶段数据标注方法可以有效地获取海事相关的数据集。我们支持两级的分类模型来对搜索结果和全文文档进行分类。搜索结果是由标题和摘要组成的短文本,数据的缺少和稀疏使得搜索结果分类成为主要挑战。我们对分类模型和主题模型进行研究,使用主题模型丰富了搜索结果的文本表示,实验证明加入主题模型的搜索结果分类模型能在不平衡的数据下获得更好的分类精度。 2.海事命名实体识别为了构建海事知识图谱,我们需要从文档中抽取不同类型的命名实体。一般的命名实体识别模型不是基于某个领域而训练的,而船只实体以及海事地理实体(如港口、海湾)在我们的系统中提供的信息量以及用处很大,因此提供这两种实体类型的识别是我们需要完成的任务。我们提出了有效的算法集成两个命名实体识别模型来提供人名、机构名、地名以及船只名的识别。实验证明我们的模型不仅很好地实现了船只名以及海事地名的识别,而且识别精度优于单个模型。 3.知识图谱构建与搜索知识图谱可以对信息实体及其之间的关系进行抽象和总结,从而为文档所涵盖的知识提供一个高层次的概述。为了获得海事领域的大背景知识以建立知识图谱,我们收集了一个包含11万文档的海事领域公共资料库,并提出了在公共资料库上构建知识图谱和在知识图谱上进行文档级、集合级和域级搜索的算法。 4.交互可视化用户界面是系统框架中的一个主要组件。用户界面的设计需要直观,但同时也要为用户提供足够的信息来判断分类的正确性。我们使用高亮主题关键词、展示命名实体子图等方法帮助用户理解文档,同时为用户提供友好且可交互的可视化界面以更好的浏览和查询知识库。