论文部分内容阅读
在大数据时代背景下,互联网的信息数量呈现指数式的增长趋势,如何从这些海量数据中高效并准确地挖掘出有用的信息已经成为了信息检索的研究热点之一。知识图谱(Knowledge Graph)以图结构的形式描述存在于真实世界中的实体与实体间关系,并通过大数据提炼出知识库,能够对数据进行智能地组织和整合,是为搜索引擎提供精准答案的技术基础。知识图谱的构建研究在海量互联网知识的识抽取以及知识组织管理上体现了重要的应用价值。目前存在的知识图谱多为面向全领域的通用知识图谱,强调知识的广度,但是缺乏对实体知识深层次的挖掘。并且针对性较强的领域知识图谱,尤其是旅游领域的知识图谱研究很少且起步较晚,且没有较好的构建以及表示方法。已经构建好的旅游知识图谱,大都仅基于百科知识进行构建,导致知识较单一,尚不具有扩展性,适用性较差。针对这些问题,本文研究从多源异构数据中构建中文旅游领域知识图谱并探索其应用。本文研究内容包括:旅游知识图谱的数据来源分析,并对不同来源数据进行知识抽取、多源异构数据的实体对齐,以及旅游知识图谱的应用研究三部分,具体介绍如下:(1)为了构建出一个高质量的旅游知识图谱,本文首先针对互联网中的各类多源异构的数据进行分析,采用以百科站点知识抽取为主,旅游垂直站点知识抽取为辅的方式,分别设计并且实现了互动百科和百度百科词条页面半结构化和非结构化知识爬取,以及针对旅游网站的爬取。然后,从这些异构知识中抽取出结构化数据,并其转化为三元组知识,从而构建旅游领域的知识图谱。并且针对知识图谱中属性、属性值不完整或缺失的情况,提出了一种基于CRF条件随机场和候选句的属性值扩充方法。首先基于infobox(信息盒)构建属性词表,对百科正文的语料基于属性词表和匹配度权值进行候选句提取,然后采用CRF条件随机场从候选句中标注并抽取出实体属性以及属性值作为属性信息扩充。并采用准确率、召回率以及F1值对结果作以评估,各评价指标均表现良好,该过程对知识图谱的校正有很大的帮助。(2)针对知识库中存在同名异指以及同义异名的情况,本文研究了如何将知识图谱中的歧义实体进行对齐,即把同属于一个语义下的实体进行合并,减少知识图谱的冗余性。本文首次提出了基于BERT神经网络模型的实体对齐方法,首先采用分词技术,对语料进行分词标注,然后将其输入到BERT模型中训练出词向量,通过设置阈值,以及词向量间的余弦相似度排序实现实体对齐。并将其和Skip-gram、CBOW、DSG三个模型进行实验分析对比,评估结果中,BERT的效果最佳,并且平均准确率达到了 95%以上,为实体对齐提供了新的借鉴方法。(3)在旅游知识图谱的应用研究中,本文首先设计实现了一个基于旅游知识图谱和规则匹配的搜索系统,该系统为旅游知识图谱在搜索系统中的应用提供了可行的方案;其次本文在构建的旅游知识图谱的基础上实现了一个可视化系统,展示了知识库中的内容,并且允许用户创建、校正知识库中的三元组知识,实现基于众包的知识图谱人工校正,可以为用户提供多源的旅游知识服务。