论文部分内容阅读
随着社会的不断发展和工作压力的不断增加,旅游成为了人们释放压力和享受生活的一种方式。人们的文化程度越来越高,在观光旅游时不仅寻求美丽的自然景观,还期待着丰富的文化体验。Web中含有大量的文化旅游信息,包括自然景观介绍、名人趣事、景点相关诗歌、电影等等。如何从杂乱的、无结构的文本中识别和挖掘出游客们感兴趣的文化信息,丰富景点的文化内涵呢?利用信息抽取技术就可以提取到上述相关信息。本文从旅游文化挖掘的角度出发,对Web旅游信息文本进行命名实体识别和实体关系抽取,并将抽取的知识构建成关系网络(即知识图谱)。命名实体识别主要有基于规则和机器学习两种方法。基于机器学习的方法虽然有很好的统计基础,但需要大量的人工标注语料,且特征的好坏直接影响到性能。基本上,要是能够设计制定出合适的规则,那基于规则的方法在效率和准确性方面,都会比基于机器学习的方法更好。本文的Web旅游信息文本数据句型单一,内容耦合度相对较高,且本文关注的5类实体均含有组合实体和泛指实体。但这5类实体在词、词性组合和依存关系路径上存在着共同点,如:动词只能作为修饰成分或者状语成分出现在实体中;实体首部和尾部大都为名词等等。因而,本文在对文本进行分句、分词、词性标注、依存句法分析和语义角色标注后,结合词、词性组合和依存句法结构提出了候选实体抽取算法,实验结果表明实体召回率能够达到96%。然后,用实体后缀词规则和机器学习的方法对实体进行分类剪枝,最终性能F值能够达到91%,基本上能够识别和分类出所有的实体。通过分析Web旅游文本的句式特点,提出了最近句法依赖动词特征,并通过实验验证了其有效性。本文在命名实体识别的基础上,对数据进行二次处理,最后使用基于特征向量的机器学习方法进行关系抽取。同时,为了寻求最优特征,本文综合了以往研究中提出的词、句法和语义特征。本文一共进行了 14组实验对比,探讨和分析了不同特征对关系抽取的影响,并找出了最适合Web旅游信息文本的特征。为了更加丰富关系抽取的结果,本文设计了3条时间填充原则,为关系抽取的结果加入时间元组。将数据文本、实体、实体关系和景区包含关系构建成知识库,最终以文字、表和图形化的形式呈现出来,开发出了旅游文化知识链接系统。