Web旅游文化挖掘中的实体关系抽取及知识链接系统构建

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:bengouwa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的不断发展和工作压力的不断增加,旅游成为了人们释放压力和享受生活的一种方式。人们的文化程度越来越高,在观光旅游时不仅寻求美丽的自然景观,还期待着丰富的文化体验。Web中含有大量的文化旅游信息,包括自然景观介绍、名人趣事、景点相关诗歌、电影等等。如何从杂乱的、无结构的文本中识别和挖掘出游客们感兴趣的文化信息,丰富景点的文化内涵呢?利用信息抽取技术就可以提取到上述相关信息。本文从旅游文化挖掘的角度出发,对Web旅游信息文本进行命名实体识别和实体关系抽取,并将抽取的知识构建成关系网络(即知识图谱)。命名实体识别主要有基于规则和机器学习两种方法。基于机器学习的方法虽然有很好的统计基础,但需要大量的人工标注语料,且特征的好坏直接影响到性能。基本上,要是能够设计制定出合适的规则,那基于规则的方法在效率和准确性方面,都会比基于机器学习的方法更好。本文的Web旅游信息文本数据句型单一,内容耦合度相对较高,且本文关注的5类实体均含有组合实体和泛指实体。但这5类实体在词、词性组合和依存关系路径上存在着共同点,如:动词只能作为修饰成分或者状语成分出现在实体中;实体首部和尾部大都为名词等等。因而,本文在对文本进行分句、分词、词性标注、依存句法分析和语义角色标注后,结合词、词性组合和依存句法结构提出了候选实体抽取算法,实验结果表明实体召回率能够达到96%。然后,用实体后缀词规则和机器学习的方法对实体进行分类剪枝,最终性能F值能够达到91%,基本上能够识别和分类出所有的实体。通过分析Web旅游文本的句式特点,提出了最近句法依赖动词特征,并通过实验验证了其有效性。本文在命名实体识别的基础上,对数据进行二次处理,最后使用基于特征向量的机器学习方法进行关系抽取。同时,为了寻求最优特征,本文综合了以往研究中提出的词、句法和语义特征。本文一共进行了 14组实验对比,探讨和分析了不同特征对关系抽取的影响,并找出了最适合Web旅游信息文本的特征。为了更加丰富关系抽取的结果,本文设计了3条时间填充原则,为关系抽取的结果加入时间元组。将数据文本、实体、实体关系和景区包含关系构建成知识库,最终以文字、表和图形化的形式呈现出来,开发出了旅游文化知识链接系统。
其他文献
随着信息技术的不断发展,互联网应用在我们的生活中也渐渐地普及起来,信息化生活已经拉开了帷幕。信息化生活能够使人们的生活更加丰富多彩、快捷便利,生活服务信息平台是为
测试数据生成是动态软件测试中的关键环节,它对于提高软件测试的能力有着至关重要的作用。测试数据生成问题吸引了许多学者对其进行研究,人们提出了多种测试数据生成方法(如随机
介词短语形式多样,位置灵活,是汉语中十分重要的短语类型之一。介词短语识别问题一直都是自然语言处理的研究热点,准确识别介词短语可以简化其所在句子的内部结构,缩小中心词
跨入21世纪以来,随着信息技术、计算机技术、网络技术等高科技的不断发展,企业的信息化的步伐也逐渐加快,从通常的手工操作到办公自动化套件的广泛应用,再到各式各样企业管理
随着网络时代的发展,人们对信息资源掌握的增多,导致需要存储的数据量以几何级数在增长,网络带宽的不足、存储资源的紧缺以及等等诸多问题随之而来。解决这些问题的有效手段
随着计算机网络及相关技术的发展与普及,网络购物、网上支付、手机支付等等网络经济操作渐渐走近了大众的生活,网络安全问题已经直接影响到社会经济生活。在网络安全领域,网
随着计算机与信息技术的发展以及相关应用领域的需求,人脸检测与跟踪及其相关技术吸引了众多的研究者,国内外关于人脸检测和人脸跟踪的方法多种多样,并且不断有新的研究成果
计算机与互联网技术的快速发展,带来了一场计算机软件领域的技术革命。从PC时代的单机软件,到互联网时代的分布式软件,再到如今云计算时代倡导的软件服务,计算机软件的应用得到了
目前对等网络面临的重要问题就是如何高效的定位网络中的资源,基于DHT的结构化路由算法的提出使这一问题得到了相对优化的解决方案。本文针对典型结构化P2P路由协议Chord展开
当在数据库设计过程当中引进了一项新技术,必须在不同操作系统环境下测试新数据库系统的性能。通常,数据库测试会选择一套复杂的数据集和SQL查询集,并分别在引进新技术前后的数