网络中文文本蕴含地理实体关系的无监督抽取方法

来源 :第六届全国地理信息科学博士生学术论坛 | 被引量 : 0次 | 上传用户:zhangtianyu66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地理实体是国家基础地理信息数据库的基本组成部分,也是地图服务矢量化表达的重要形式,而地理信息则是有关地理实体的一切有用知识.随着传感器、定位、互联网等技术的不断发展,地理信息已经成为人们生活的必需品,在位置服务(LBS)领域发挥着重要的作用.新地理信息时代,人们对地理实体的内容描述更加丰富、时空刻画更加精细、更新频率更加迅速.一方面,相比传统的点、线、面表达方式,泛化后的地理信息聚合了多源异构的资源,如音频、视频、图片、评论、问答等.另一方面,相比传统的只关注单个地理实体信息,泛化后的地理信息更加关注地理实体之间复杂的关系,如类别隶属、空间拓扑和语义关系等.近年来,移动互联网时代的来临引发了基于位置服务的热潮,O2O(Online to Offline)和SoLoMo(SocialLocation Mobile)模式也随之兴起,人们对地理信息的需求变得更加迫切.然而,目前国内各大地图数据服务提供商(如四维图新、天地图、百度、高德等)提供的地图数据缺乏地理实体之间的关系描述,千万级的地理实体存储“扁平化”,导致位置服务应用中地理信息检索依赖于关键词,不能有效发挥基于实体关系的地理知识图谱搜索的优势,极大地限制了位置服务的能力.同时,地理信息的采集大多依靠传统的测量手段,地理实体的关系抽取还缺乏行之有效的措施.开放文本(如微博、百科、论坛、博客等)为实现地理实体关系抽取的自动化提供了可能.因此,如何识别并抽取地理实体间的空间和语义关系,构建铰链的地图数据库,改善基于位置服务的用户体验,是地图服务行业面临的共同问题.关系抽取作为信息抽取技术的重要研究课题和知识图谱的构建基础,国内外研究学者已开展了大量研究,并已服务于人们的日常生活,如微软亚洲研究院的人立方关系系统、雅虎关系搜索、腾讯好友关系链等.在地理实体关系抽取方面也取得了初步的研究成果,如GeoWordNet、OSM Semantic Network、GeoName Semantic Web等.目前,实体关系抽取的方法分为三类:基于模式匹配的方法、有监督和无监督的机器学习方法.模式匹配需要对语料库进行深入分析,人工抽取组织关系模式,优点是准确性高,但是需要耗费大量的人力物力,不适用开放文本大范围的关系抽取研究.相比模式匹配的方法,监督学习方法在提取速度及准确率上都有所提升,但是该类方法需要人工标注的且具有一定规模的语料库,由于开放文本涉及的文本繁杂,长文本、短文本、网络用语等增加了语料库构建难度.针对开放文本的地理实体关系抽取问题,无监督的机器学习方法人工干预少,不需要标注语料,能以独立于数据的方式工作,可直接揭示观测数据的内部结构和规律,因此对无监督的语义关系抽取方法已开展了大量的研究.部分研究者将语义关系抽取看做是语义聚类的过程,通过计算词频、词法或句征的相似性将实体对分组,进而提取组内的关系名称.如何设计有效的权值计算方法提取出准确的关系名称是其主要难点.无监督的空间关系抽取工作少有报道,现有的方法依赖于英文的空间本体,因受限于高质量的中文空间本体的可得性,无法移植到中文语料.目前,中文的空间关系抽取仍停留在监督的学习方法上,高成本的语料标注工作难以满足海量多元的网络文本关系抽取的要求. 针对中文的语义和空间关系抽取问题,本文将实体关系抽取转换成关键词提取的问题,实现了一种无监督地理实体关系抽取方法:对于句中的每一对地理实体,首先提取该句中的所有名词、动词和介词作为关系的候选关键词;然后基于向量空间模型,使用候选关键词构建词语-语境矩阵;并在基于词频统计的关键词提取方法中引入词语的位置、长度和词性的重要性,计算每个词语在当前语境中的权值,选择当前语境中权值最大的词语作为关键词;接着,借助词性识别出句中的空间词,同时根据关键词和空间词在句中的位置,按照句子原始的逻辑,调整各元素的顺序,自适应地构建关系元组;最后使用新浪旅游景点名称和百度百科简介进行了中文的地理实体关系抽取的实验,分析了Frequency、TF-IDF 和PPMI 三种权值计算方法在引入新特征前后关系抽取的性能差异.结果显示:在解决中文的语义和空间关系抽取问题时,引入词语的位置、词长和词性重要性有利于提升基于词频统计的关键词提取方法的正确率(增长20%).此外,关系元组的重构保证了实体关系的语义表达的逻辑性,自适应的组织形式增强了地理实体间空间关系描述的完整性,有利于提升计算机对文本的理解和认知水平.
其他文献
木桶盛水多少,取决于那块最短的板。人体器官也像木桶的板,寿命长短也取决于那块最短的板。你可能有九十九块长板,但只有那块最短的板,才是你生命长短的标志。所以,你没有丝
初中历史内涵丰富,其涵盖了我国从古到今的时代变迁,也涵盖了国际上历史的演变,是学生了解中国时代更迭、国际历史形成的重要途径。初中历史的学习能够丰富学生们的课余生活,拓展学生们的知识面,开阔学生们的视野范围,让学生真正达到博古通今、博学多闻的渊博知识程度,同时还能够帮助学生树立正确的人生观和历史观,培养学生浓烈的爱国热情,帮助学生更好、更健康的发展。但是也不得不承认我国初中历史教学中依然存在一些问题
树老根多,人老病多。退休后,颈椎病、糖尿病、慢性浅表性胃炎并发糜烂、巨幼红细胞性贫血、高血压、冠心病等等,疾病一个接一个地袭来,弄得我心事沉沉,苦不堪言。生命在于运
为确诊引起某养貂场的主要细菌性疾病,对山东省潍坊市某水貂养殖户送检的病死水貂进行剖检,根据病貂的临床症状、病理剖检变化及对分离纯化的细菌进行形态特征观察、生化试验
近几年,全国多地水貂养殖区出现一种以后躯共济失调,然后逐步发展为后躯麻痹,失去运动能力和知觉,咀嚼肌、颈部及枕部肌肉震颤,痉挛性收缩,颈部弯曲、有时向前伸展或转向一侧
会议
竞争消除(Contention Resolution)ATM 是面向连接的技术,ATM 交换系统内部的 ATM 交换结构通常也采用面向连接的选路方式。与同步数字时分交换不同,ATM 交换在预先建立虚连
摘要:小组合作学习的教学模式作为新课程标准所要求的重要教学模式被广泛应用,传统的小学教学模式已经不能够满足小学生的学习需要了,如何将小组合作学习正确应用,从而提高相应的教学效果,达到小学数学课堂预期的教学目标,是我们所要努力发展的方向,本文就将针对小学数学小组合作学习的有效性进行相应地探索。  关键词:教学手段;课堂积极性;教学方法;小学数学小组合作学习  一、小学数学小组合作学习教学模式重要内涵
山东毛皮动物养殖已有50多年的历史,但山东的毛皮质量并不高,与国内养殖发达地区及国外毛皮存在差距,山东毛皮产业的唯一出路就是要产业升级,养殖理念上今后一个时期的养殖专
一、概述未来的21世纪将是正规的多媒体社会,在这个社会里,不仅有文字、静止图像,而且有声音、活动图像之类各种各样大量的信息。这些信息,由于数字化就使得原来依赖于应用