网络中文文本蕴含地理实体关系的无监督抽取方法

来源 :第六届全国地理信息科学博士生学术论坛 | 被引量 : 0次 | 上传用户:virusniper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地理实体是国家基础地理信息数据库的基本组成部分,也是地图服务矢量化表达的重要形式,而地理信息则是有关地理实体的一切有用知识.随着传感器、定位、互联网等技术的不断发展,地理信息已经成为人们生活的必需品,在位置服务(LBS)领域发挥着重要的作用.新地理信息时代,人们对地理实体的内容描述更加丰富、时空刻画更加精细、更新频率更加迅速.一方面,相比传统的点、线、面表达方式,泛化后的地理信息聚合了多源异构的资源,如音频、视频、图片、评论、问答等.另一方面,相比传统的只关注单个地理实体信息,泛化后的地理信息更加关注地理实体之间复杂的关系,如类别隶属、空间拓扑和语义关系等.近年来,移动互联网时代的来临引发了基于位置服务的热潮,O2O(Online to Offline)和SoLoMo(SocialLocation Mobile)模式也随之兴起,人们对地理信息的需求变得更加迫切.然而,目前国内各大地图数据服务提供商(如四维图新、天地图、百度、高德等)提供的地图数据缺乏地理实体之间的关系描述,千万级的地理实体存储“扁平化”,导致位置服务应用中地理信息检索依赖于关键词,不能有效发挥基于实体关系的地理知识图谱搜索的优势,极大地限制了位置服务的能力.同时,地理信息的采集大多依靠传统的测量手段,地理实体的关系抽取还缺乏行之有效的措施.开放文本(如微博、百科、论坛、博客等)为实现地理实体关系抽取的自动化提供了可能.因此,如何识别并抽取地理实体间的空间和语义关系,构建铰链的地图数据库,改善基于位置服务的用户体验,是地图服务行业面临的共同问题.关系抽取作为信息抽取技术的重要研究课题和知识图谱的构建基础,国内外研究学者已开展了大量研究,并已服务于人们的日常生活,如微软亚洲研究院的人立方关系系统、雅虎关系搜索、腾讯好友关系链等.在地理实体关系抽取方面也取得了初步的研究成果,如GeoWordNet、OSM Semantic Network、GeoName Semantic Web等.目前,实体关系抽取的方法分为三类:基于模式匹配的方法、有监督和无监督的机器学习方法.模式匹配需要对语料库进行深入分析,人工抽取组织关系模式,优点是准确性高,但是需要耗费大量的人力物力,不适用开放文本大范围的关系抽取研究.相比模式匹配的方法,监督学习方法在提取速度及准确率上都有所提升,但是该类方法需要人工标注的且具有一定规模的语料库,由于开放文本涉及的文本繁杂,长文本、短文本、网络用语等增加了语料库构建难度.针对开放文本的地理实体关系抽取问题,无监督的机器学习方法人工干预少,不需要标注语料,能以独立于数据的方式工作,可直接揭示观测数据的内部结构和规律,因此对无监督的语义关系抽取方法已开展了大量的研究.部分研究者将语义关系抽取看做是语义聚类的过程,通过计算词频、词法或句征的相似性将实体对分组,进而提取组内的关系名称.如何设计有效的权值计算方法提取出准确的关系名称是其主要难点.无监督的空间关系抽取工作少有报道,现有的方法依赖于英文的空间本体,因受限于高质量的中文空间本体的可得性,无法移植到中文语料.目前,中文的空间关系抽取仍停留在监督的学习方法上,高成本的语料标注工作难以满足海量多元的网络文本关系抽取的要求. 针对中文的语义和空间关系抽取问题,本文将实体关系抽取转换成关键词提取的问题,实现了一种无监督地理实体关系抽取方法:对于句中的每一对地理实体,首先提取该句中的所有名词、动词和介词作为关系的候选关键词;然后基于向量空间模型,使用候选关键词构建词语-语境矩阵;并在基于词频统计的关键词提取方法中引入词语的位置、长度和词性的重要性,计算每个词语在当前语境中的权值,选择当前语境中权值最大的词语作为关键词;接着,借助词性识别出句中的空间词,同时根据关键词和空间词在句中的位置,按照句子原始的逻辑,调整各元素的顺序,自适应地构建关系元组;最后使用新浪旅游景点名称和百度百科简介进行了中文的地理实体关系抽取的实验,分析了Frequency、TF-IDF 和PPMI 三种权值计算方法在引入新特征前后关系抽取的性能差异.结果显示:在解决中文的语义和空间关系抽取问题时,引入词语的位置、词长和词性重要性有利于提升基于词频统计的关键词提取方法的正确率(增长20%).此外,关系元组的重构保证了实体关系的语义表达的逻辑性,自适应的组织形式增强了地理实体间空间关系描述的完整性,有利于提升计算机对文本的理解和认知水平.
其他文献
中国南方喀斯特属世界上集中连片、典型多样的热带喀斯特,具有高品位的景观资源和遗产价值,迫切需要人类的保护与传承。“中国南方喀斯特”是中国政府向联合国教科文组织世界遗产委员会提出分批次申报的世界自然遗产项目,该项目从世界自然遗产视角,对中国南方喀斯特景观、地貌与洞穴、生物生态等方面进行了系统研究和对比分析,论证了其突出的真实品质和显著的全球价值,满足世界自然遗产申报的自然美与美学重要性、地质地貌特征
中古8井区位于塔里木盆地塔中Ⅰ号断裂带西北部。对28口井岩心、测井、试油资料统计发现:良里塔格组和鹰山组一段为主要储层段,岩性以砂屑灰岩、泥晶灰岩为主;储集空间以微裂缝、小缝和溶洞为主。其中裂缝主要表现为高角度缝和网状缝,主要沿北西—南东向和北东—南西向发育。中古8井区主要发育北西—南东向逆冲断裂和北东—南西向走滑断裂,具有多期性和多样式性特点。溶蚀水沿鹰山组顶面风化壳附近裂缝系统进行淋滤、溶蚀,
紫茎泽兰( Eupatorium adenophorum Spreng) 是菊科泽兰属多年生草本植物,又名破坏草、解放草,是我国“三大毒草”之一。自20 世纪40~50 年代由缅甸、越南边境传入云南南部,现已广布我国西南各省区,具有破坏性大,影响广泛等特点。对当地的农业生态系统造成了严重影响。紫茎泽兰的防除研究已在生态学研究领域受到广泛关注。但是对于喀斯特地区独特的地理环境,即具有分布连续的碳酸盐
利用矩形堰、温度计对湘西洛塔岩溶地下河流量、水温进行了动态观测,同时采用雨量器对降雨量进行了记录,并对地下河水、雨水水化学进行了分析。结果表明,地下河对降雨变化比较敏感,表现在地下河水流量随降雨量的变化而变化,具有一定的季节变化规律;场雨的降雨量、降雨强度越大,流量动态变化幅度越大且流量动态滞后时间越短。大气降雨经饱水岩溶带之后,地下河水pH 成为弱碱性水,Ca2+、HCO3-、HB、TDS 均显
地下水监测网不仅动态实时的提供了地下水信息(地下水补、径、排条件和水质现状等),在某种程度上揭示了地下水动力场和水化学场的变化趋势,而且为地下水资源评价、科学管理及环境地质问题的科学研究提供了重要来源,同时也为决策者的管理提供了一定的参考依据。但是,目前水位下降、水质污染、地面沉降、水库诱发地震等问题越来越严重,这些都从侧面暴露了现有地下水监测网存在的一些弊端。桂林海洋-寨底岩溶地下河系统试验基地
会议
为了了解岩溶区土壤中重金属Cd 形态分布特征,在桂林毛村人类活动稀少区采集了黑色、棕色、红色三种石灰土。通过原子光谱仪测试了Cd 全量,运用改进的Tessier分析法测定了三种石灰土中Cd 的有效态、碳酸盐结合态、铁锰氧化态、有机结合态及残渣态等5 种形态,并对其影响因素进行了分析。结果表明:三种石灰土中Cd 全量大小依次为黑色石灰土>棕色石灰土>红色石灰土。形态测试结果表明,黑色石灰土和棕色石灰
为加深对溶解无机碳(Dissolved Inorganic Carbon,DIC)在岩溶水库水体中的循环转化过程的理解,2013 年8 月对位于南亚热带岩溶区的广西大龙洞水库沿流程方向不同地点水体进行现场分层监测、实验研究.大龙洞水库位于广西上林县西燕镇,水库始建于1958 年,为围堵峰丛谷地边缘岩溶漏斗、落水洞等形成,无明显地表工事.主要由三条岩溶地下河及一条由非岩溶区水库间歇性供水的地表河补给
滑坡是一种在三峡库区频繁发生的地质灾害,严重威胁着人民群众生命财产安全和三峡大坝的正常运行,一种有效和精确的滑坡位移预测方法能够有效缓解滑坡灾害造成的影响.本文通过分析滑坡位移与降雨和库水位等影响因素之间的综合响应,将小波变换算法、粒子群算法和支持向量机算法结合,构建出WT-RS-SVR优化模型,对树坪滑坡位移进行预测,其预测结果的平均绝对误差和平均相对误差分别为4.475cm和7.378%,均方
洪水灾害是指降水造成的河水冲垮堤坝、淹没耕地、冲毁房屋或突发的山洪冲毁耕地、冲走人畜等现象.洪水灾害是当今最为严重的自然灾害之一,具有发生频率高、危害范围广、对国民经济影响最为严重等特点.我国是世界上洪灾发生最频繁的国家之一,约有10% 国土面积、5 亿亩耕地、5 亿人口、100 多座城市、全国70%的工业农业总产值受到洪灾的威胁.洪水的发生大多具有一定的突发性、持续时间短,灾害的地理位置易于辨识
干旱不仅影响生态系统结构、功能与过程的变化,而且严重干旱深刻地影响农业生产、水资源、旅游业甚至人类福祉.研究指出未来一百年全球干旱等极端气候事件发生的频率和强度都将增加.然而当前对于这些低概率、高影响的极端气候事件(包括极端干旱)对自然和人类系统影响的相关研究却很有限.南四湖近30年来南四湖干湖事件频发,干旱趋势愈加明显。干旱造成南四湖湿地景观短期内变化显著。湿地植被面积、NDVI和湿地水面面积都