中文百科文本蕴含地理实体关系抽取方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：jjjjjjj7

【摘要】

：

知识服务逐步成为地理信息系统新的价值目标。建立地理实体间丰富的语义关联，是保障知识流动和服务精准的关键技术之一。文本是知识传播的主要载体。近年来，随着互联网的普及，网

【作者】

：

余丽

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

中文百科文本地理实体关系信息抽取语料库构建

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

知识服务逐步成为地理信息系统新的价值目标。建立地理实体间丰富的语义关联，是保障知识流动和服务精准的关键技术之一。文本是知识传播的主要载体。近年来，随着互联网的普及，网络文本成为高效、实时的知识传播媒介。如何从网络文本中快速自动化获取信息成为业界关注的热点。而网络文本蕴含海量地理信息抽取，也成为新地理信息时代泛地理信息采集的新兴技术。　　网络文本蕴含地理信息的抽取质量，在很大程度上取决于地理空间关系的抽取或推理结果。构建可靠、智能的地理实体关系抽取方法，有助于实现非结构化文本向结构化地理信息的转换，以提升地理知识的有效利用率，进而支持地理知识服务，帮助政府管理部门、科研工作者和社会公众更好地感知社会动态、获取地理相关知识，满足国民经济建设与社会发展对地理信息现势性和延展性要求。　　百科平台是网络环境下集成与分享知识的有效途径。从海量的百科知识中智能抽取地理信息首先需要解决地理实体关系抽取问题。然而，当前基于百科平台抽取地理实体关系的研究存在如下不足:(1)地理实体关系抽取需要地理空间数据的支持。虽然存在丰富的数据源可提供大量地理空间数据，但是“语义异质性”问题导致互补数据间的关联丢失且冗余数据未被识别，严重阻碍了地理信息共享。地理空间数据缺乏一个从概念、属性到实例的集成对齐系统。(2)中文地理实体关系标注语料库的匮乏严重影响了关系抽取方法的模型训练效果。传统手工构建语料库的方法不仅耗时费力，而且难以保证规则的可靠性和完备性，极大影响了语料库的大规模和平衡性，无法保障开放式地理实体关系抽取过程中特征选择的时效性。需要提高地理实体关系标注语料库构建的自动化水平。(3)自然语言用字分散，中文等语言环境下词语之间没有分隔符，语义表达形式多样，增加了地理实体关系抽取的难度。同时，百科文本蕴含地理实体关系的分布异质性极强，掩盖了语言的真实规律，会影响到地理实体关系抽取方法的准确性。百科文本蕴含地理实体关系分布的“稀疏性”问题尚未得到关注。　　本论文针对上述地理实体关系抽取面临的挑战，从地理知识服务的实际应用需求出发，依托国家高科技研究发展计划(863)重大项目课题“位置信息搜索与智能服务技术”(2012AA12A211)和国家自然科学基金重点项目“网络文本蕴含地理信息理解与知识图构建”(41631177)，借鉴当前自然语言处理、机器学习、互联网空间信息搜索等领域的最新研究成果，以中文百科文本为数据基础，开展地理实体关系抽取方法的研究。论文的主要工作和创新点包括:　　(1)针对开放地理空间数据集不同类型的地理对象存在语义异质性问题，构建了地理空间数据对齐的集成框架。该框架利用多维信息度量空间和语义相似性，结合投票选举和协同增强策略，可一次完成概念、属性和实例的匹配，聚合多种相似性度量方法时避免了人工调参，降低了地理空间数据对齐任务对指定信息的依赖性，适用于信息分布失衡的数据对齐。　　(2)针对地理实体关系语料库构建成本高昂的问题，基于回标技术提出了一种地理实体关系语料库的自动构建方法。该方法在获取种子关系元组时引入对齐的OpenSteetMap、Geonames和DBpedia，借助多源信息蕴含的丰富地理实体属性，大幅扩充了种子地理实体关系的类型和数量，缓解了百科信息框长尾效应对自动构建地理实体关系语料库的负面影响。　　(3)针对地理实体关系抽取结果受限于语料库规模的问题，以自动生成的小规模地理实体关系语料为基础，基于bootstrapping技术提出了一种语料自扩充的地理实体关系抽取方法。该方法保证了特征统计结果的显著性，有利于成功筛选出更合适的特征，减少关系抽取过程中的干扰信息。同时，在缺乏大规模真值的情况下，采用bootstrapping技术实现了方法的定量化评价。　　(4)针对地理实体关系分布稀疏的问题，提出了一种语境增强的地理实体关系抽取方法。该方法借助开放地理资源自动构建了细粒度地理实体类型表，结合同义词词典降低了词语分布的稀疏性，减少了地理实体关系抽取过程中的噪声信息。同时，该方法在特征选择过程中引入词语的词性、位置、长度和语境信息，多角度增强词语的区分能力，提高了地理实体关系识别的准确性。

其他文献

发挥团队组织育人功能关注未成年人健康成长

为充分发挥共青团、少先队组织在未成年人思想道德建设中的重要作用,结合共青团和少先队工作实际,我们主要做了以下几方面工作:积极开展思想道德教育活动。我们把爱国主义、

期刊

团队组织法定节日思想道德建设道德教育活动仪式教育民族精神历史人物道德实践活动团队活动道德素养

东亚地区不同土地覆盖下NPP对气候变化的敏感度分析

自从工业革命以来，由于人类生产、生活的影响，化石燃料的燃烧，CO2等温室气体的排放量急剧上升，全球气候已经发生显著变化。植被净第一性生产力(NPP，NetPrimaryProduetivity)是绿色

学位

气候变化时空格局大气环流因子奇异值分解多元回归分析遥感东亚地区

区域可持续发展的生态承载力研究

该文在对生态承载力与可持续发展讨论分析的基础上,提出生态承载力应作为可持续发展的支撑理论,并从理论和实际两方面对生态承载力进行了探讨与研究.全文主要内容包括如下几

学位

生态承载力可持续发展黑河流域

土壤水分对紫花苜蓿和羊草形态特征及生物量分配的影响

我国北方农牧交错带地域广阔,是对国民经济和生态环境保护极其敏感和至关重要的前沿阵地,保护和发展的地位十分重要。本论文选择在农牧交错带发展人工草地的2种主要草种紫花

学位

紫花苜蓿土壤水分羊草特征生物量分配

城市生态经济系统碳循环及其土地调控机制研究——以南京市为例

面对当前全球气候变化和国际碳减排的压力，如何协调经济发展与环境保护的关系、促进碳减排、发展低碳经济成为我国经济社会发展面临的突出问题。为此，我国政府明确提出“2020年

学位

城市生态经济系统碳循环土地利用调控机制

关键在落实——谈司法行政机关如何抓好党风廉政建设责任制

要抓好党风廉政建设,关键是看落实,重点要抓好教育这个前提,以制度建设为基础,以明确责任为保证,牢牢抓住责任追究这个关键环节,从而使党风廉政建设工作真正落到实处,促进司

期刊

司法行政机关司法行政工作制度建设班子其他成员遵纪守法意识任期目标学习教育劳教人员组织学习观念问题

基于多源空间信息的青藏高原冻土图精度评价及改进

冻土是冰冻圈的重要组成部分，也是冻土区地气能量交换过程中的一个重要因子，而青藏高原分布的高海拔多年冻土约1.59×106km2，是中国多年冻土总面积的74％。近年来人类工程活动的日

学位

青藏高原冻土图多源空间信息制图精度技术改进

翟惠生:国际新闻中心给记者“家”的感觉

奥运会结束,北京国际新闻中心(BIMC)的使命也告一段落。在这个过程中,北京国际新闻中心主任翟惠生也实现了自己将BIMC打造成“记者之家”的承诺。记者:能否简单介绍一下奥运

期刊

国际新闻中心新闻中心主任个别采访境外记者中国传统文化新闻发布会图书资料自助银行酒店预订忙不过来

新时期党员先进性体现在哪?

新时期共产党员的先进性的主要内容和要求是什么呢!最根本的就是做学习实践“三个代表”重要思想的表率,进一步坚定共产主义理想信念,进一步发挥共产党员的先锋模范作用,还必

期刊

先锋模范作用政治信念党的宗旨道德品行人民群众组织纪律道德操守人格魅力和平建设时期物质利益

确立科学人才观做好年轻干部的培养工作

当前,我们正面临建设和谐社会的重要时期,确立科学人才观,做好年轻干部的培养工作,对推动丹阳水利全面、协调、可持续发展十分必要。笔者认为做好年轻干部的培养与选拔工作,

期刊

科学人才观水利事业领导干部队伍选人用人机制用人标准干部交流任职年龄水利系统人民公仆学习力

中文百科文本蕴含地理实体关系抽取方法研究

与本文相关的学术论文