中文文本中地理实体属性信息抽取方法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:z315659288
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言是人类空间认知结果的最重要表现形式。作为一种最常用的自然语言载体,自由文本中蕴含着丰富的地理空间信息,包括地理命名实体、实体属性和实体间的空间关系等。从非结构化文本中获取结构化的空间信息不仅能够丰富GIS的信息来源,而且能够提升GIS的表达能力和可理解性。作为地理实体的形象化表达,实体属性是文本中最重要的地理信息之一。本文在综述国内外相关研究进展的基础上,重点探讨中文文本中地理实体属性信息的抽取方法。主要内容包括以下几个方面:   1、地理实体属性的结构化表达:结合现有GIS地理实体属性信息的描述模型与表达方法,分析地理实体属性信息运用自然语言描述涉及的元素及其语义结构,探求面向自然语言的地理实体属性信息结构化表达方式,设计地理实体属性标记语言,并制定地理实体属性信息标注规范。   2、地理实体属性信息抽取:针对文本中地理实体属性信息描述的特点,探求基于属性关键词和规则库驱动的属性抽取方法。在数据预处理和地理实体识别的基础上,先进行属性关键词的识别,再通过构建测试规则库和抽取规则库完成地理实体属性抽取的任务。   3、原型系统设计与实验验证:结合文本中地理实体属性的抽取方法,设计并开发了属性标注系统和抽取系统。属性标注系统基于GATE平台下的组件开发,该系统以设计的属性标注语言作为规范来进行标注,手工标注的数据作为标准数据用来验证抽取系统的效果。抽取系统的核心是地理实体属性抽取模块,包括预处理子模块、地理实体识别子模块、属性抽取子模块。属性抽取子模块中包含抽取所需的属性名关键词表和规则库等。最后验证分析表明,系统能够达到较高的抽取正确率和召回率。  
其他文献
一、基本案情当阳农行职工齐运才,男,现年52岁,中专文化程度,1968年参加工作,1986年加入中国共产党。齐于1996年8月31日在农行两河营业所担任信贷员时以两河营业所的名义在
1981年,我到北京参加全国连环画会,认识了贺老师。有一次,他来到广州在青年文化宫给我们这群漫画“发烧友”和连环画家开会。在会议上,他一直在表扬我,因为我的画当时在北京已经有一定的名堂了。当时几百人的会议,现在回想起来都非常感动。  第二次见面,是我专门去了中央美术学院探望他,在那里我们留下了第一幅合照。到了1985年,我的第一本插图集出版,亲自写信给贺老希望可以为我写序言,贺老师也十分认真地写了
加拿大摄影师Dan Lim在影像创造方面表现出了高超的技艺和魔幻般的诱惑力,用光影形色来塑造人物,表达出独特的时尚观点,古典而富有力度。他致力于创造一种带有含蓄叙述感的图
江泽民同志在《向中央政治局通报中央政治局常委“三讲”情况的讲话》中指出:“在我们国内,必须坚持和加强马克思主义在意识形态领域的指导地位。在指导思想上绝不能搞多元
为认真落实用科学理论武装人的战略任务,切实加强基层的思想政治工作,着力改变理论脱离实际、脱离群众的倾向,省委宣传部、讲师团大力倡导理论下基层,这无疑进一步开拓了理
在现今社会高速发展的背景下,我们似乎忘记了一种传统的装饰技法——墙绘,灵活多变又极具艺术价值。根据我们近期的研究与发现,我认为墙绘从开始走到今天,作为一个行业它尚未
西秦岭是青藏高原与陕西之秦岭的过渡地带,是中国中部重要的植被分布区。在自然区划上,与陕西之秦岭山地同属一个自然区。西秦岭的植被区系成分颇富独特之处,一是多种区系成分相
地表反照率表征了地球表面反射太阳辐射能量的能力,是影响地表能量收支平衡的决定性因素,对地气能量交换有很大的影响,是影响大气运动的最重要的因素之一,从而地表反照率深刻地影
城市是一个复杂的系统,城市及其周边的土地利用变化不但受到植被覆盖、地形等自然条件的限制,还会受到经济、人口、交通网络等社会条件的制约。未来10年西宁市将进入快速城市化
1 1922年11月,我出生在上海。父亲是个职员。母亲只生了我一个。  2我只有五岁时,妈妈就去世了。我仍依稀记得,出殡队伍里有不少戴红帽子的人,我捧着一个红漆的木盘,大人告诉我,木盘里竖的木牌是我的妈妈,我很不理解。我只觉得这队伍有趣。  3爸爸把我托给在宁波乡下的姑妈。姑妈待我似亲出。  4姑妈家里有一张很好看的床。  5姑妈有时带我到寺庙求神拜佛。我对那些表现阴曹地府无常、小鬼和种种刑罚的彩