中文地名与时间的识别和标注

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:yiran87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
地名与时间信息是描述事件背景内容的两个关键信息。正确地识别地名与时间表达式,将有助于中文分词、未登录词识别、命名实体识别等处理性能的提高。同时,这一工作也是信息检索、内容抽取、问答系统等工作的基础,研究意义重大。中文地名与时间表达式在实际语料中出现的形式灵活多样,使其成为处理的难点。   本文设计并实现中文地名与时间表达式的识别与标注系统。文章在充分挖掘中文地名与时间表达式各自组成结构和上下文信息的基础上,首先通过统计与规则结合的方法进行初次识别,之后再对初次识别结果应用最大熵模型进行二次分析得到最终结果。在最大熵模型方面,引入了语义概念知识,提高模型整体识别效果。最后,本文研究了中文地名与时间表达式的标注工作。   具体而言,本文的主要研究内容和进展包括:   1、实现了中文地名识别系统。通过对大量中文地名有针对性地进行训练并分析地名的组成特点,应用N元文法的方法实现地名的初次识别,得到召回率大于97%的地名初次识别结果。再通过应用最大熵模型,结合不同方面的多种特征进行处理。经实际语料测试,对中文地名的最终结果F值达到88%(封闭),84%(开放)。   2、在最大熵模型特征选择方面,引入HNC概念属性。实验数据表明,HNC概念属性特征加入后,识别效果提高了1%。同时本文还使用了变长的特征窗口,给出了在小规模测试集上对中文地名的识别结果并进行了分析。   3、实现了中文时间表达式识别及标注系统。与中文地名的识别类似,本文先分析了时间表达式的组成结构,在TIMEX2等国际通用的时间标注规范的基础上,完善了中文时间表达式的定义。通过正则表达式及最大熵统计模型的方法进行识别,识别结果F值约为81%(封闭)。对于识别正确的时间表达进行标注,应用并实现TIMEX2标准的标注方法,在实际语料标注中,标注F值达到86%。最后本文还研究了时间表达式与事件发生时间的关系。   4、在中文地名与时间表达式识别的基础上,研究了中文地名的标注。设计并制作了地域信息知识库。包含中国地名的人口、面积、经纬、邮编、区划等方面。并以地域信息知识库指导地名的标注。   综上所述,本文分析地名及时间表达式各自的组成结构特点,之后对地名和时间表达式都采用两级识别的模式进行识别。在此基础上,又分析了对地名和时间表达式各自的标注工作。本文的研究结果可以作为独立系统完成地名与时间表达式的识别和抽取,也可以作为中文分词、文本检索以及机器翻译等语言信息处理系统的一部分或一个模块。
其他文献
机载下视线阵三维合成孔径雷达成像系统是一种新型SAR成像系统,与传统的二维SAR成像系统相比,该系统可以克服阴影效应,能够对复杂地形和变化剧烈的区域进行三维成像。该成像系统
学位
现今,生物识别技术的应用变的越来越广泛,已经渗透到生活的各个领域。虹膜识别被认为是精确度较高的生物识别技术之一,目前已经取得了巨大的发展。虹膜识别系统包括:虹膜获取
导航是引导运载体从出发地到目的地的技术,惯性导航作为一种完全自主式的导航技术具有广泛的应用。捷联式惯性导航系统作为一种无物理平台的惯性导航系统,相比平台惯导系统具有
学位
网格QoS(Quality of Service)技术用于解决如何在动态的、由处于不同控制域的各种资源构成的网格计算环境中保证各种应用和用户的服务质量要求。资源预留是在资源难以满足所
研究地球表面各种物体电磁波辐射特性是遥感技术的一项极重要的基础,而对这些特性的提取和保存成为更加艰巨的任务,也是推动遥感技术发展必不可少的工作。用光谱信息实现地物识
烟叶腺毛和腺毛分泌物与烟叶香气质和香气量的形成关系非常密切。通常腺毛密度大、发育状况好及腺毛分泌物多的烟叶香气浓郁、纯厚、饱满。研究不同品种烤烟在生长过程中腺毛
学位
空气中氡对人体健康的影响已经引起广大公众的广泛关注,对氡的监测和防护成为多学科共同关心的问题,所以研制高效、稳定、准确的测氡仪是关键。α能谱测氡仪以其精确性强,适
学位