基于构成模式的中文机构名识别

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:chier00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文机构名的识别是中文信息处理领域的一项重要课题,也是命名实体识别研究的重要内容之一。中文机构名识别对自然语言处理意义重大:首先,包括中文机构名在内的命名实体识别是影响汉语自动分词效果的因素之一,因此提高中文机构名的准确率可以有效提高汉语自动分词的准确性;其次,中文机构名识别还是信息抽取、信息检索、机器翻译等自然语言处理应用研究的基础。   目前,对于中文机构名的识别主要采取的是基于统计的研究方法,这些研究大都取得了一定成果,但是由于将研究重点放在建立统计模型上,而不是从语言本身着眼,因此都无法在识别效果上取得真正的突破。   中文机构名识别的难点主要在于其结构的复杂性,但是通过研究可以发现,这些复杂的结构是有规律可循的,并可以将其总结成若干的固定模式。本文的研究正是通过标注机构名录,总结中文机构名的构成模式,从而制定出基于构成模式的识别方法。除此之外,研究中还考虑了中文机构名的使用特点,即通过标注语料总结出哪些词可以出现在中文机构名的前面。   本文首先从总体上介绍了利用构成模式,对中文机构名进行识别要解决哪些问题,需要完成哪些工作。   接下来通过标注语料和标注机构名录,来研究机构名的结构特点和使用特点,并总结出了企业、高校及科研机构、中小学及幼儿园、政府机构等几种类型的机构名构成模式,并建立了识别需要使用的知识库,包括前通名词表、前边界词表、构成模式库、词语知识库、地名知识库。   最后,设计并实现了一个基于构成模式的中文机构名自动识别程序,程序利用C#编写,采取面向对象的编写方法。并通过真实语料对系统进行评测,取得了较好的效果,其中准确率、召回率、F值分别达到了82.5%,83.7%和83.1%。这说明利用构成模式,对中文机构名进行识别是一种有效、可行的方法。
其他文献
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
针对低成本标签不能兼顾安全性的问题,在研究现有安全机制的基础上,提出一种基于混合加密密值更新的RFID(射频识别)安全协议.在性能方面,该协议既吸取分布式RFID询问应答认证
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
广播电视艺术学学科的发展是广播电视行业发展的基础,需要在了解大众传媒的背景下,把握广播电视艺术学学科的走向。文章从科学研究、渠道研究、作者研究、内容研究、受众研究
学位
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
中国戏曲博大精深,历史悠久,是我国重要的非物质文化遗产。作为一种文化遗产,戏曲具有传承性。戏曲传承最直接的方式就是戏曲教育,本文试图通过对河南地方戏戏曲教育团体窝班
学位
本文采用语篇分析等方法研究连接范围为超句子的连词。得出的主要结论是:连词在复句层面的连接意义与超句子层面不完全对应;在书面语与口语中,语篇连接连词的连接功能有不同的
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
期刊
从1992年引进大陆的台湾电视连续剧《戏说乾隆》开始,戏说逐渐成为我国历史题材电视剧创作的重要组成部分,也逐渐成为一种典型的当代社会文化现象。本文将戏说作为研究对象,