基于规则的中文四字姓名识别研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户：mzl521fnn1314

【摘要】

：

随着时代的发展，中国独生子女们到了结婚生子的高峰期，对于同为双方家庭里的“独苗苗”，下一代该随母姓还是随父姓，年轻夫妇已很难抉择。有的干脆是父姓母姓加在一起，成为了孩子的

【作者】

：

刘兴义

【机构】

：

内蒙古师范大学

【出处】

：

内蒙古师范大学

【发表日期】

：

2012年期

【关键词】

：

实体识别人工智能规则库构建算法训练语料标注中文四字姓名

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着时代的发展，中国独生子女们到了结婚生子的高峰期，对于同为双方家庭里的“独苗苗”，下一代该随母姓还是随父姓，年轻夫妇已很难抉择。有的干脆是父姓母姓加在一起，成为了孩子的姓氏。而姓名，也就从传统的2个字或3个字变成了4个字。起四字姓名成取名流行趋势。因此，人们迫切需要一些自动化工具对四字姓名领域的海量信息进行处理。由于四字姓名特殊结构，以及随机性比较大。因此，如何从海量的信息中正确识别出四字姓名是一个非常有意义的研究课题，也是其它相关研究的重要基础。　　四字姓名识别是命名实体识别的一个组成部分。现阶段国内外在命名实体识别方面已经有大量的研究工作，尤其是在人名、地名和机构名的识别上。而在2000年以后中国内地的一些思想开放的年轻夫妇，为了强调男女平等，在为新生儿取名时采用“父姓+母姓+双名”和“单姓+三字名”的格式，这种命名格式在人口普查中大量出现。因此，为了准确、全面地识别出四字姓名，我们需要全方位了四字姓名的特征，并借鉴已有的命名实体识别技术来设计一个中文四字姓名识别系统。　　本文研究了中文命名实体识别方法在四字姓名领域相关Web信息中的应用，以便人们能够陕速、准确地将分散在不同网页中的四字姓名抽取出来。本文主要在以下三个方面开展了工作：　　第一，通过四字姓名实体及上下文的特点，本文提出了一种半自动的训练语料标注方法。该方法的主要思想是先将含有四字姓名的原始文本进行分词；然后使用自定义的宏对文本中的四字姓名进行标注，从而生成我们所需要的训练语料。　　第二，由于四字姓名构成形式多样，很难在姓名的内部组成结构中提出通用性的规则。而在四字姓名的上下文中存在着大量的边界规则。其思想为：本文提出一种先由机器自动提取规则，再由人工进行筛选的规则库构建算法。　　最后，通过姓氏字典匹配对识别结果进行修正。该方法可以解决基于规则的识别方法中不能同时兼顾边界词语义信息的准确性，从而提高四字姓名的准确率和召回率。　　本文在上述工作的基础上实现了四字姓名实体识别系统。通过测试发现，该系统具有良好的准确率和召回率，证明本文所提出的方案具有一定的研究意义和实用价值。

其他文献

多层隐类模型的增量学习方法

使用隐类模型进行聚类分析是一种很重要的方法,它使用隐变量来表示已知的显变量之间的关系,能有效地处理可测数据之间的隐含信息,有很大的实用性目前有许多关于含有隐变量的

学位

多层隐类模型增量学习数据适应度马尔科夫覆盖

基于网络的分布式入侵检测系统设计与实现

该文提出一种具有良好分布性能和可扩展性的基于网络的入侵检测系统,它由网络探测器、控制台、分析系统、响应系统和存储系统五大部分构成,各部分在控制台的协调下有机地结合

学位

入侵检测网络探测器模式匹配

自适应业务分级转发控制技术研究及实现

路由器在稳定网络中能够提供可靠的数据转发服务,在特定网络环境下保持性能最优。而在动态变化的网络环境中,路由器提供的路由和队列调度策略则不具备根据网络环境变化而自动

学位

队列调度队列规定流量控制流量整形业务分级

红外图像注入系统的设计及实现

红外告警图像处理系统在交付用户使用之前，必须完成对红外告警设备的检测，而对设备的检测需要外部红外威胁环境的紧密配合。如通过现场试验来构建威胁环境，不仅成本很大，且不可能

学位

红外图像注入系统FPGA技术双缓存CameraLink标准USB2.0接口

全局比对软件MUSCLE并行化研究与实现

序列比对是生物信息学中最基础的一种实验过程，这对于根据序列进行深入的生物学意义的研究，如保守区或者功能基序的判定与评价、遗传疾病的分析、系统发育分析和功能预测，具有十

学位

序列比对图形处理器耗时函数加速模块化加速运行效率

基于知识库的文本可视分析

作为一个科研工作者，要掌握整个研究领域的热点主题和发展趋势，需要阅读大量的文献论文。尤其是在将自己的科研成果应用到其他领域时，科研人员需耗费大量时间和精力去探索自己不

学位

文本信息可视分析知识库主题模型数据挖掘

基于ESB的物流业务平台的设计与实现

随着企业应用集成(EAI)技术以及WebService技术的成熟和发展,基于SOA(面向服务的体系结构)的松散藕合的软件体系结构成为企业信息系统发展的重要方向。相对于普通的SOA技术,

学位

企业服务总线面向服务Web服务物流平台

运动模糊视频的复原技术研究

随着科技的发展和社会需求的增加，各种数字成像设备在我们生活的方方面面都得到了广泛的应用。在伴随照片和视频数量剧增的同时，其中所包含的运动模糊也变得更加普遍象。运动模

学位

视频图像图像识别目标跟踪图像处理

巧用新型镜头

随着科学技术的不断发展,可供摄影记者拍照的镜头应有尽有。在拍摄新闻照片时,根据表现主题的需要巧用各种类型的镜头,不仅能够改变千篇一律的单调画面,同时能增强照片的感

期刊

摄影记者组题视觉中心微距摄影拍摄方法三上三下魏铁合台文字说明

基于SOA的服务组合研究与平台设计

随着生产力和科学技术的发展,现代产业创造价值的增长点已经逐步转向服务的革新,世界经济已经从工业时代进入服务时代。服务科学是一门整合传统服务相关学科技术,提高服务产

学位

服务组合服务组件架构业务流程执行语言服务组合验证

基于规则的中文四字姓名识别研究

与本文相关的学术论文