基于词典的中文人名识别研究

来源 :北京师范大学 | 被引量 : 0次 | 上传用户：yvedy

【摘要】

：

中文未登录词识别问题是限制中文自动分词,文本的挖掘、聚类、过滤,机器翻译,信息抽取等技术成果进一步提升的关键要素之一。中文人名在未登录词中所占比例最重,它的识别,既

【作者】

：

刘天益

【机构】

：

北京师范大学

【出处】

：

北京师范大学

【发表日期】

：

2012年期

【关键词】

：

中文信息处理人名识别词典匹配词集优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

中文未登录词识别问题是限制中文自动分词,文本的挖掘、聚类、过滤,机器翻译,信息抽取等技术成果进一步提升的关键要素之一。中文人名在未登录词中所占比例最重,它的识别,既是重点,又是难点。　　本文首先说明了中文人名识别的研究背景,阐释了研究的重要性;之后归纳了研究现状,通过横向对比展现了当前的研究成果和依然存在的问题。之后的3-5章为本文所研究的主要内容:　　首先通过对语料库中中文姓名内部成词和外部成词的情况进行统计分析,得出了这两种成词近似随机的结论。然后提出了基于词典,以匹配词典中已登录词为手段的一个基本算法。接下来对基本算法进行测试,根据测试结果总结出了六点改进方案:补录了行政区名、外国国名和城市名以对地名集进行优化;通过进一步研究姓名内部成词情况对可为名的词集进行优化;对名的首字和末字的用字情况分析来对名首字集和名末字集进行优化;逐个分析各个姓氏对研究的贡献之后,剔除少量高错误率的姓氏以达到对姓氏集的优化;针对名中有姓的情况改变了算法初始匹配规则。再通过七个实验对六种优化一一进行评估,得到了较为满意的结果。最后实现了一个可视化工具,使得算法的效果更加直观。　　实验结果表明,本文提出的算法有其存在的价值。在没有经过语料训练,未加载分词模块,无须进行概率计算的前提下,对1998年1月人民日报语料库1-31日的超大规模全部语料进行测试,获得了58.56％的准确率和80.03％的召回率。体现了算法的广泛适用性和高召回率的特点。

其他文献

网络攻击规则及权限变更场景研究

随着计算机网络规模扩大及互联技术发展，网络安全受到严重威胁。传统的网络脆弱性分析方法己不满足当今的网络安全需求，深入研究网络系统中已知或未知计算机攻击及其对应的脆弱

学位

网络攻击脆弱性分析权限变更脆弱点分类访问权限

商品信息自动化比较搜索系统的设计与实现

随着互联网的兴起,全国已进入全民网购时代,商品信息自动化比较搜索系统作为一种开放的、异构的网购代理服务是具有切实意义的。它提供了一个门户使用户能够快速检索到符合需

学位

商品信息自动化比较搜索系统网络购物信息检索系统设计

维汉翻译中若干基本问题的研究

统计机器翻译(Statistical Machine Translation，SMT)是自然语言处理(Natural Language Processing，NLP)领域最困难的问题之一。为了让使用不同语言的人能更好地交流，机器翻译显

学位

维汉翻译语言特征词法分析拼写校对方法机器翻译

基于web医学图像可视化系统应用研究

随着计算机网络的技术和图像处理技术的迅速发展，外科诊断与治疗技术正在发生重大的改变。特别是传统医学软件与互联网技术的结合，使医学图像处理技术与理论有了很大的推进。　

学位

WEB技术医学图像可视化系统在线专家诊断手术操作指导

广域数据多一致性模型的研究与实现

互联网应用的用户数量越来越多,分布越来越分散,使得建立多个数据中心并采用多数据副本策略来支持不同地域用户高效访问应用的方式逐渐成为业界的共识。广域数据多副本部署方

学位

多一致性模型Paxos算法数据状态跟踪延迟读操作广域数据存储管理系统

基于OSGi的分布式服务自适应方法的研究

随着信息系统应用领域的发展，其应用环境日趋复杂，应用模式变化迅速。为了解决复杂多变环境中，软件应用服务跟不上需求变化的问题，迫切需要自适应的软件架构以适应复杂的应用环境

学位

互联网OSGi技术自适应系统分布式服务容量扩展更新效率生命周期

嵌入式智能消防系统的设计与实现

火灾的防范和早期火灾的发现是一个很重要的问题。传统的自动消防技术多采用感温技术、感烟技术，而忽略了火焰本身，存在着诸多不足。随着计算机技术的发展，图像处理、图像识别技

学位

嵌入式智能消防系统Webservice技术颜色分布算法图像处理识别判据

基于点云的建模与场景理解技术

随着激光扫描技术的发展，采用三维激光扫描仪获取单个物体，室内室外场景的三维点云信息已经成为可能，从而使得基于激光三维点云的建筑物建模，植物建模，以及在此之上的场景的理解和

学位

点云信息三维建模场景理解树木建模激光扫描

基于IPv6流标签对QoS的研究

随着实时业务的快速增长和业务形式的多样化，目前IPv4传统的“尽力而为”的服务模型已难以满足相关业务需求。首先，以资源共享为目标的核心协议(IP)难以更好地满足QoS保证的要

学位

IPv6协议流标签QoS技术TTL时间戳仿真实验

基于通联关系分析的诈骗电话识别技术

学位

基于词典的中文人名识别研究

与本文相关的学术论文