【摘 要】
:
中文未登录词识别问题是限制中文自动分词,文本的挖掘、聚类、过滤,机器翻译,信息抽取等技术成果进一步提升的关键要素之一。中文人名在未登录词中所占比例最重,它的识别,既
论文部分内容阅读
中文未登录词识别问题是限制中文自动分词,文本的挖掘、聚类、过滤,机器翻译,信息抽取等技术成果进一步提升的关键要素之一。中文人名在未登录词中所占比例最重,它的识别,既是重点,又是难点。 本文首先说明了中文人名识别的研究背景,阐释了研究的重要性;之后归纳了研究现状,通过横向对比展现了当前的研究成果和依然存在的问题。之后的3-5章为本文所研究的主要内容: 首先通过对语料库中中文姓名内部成词和外部成词的情况进行统计分析,得出了这两种成词近似随机的结论。然后提出了基于词典,以匹配词典中已登录词为手段的一个基本算法。接下来对基本算法进行测试,根据测试结果总结出了六点改进方案:补录了行政区名、外国国名和城市名以对地名集进行优化;通过进一步研究姓名内部成词情况对可为名的词集进行优化;对名的首字和末字的用字情况分析来对名首字集和名末字集进行优化;逐个分析各个姓氏对研究的贡献之后,剔除少量高错误率的姓氏以达到对姓氏集的优化;针对名中有姓的情况改变了算法初始匹配规则。再通过七个实验对六种优化一一进行评估,得到了较为满意的结果。最后实现了一个可视化工具,使得算法的效果更加直观。 实验结果表明,本文提出的算法有其存在的价值。在没有经过语料训练,未加载分词模块,无须进行概率计算的前提下,对1998年1月人民日报语料库1-31日的超大规模全部语料进行测试,获得了58.56%的准确率和80.03%的召回率。体现了算法的广泛适用性和高召回率的特点。
其他文献
随着计算机网络规模扩大及互联技术发展,网络安全受到严重威胁。传统的网络脆弱性分析方法己不满足当今的网络安全需求,深入研究网络系统中已知或未知计算机攻击及其对应的脆弱
随着互联网的兴起,全国已进入全民网购时代,商品信息自动化比较搜索系统作为一种开放的、异构的网购代理服务是具有切实意义的。它提供了一个门户使用户能够快速检索到符合需
统计机器翻译(Statistical Machine Translation,SMT)是自然语言处理(Natural Language Processing,NLP)领域最困难的问题之一。为了让使用不同语言的人能更好地交流,机器翻译显
随着计算机网络的技术和图像处理技术的迅速发展,外科诊断与治疗技术正在发生重大的改变。特别是传统医学软件与互联网技术的结合,使医学图像处理技术与理论有了很大的推进。
互联网应用的用户数量越来越多,分布越来越分散,使得建立多个数据中心并采用多数据副本策略来支持不同地域用户高效访问应用的方式逐渐成为业界的共识。广域数据多副本部署方
随着信息系统应用领域的发展,其应用环境日趋复杂,应用模式变化迅速。为了解决复杂多变环境中,软件应用服务跟不上需求变化的问题,迫切需要自适应的软件架构以适应复杂的应用环境
火灾的防范和早期火灾的发现是一个很重要的问题。传统的自动消防技术多采用感温技术、感烟技术,而忽略了火焰本身,存在着诸多不足。随着计算机技术的发展,图像处理、图像识别技
随着激光扫描技术的发展,采用三维激光扫描仪获取单个物体,室内室外场景的三维点云信息已经成为可能,从而使得基于激光三维点云的建筑物建模,植物建模,以及在此之上的场景的理解和
随着实时业务的快速增长和业务形式的多样化,目前IPv4传统的“尽力而为”的服务模型已难以满足相关业务需求。首先,以资源共享为目标的核心协议(IP)难以更好地满足QoS保证的要