基于姓氏优先级的中文姓名自动识别

来源 :2005中国计算机大会 | 被引量 : 0次 | 上传用户：zhangsen168

【摘要】

：

该文针对姓名样本库和姓名语料库统计姓氏的各种概率信息，得到了姓氏的三组数据 X(i)、Y(i)、Z(i)，分别表示姓氏的常用程度、姓氏字的常用程度、该姓氏字在真实文本中成为真姓氏的概率。利用这三组数据，我们提出了基于姓氏优先级的中文姓名识别方法。基于本文开发的中文姓名识别系统在实验中召回率和准确率分别为 80.61﹪、89.27﹪，达到了一定的实用性。

【作者】

：

余祖波高庆狮方淼

【机构】

：

大连理工大学计算机系，大连116023 大连理工大学计算机系，大连116023;北京科技大学智能语

【出处】

：

2005中国计算机大会

【发表日期】

：

2005年10期

【关键词】

：

中文姓名识别未登录词识别姓氏优先级

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

PageRank算法的分析与改进

本文对 Google 的 PageRank 算法进行了综合性研究，阐述了 PageRank 算法的原理，分析了 PageRank 值的计算公式，提出了工程计算 PageRank 值的方法。通过分析 PageRank 算法存在的不足，对 PageRank 算法进行了改进,提出了新的计算 PageRank 值的公式。比较表明，新公式计算的结果更加具有客观公正性。

会议

PageRank算法算法改进排名Jacobi搜索引擎

基于分类能力的属性约简算法

粗糙集理论是处理模糊和不确定知识的有力工具。知识约简是粗糙集理论研究中的重要内容之一，本文提出一个基于等价类的分划与覆盖，评估、选择条件属性分类能力的约简算法, 并证明了该算法的完备性；根据实际应用的特点，算法的设计易于用 SQL在 RDB 中实现，通过例子分析,表明该算法是有效的。

会议

粗糙集属性约分类能力

卫星链路上TCP改进研究综述

卫星网络通信具有地面网络所不具备的优势，包括：全球覆盖、带宽弹性、可靠和多播能力。然而，卫星网络特征，如高带宽、长传播延时、信道干扰和带宽不对称对 TCP/IP 性能造成了新的威胁。目前，已经提出和实现了许多 TCP 增强来解决这些卫星相关的挑战。描述了影响 TCP 性能的卫星链路特征。本文讨论了在改善卫星链路以及其他表现出与卫星链路相似特征的网络路径上 TCP 性能方面所作的工作。最后，讨论了其

会议

卫星链路拥塞控制差错恢复

准属性粒度的多级关系数据模型

在支持强制访问控制的数据库管理系统（多级安全 DBMS）中，为了避免违反强制安全策略的隐通道通讯，必须把传统的关系模型改进为多级关系数据模型。目前提出的各种多级关系数据模型都有不同的缺陷，难于在实际的多级安全 DBMS 中采用。本文提出了准属性粒度的多级关系模型，分别给出了基于多级关系模式和多级关系实例的完整性约束，以及操作语义，并证明了模型的安全性。该模型一方面具有较强的多级语义表达能力，另一方

会议

强制访问控制多级关系多实例隐通道

数据库服务模型中的安全存储机制研究

本文提出了一种新的安全存储机制，旨在对数据库服务（Database-as-Service, DAS）模型中现有存储机制的数据机密性和查询效率进行改进。该存储机制使用流密码对数据库中的记录进行加密存储，提升了加密/解密的性能，并针对需要进行查询的属性给出了基于等深直方图的索引存储方案，提高了查询效率。实验结果验证该索引存储方案能够掩盖原始数据的分布，解决了现有方案不能抵御频谱分析攻击的问题。

会议

关数据库服务数据机密性效率等深直方图

基于Web资源聚类分析的异常行为检测

本文针对大型活动网站的入侵检测，提出一种基于隐半马尔可夫模型(HSMM)的Web资源聚类方法，与传统的基于 Web 页面内容的聚类不同，该方法仅需要用户的 HTTP 请求序列，而不需要网站和页面的相关信息；利用该模型，我们得到用户对各个 Web 资源子集的访问特征，我们进一步引入逻辑行为来描述这种用户访问特征，并通过分析用户的逻辑行为实现异常访问行为的检测。文章详细介绍了模型建立的理论依据和方法，

会议

聚类分析用户行为异常检测隐半马尔可夫模型Web资源

基于自适应多克隆聚类的入侵检测

自适应多克隆算法是对克隆选择算法的改进。本文将自适应多克隆策略作用于特定的亲和度函数来指导聚类，这种聚类新算法不依赖先验知识、与数据分布无关，有效的克服了现有一些算法对初始化敏感、易陷入局部极值的缺点。该算法在对大量具有数值和类属的混合特征属性的数据进行聚类时，收敛速度快且不依赖初始原型的选择。本文将其用于入侵检测正常行为的建模，实现了大规模无标识数据的检测，区分出正常和异常行为，并能有效检测未知

会议

自适应多克隆算法无监督聚类入侵检测

一种基于TCP流量控制的改进模型

随着信息产业的迅猛发展，新的网络应用、网络服务不断出现，但其发展中的潜在危机也日益暴露，如传输速度瓶颈、带宽利用率低下、网络拥塞现象严重等。这些情况让人们意识到传统网络的协议已经不能适应新的网络环境的发展。尽管人们针对新的问题对旧的协议做了很多修改，但是这些修改往往只针对其中的某一个问题或某一方面，而忽略了对其它的问题的考虑。在认真研究网络体系结构特点的基础上，通过对体系结构的扩充，本文提出了一个

会议

网络体系结构拥塞控制无线网络

一种新的GEP解码方法及其应用

基因表达式编程(GEP)是一种用固定长度的线性染色体表示不同大小和形状的非线性实体(表达式树)的新遗传算法。本文提出了表达式树的一种新构造方法，以及相应的新解码方法(GPED)，该方法在评价个体适应度时不必构造和遍历表达式树而直接得到后缀表达式，从而可大大减少演化时间。文中对 GPED 有关的定义和性质作了详细地阐述，并通过实验对 GPED和基本 GEP 解码方法进行了对比研究。最后，基于GPED

会议

基因表达式编程遗传程序设计解码

GVF Snake模型的研究与改进

GVF Snake 动态轮廓模型是提取图像中物体轮廓的一种有效方法，较好地解决了传统Snake 模型中存在的轮廓线初始化、检测“U 型”物体轮廓等问题。本文在详细分析 GVF Snake 模型的基础上，指出其不足之处，即 GVF Snake 模型不能够逼近“? 型”轮廓。文中通过修改 GVF 力场，对 GVF Snake 模型进行了改进。实验结果表明，新的算法保留了 GVF Snake 模型的所有

会议

Snake 模型GVF轮廓提取图像处理

基于姓氏优先级的中文姓名自动识别

与本文相关的学术论文