【摘 要】
:
该文针对姓名样本库和姓名语料库统计姓氏的各种概率信息,得到了姓氏的三组数据 X(i)、Y(i)、Z(i),分别表示姓氏的常用程度、姓氏字的常用程度、该姓氏字在真实文本中成为真姓氏的概率。利用这三组数据,我们提出了基于姓氏优先级的中文姓名识别方法。基于本文开发的中文姓名识别系统在实验中召回率和准确率分别为 80.61﹪、89.27﹪,达到了一定的实用性。
【机 构】
:
大连理工大学计算机系,大连116023 大连理工大学计算机系,大连116023;北京科技大学智能语
论文部分内容阅读
该文针对姓名样本库和姓名语料库统计姓氏的各种概率信息,得到了姓氏的三组数据 X(i)、Y(i)、Z(i),分别表示姓氏的常用程度、姓氏字的常用程度、该姓氏字在真实文本中成为真姓氏的概率。利用这三组数据,我们提出了基于姓氏优先级的中文姓名识别方法。基于本文开发的中文姓名识别系统在实验中召回率和准确率分别为 80.61﹪、89.27﹪,达到了一定的实用性。
其他文献
本文对 Google 的 PageRank 算法进行了综合性研究,阐述了 PageRank 算法的原理,分析了 PageRank 值的计算公式,提出了工程计算 PageRank 值的方法。通过分析 PageRank 算法存在的不足,对 PageRank 算法进行了改进,提出了新的计算 PageRank 值的公式。比较表明,新公式计算的结果更加具有客观公正性。
粗糙集理论是处理模糊和不确定知识的有力工具。知识约简是粗糙集理论研究中的重要内容之一,本文提出一个基于等价类的分划与覆盖,评估、选择条件属性分类能力的约简算法, 并证明了该算法的完备性;根据实际应用的特点,算法的设计易于用 SQL在 RDB 中实现,通过例子分析,表明该算法是有效的。
卫星网络通信具有地面网络所不具备的优势,包括:全球覆盖、带宽弹性、可靠和多播能力。然而,卫星网络特征,如高带宽、长传播延时、信道干扰和带宽不对称对 TCP/IP 性能造成了新的威胁。目前,已经提出和实现了许多 TCP 增强来解决这些卫星相关的挑战。描述了影响 TCP 性能的卫星链路特征。本文讨论了在改善卫星链路以及其他表现出与卫星链路相似特征的网络路径上 TCP 性能方面所作的工作。最后,讨论了其
在支持强制访问控制的数据库管理系统(多级安全 DBMS)中,为了避免违反强制安全策略的隐通道通讯,必须把传统的关系模型改进为多级关系数据模型。目前提出的各种多级关系数据模型都有不同的缺陷,难于在实际的多级安全 DBMS 中采用。本文提出了准属性粒度的多级关系模型,分别给出了基于多级关系模式和多级关系实例的完整性约束,以及操作语义,并证明了模型的安全性。该模型一方面具有较强的多级语义表达能力,另一方
本文提出了一种新的安全存储机制,旨在对数据库服务(Database-as-Service, DAS)模型中现有存储机制的数据机密性和查询效率进行改进。该存储机制使用流密码对数据库中的记录进行加密存储,提升了加密/解密的性能,并针对需要进行查询的属性给出了基于等深直方图的索引存储方案,提高了查询效率。实验结果验证该索引存储方案能够掩盖原始数据的分布,解决了现有方案不能抵御频谱分析攻击的问题。
本文针对大型活动网站的入侵检测,提出一种基于隐半马尔可夫模型(HSMM)的Web资源聚类方法,与传统的基于 Web 页面内容的聚类不同,该方法仅需要用户的 HTTP 请求序列,而不需要网站和页面的相关信息;利用该模型,我们得到用户对各个 Web 资源子集的访问特征,我们进一步引入逻辑行为来描述这种用户访问特征,并通过分析用户的逻辑行为实现异常访问行为的检测。文章详细介绍了模型建立的理论依据和方法,
自适应多克隆算法是对克隆选择算法的改进。本文将自适应多克隆策略作用于特定的亲和度函数来指导聚类,这种聚类新算法不依赖先验知识、与数据分布无关,有效的克服了现有一些算法对初始化敏感、易陷入局部极值的缺点。该算法在对大量具有数值和类属的混合特征属性的数据进行聚类时,收敛速度快且不依赖初始原型的选择。本文将其用于入侵检测正常行为的建模,实现了大规模无标识数据的检测,区分出正常和异常行为,并能有效检测未知
随着信息产业的迅猛发展,新的网络应用、网络服务不断出现,但其发展中的潜在危机也日益暴露,如传输速度瓶颈、带宽利用率低下、网络拥塞现象严重等。这些情况让人们意识到传统网络的协议已经不能适应新的网络环境的发展。尽管人们针对新的问题对旧的协议做了很多修改,但是这些修改往往只针对其中的某一个问题或某一方面,而忽略了对其它的问题的考虑。在认真研究网络体系结构特点的基础上,通过对体系结构的扩充,本文提出了一个
基因表达式编程(GEP)是一种用固定长度的线性染色体表示不同大小和形状的非线性实体(表达式树)的新遗传算法。本文提出了表达式树的一种新构造方法,以及相应的新解码方法(GPED),该方法在评价个体适应度时不必构造和遍历表达式树而直接得到后缀表达式,从而可大大减少演化时间。文中对 GPED 有关的定义和性质作了详细地阐述,并通过实验对 GPED和基本 GEP 解码方法进行了对比研究。最后,基于GPED
GVF Snake 动态轮廓模型是提取图像中物体轮廓的一种有效方法,较好地解决了传统Snake 模型中存在的轮廓线初始化、检测“U 型”物体轮廓等问题。本文在详细分析 GVF Snake 模型的基础上,指出其不足之处,即 GVF Snake 模型不能够逼近“? 型”轮廓。文中通过修改 GVF 力场,对 GVF Snake 模型进行了改进。实验结果表明,新的算法保留了 GVF Snake 模型的所有