【摘 要】
:
中文音译人名属于未登录词,而未登录词识别是自动分词技术的关键问题,自动分词是信息检索、信息抽取及知识发现等方面起着很重要的作用。目前在音译名的识别方面已有很多的研
论文部分内容阅读
中文音译人名属于未登录词,而未登录词识别是自动分词技术的关键问题,自动分词是信息检索、信息抽取及知识发现等方面起着很重要的作用。目前在音译名的识别方面已有很多的研究,但是由于社会,生活,文化等方面的发展,在中文音译名的翻译上也有了一些变化,因为原有问题没有透彻解决,随之又有新问题即将出现,这样就需要对原有的模型重新认识并改进。通过对中文姓名识别模型的研究和对音译名现有研究结果分析,建立音译名的识别模型,首先依据《英语姓名译名手册》统计用字频度字典,单词频度字典和双词频度字典;其次由中文分词模型得到原始分词;然后在原始分词结果的基础上识别出输入语句中的所有潜在姓名同时计算他们的可信度,建立潜在姓名链;接着对链中的每个潜在姓名进行过滤,采用阀值和根据简单上下文关系作选择的方法,主要考查的参数是频度和可信度;最后调整潜在姓名链,比较原分词结果和音译名的识别结果,选择最优解。在改进方面主要针对潜在姓名过滤和召回过程,其主要优化的参数是潜在姓名的可信度以及一些特殊情况中频度的计算。对原模型从新浪网的国际新闻中抽取了大量语料进行测试,闭式测试的结果达到了90%以上,开式测试的结果不是十分理想,只有60%左右;改进后抽样测试结果达70%。
其他文献
社交网络已经变成了许多人的每日生活的必不可少的一部分。许多社交网络已经部署了基于位置的服务。使用这种服务和愈加普遍的能够精确获取地理位置的设备朋友们能够分享最喜
随着智能手机用户数量不断地增加,手机病毒也大量地出现。手机病毒不仅会导致系统瘫痪、泄漏用户的重要信息、远程监控用户,而且也会给人类带来巨大的经济损失。因此智能手机的
随着互联网的发展和智能手机的普及,各种智慧旅游应用在市场上层出不穷,旅游导航系统也成为了智慧旅游建设的主要产品之一。但由于智能手机GPS定位技术在景区导航系统中无法保
随着计算机网络应用的日益深入,计算机终端已成为网络中大部分事件的起点和源头。只有通过完善的终端安全防护才能够真正从源头上控制各种安全事件的发生,遏制网络内部发起的
随着科技的发展,人们的生活越来越趋向于自动化、智能化,信息与物质间的联系日益增强。WSN(Wireless Sensor Network)正是在这发展大潮中诞生的一员,无线传感器网络具有感知
随着高性能计算技术的不断发展,各种高性能计算方法被广泛地应用于实际工程领域,在国民经济、国防建设和科技发展中占有非常重要的战略地位。相场法是目前用于模拟枝晶微观组
伴随多租赁理念在业界的推广应用,基于SaaS模式的应用已经成为一种高效、先进的业务应用解决方案。单实例多租赁(Single Instance Multi-tenancy)的应用模式体现出其低费用,
作为一种新兴的计算平台,图形处理器(GPU)在科学计算和工程领域展现出巨大的计算能力。GPU也很快由单纯的图形处理加速单元,演变成适合通用计算的处理器(GPGPU)。然而随着计
伴随着计算机的发展过程,各种处理操作现均慢慢要求在处理速度上让用户满意,以增加体验。图像分割作为计算机视觉中一个基础而重要的学科,到现在为至已经被广泛研究。从原有
近年来,问答类社会网络迅速发展,用户量快速增长。经过数年的积累,以人为核心的问答类社会网络正成为互联网的主体应用之一。然而,随着社会网络的蓬勃发展,互联网安全受到了新的挑