基于规则的中文四字姓名识别研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:mzl521fnn1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时代的发展,中国独生子女们到了结婚生子的高峰期,对于同为双方家庭里的“独苗苗”,下一代该随母姓还是随父姓,年轻夫妇已很难抉择。有的干脆是父姓母姓加在一起,成为了孩子的姓氏。而姓名,也就从传统的2个字或3个字变成了4个字。起四字姓名成取名流行趋势。因此,人们迫切需要一些自动化工具对四字姓名领域的海量信息进行处理。由于四字姓名特殊结构,以及随机性比较大。因此,如何从海量的信息中正确识别出四字姓名是一个非常有意义的研究课题,也是其它相关研究的重要基础。   四字姓名识别是命名实体识别的一个组成部分。现阶段国内外在命名实体识别方面已经有大量的研究工作,尤其是在人名、地名和机构名的识别上。而在2000年以后中国内地的一些思想开放的年轻夫妇,为了强调男女平等,在为新生儿取名时采用“父姓+母姓+双名”和“单姓+三字名”的格式,这种命名格式在人口普查中大量出现。因此,为了准确、全面地识别出四字姓名,我们需要全方位了四字姓名的特征,并借鉴已有的命名实体识别技术来设计一个中文四字姓名识别系统。   本文研究了中文命名实体识别方法在四字姓名领域相关Web信息中的应用,以便人们能够陕速、准确地将分散在不同网页中的四字姓名抽取出来。本文主要在以下三个方面开展了工作:   第一,通过四字姓名实体及上下文的特点,本文提出了一种半自动的训练语料标注方法。该方法的主要思想是先将含有四字姓名的原始文本进行分词;然后使用自定义的宏对文本中的四字姓名进行标注,从而生成我们所需要的训练语料。   第二,由于四字姓名构成形式多样,很难在姓名的内部组成结构中提出通用性的规则。而在四字姓名的上下文中存在着大量的边界规则。其思想为:本文提出一种先由机器自动提取规则,再由人工进行筛选的规则库构建算法。   最后,通过姓氏字典匹配对识别结果进行修正。该方法可以解决基于规则的识别方法中不能同时兼顾边界词语义信息的准确性,从而提高四字姓名的准确率和召回率。   本文在上述工作的基础上实现了四字姓名实体识别系统。通过测试发现,该系统具有良好的准确率和召回率,证明本文所提出的方案具有一定的研究意义和实用价值。
其他文献
使用隐类模型进行聚类分析是一种很重要的方法,它使用隐变量来表示已知的显变量之间的关系,能有效地处理可测数据之间的隐含信息,有很大的实用性目前有许多关于含有隐变量的
该文提出一种具有良好分布性能和可扩展性的基于网络的入侵检测系统,它由网络探测器、控制台、分析系统、响应系统和存储系统五大部分构成,各部分在控制台的协调下有机地结合
路由器在稳定网络中能够提供可靠的数据转发服务,在特定网络环境下保持性能最优。而在动态变化的网络环境中,路由器提供的路由和队列调度策略则不具备根据网络环境变化而自动
红外告警图像处理系统在交付用户使用之前,必须完成对红外告警设备的检测,而对设备的检测需要外部红外威胁环境的紧密配合。如通过现场试验来构建威胁环境,不仅成本很大,且不可能
序列比对是生物信息学中最基础的一种实验过程,这对于根据序列进行深入的生物学意义的研究,如保守区或者功能基序的判定与评价、遗传疾病的分析、系统发育分析和功能预测,具有十
作为一个科研工作者,要掌握整个研究领域的热点主题和发展趋势,需要阅读大量的文献论文。尤其是在将自己的科研成果应用到其他领域时,科研人员需耗费大量时间和精力去探索自己不
随着企业应用集成(EAI)技术以及WebService技术的成熟和发展,基于SOA(面向服务的体系结构)的松散藕合的软件体系结构成为企业信息系统发展的重要方向。相对于普通的SOA技术,
随着科技的发展和社会需求的增加,各种数字成像设备在我们生活的方方面面都得到了广泛的应用。在伴随照片和视频数量剧增的同时,其中所包含的运动模糊也变得更加普遍象。运动模
随着科学技术的不断发展,可供摄影记者拍照的镜头应有尽有。在拍摄新闻照片时,根据表现主题的需要巧用各种类型的镜头,不仅能够改变千篇一律的单调画面,同时能增强照片的感
随着生产力和科学技术的发展,现代产业创造价值的增长点已经逐步转向服务的革新,世界经济已经从工业时代进入服务时代。服务科学是一门整合传统服务相关学科技术,提高服务产