论文部分内容阅读
随着时代的发展,中国独生子女们到了结婚生子的高峰期,对于同为双方家庭里的“独苗苗”,下一代该随母姓还是随父姓,年轻夫妇已很难抉择。有的干脆是父姓母姓加在一起,成为了孩子的姓氏。而姓名,也就从传统的2个字或3个字变成了4个字。起四字姓名成取名流行趋势。因此,人们迫切需要一些自动化工具对四字姓名领域的海量信息进行处理。由于四字姓名特殊结构,以及随机性比较大。因此,如何从海量的信息中正确识别出四字姓名是一个非常有意义的研究课题,也是其它相关研究的重要基础。
四字姓名识别是命名实体识别的一个组成部分。现阶段国内外在命名实体识别方面已经有大量的研究工作,尤其是在人名、地名和机构名的识别上。而在2000年以后中国内地的一些思想开放的年轻夫妇,为了强调男女平等,在为新生儿取名时采用“父姓+母姓+双名”和“单姓+三字名”的格式,这种命名格式在人口普查中大量出现。因此,为了准确、全面地识别出四字姓名,我们需要全方位了四字姓名的特征,并借鉴已有的命名实体识别技术来设计一个中文四字姓名识别系统。
本文研究了中文命名实体识别方法在四字姓名领域相关Web信息中的应用,以便人们能够陕速、准确地将分散在不同网页中的四字姓名抽取出来。本文主要在以下三个方面开展了工作:
第一,通过四字姓名实体及上下文的特点,本文提出了一种半自动的训练语料标注方法。该方法的主要思想是先将含有四字姓名的原始文本进行分词;然后使用自定义的宏对文本中的四字姓名进行标注,从而生成我们所需要的训练语料。
第二,由于四字姓名构成形式多样,很难在姓名的内部组成结构中提出通用性的规则。而在四字姓名的上下文中存在着大量的边界规则。其思想为:本文提出一种先由机器自动提取规则,再由人工进行筛选的规则库构建算法。
最后,通过姓氏字典匹配对识别结果进行修正。该方法可以解决基于规则的识别方法中不能同时兼顾边界词语义信息的准确性,从而提高四字姓名的准确率和召回率。
本文在上述工作的基础上实现了四字姓名实体识别系统。通过测试发现,该系统具有良好的准确率和召回率,证明本文所提出的方案具有一定的研究意义和实用价值。