中文姓名识别相关论文
分词和词性标注是自然汉语处理(NLP)的基础,前几届师兄已经在这方面做了大量的研究,我所做的课题就是在他们的基础上对这部分内容进......
针对文语转换系统的具体需求提出了易于实现的中文姓名识别算法。对姓氏用字与名字用字按它们的出现频率分为常用与较常用两类。由......
近年来,隐马尔可夫模型(Hidden Markov Models)在文字分类尤其是标注中取得了很大的成功,本文以《光明日报》的语料为基础,基于HMM......
中文姓名识别是中文信息处理中未登录词处理的范畴,同时也是中文文本特征词处理的重要部份。针对中文姓名构成的一般规律和特征,本......
利用基于转换的错误驱动学习方法对SVM的识别结果进行校正,转换规则较好地处理了语言现象中的特殊情况,进一步提高了SVM的识别结果......
讨论了在旅游信息库汉语接口中的自动分词问题.基于系统的情况提出了模糊切分及形式分词与语法分析辅助分词相结合解决歧义切分、......
本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据......
以2000年1月-12月《人民日报》大约80万汉字语料为基础,利用基于隐马尔可夫模型并结合统计来评价在真实文本中构成中文姓名的能力.......
中文姓名识别是信息抽取的一个重要研究内容,同时也对自然语言处理的其他应用具有重要意义.本文针对中文姓名构成的一般规律和特点......
论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下......
中文姓名识别是自动分词的难点之一。本文在基于统计的中文姓名自动识别方法的基础上,引入局部可信度,并建立了姓名构词可信度的评......
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这......
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分中的未登录词是中文自动分词中较难处理的部......
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出......
汉语自动分词是中文信息处理的基础工程,中文姓名的自动识别则是汉语自动分词的难点之一,已经成为制约自动分词系统准确率的一大瓶......
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未......
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试 ,主要采用基于统计方法 ,进行中文姓名识别。本文......
中文姓名识别是自然语言处理中专名识别的一个重要的子问题 ,本文将中文姓名的识别过程细分为三个步骤 :抽取阶段、分类阶段和消歧......
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们......
提出并实现了一个基于互信息的中文姓名识别方法.该方法充分挖掘姓名和其上下文信息的关联程度以及姓名用字之间关联程度的信息,引......
汉语自动分词是中文信息处理的基础工程,中文姓名的自动识别则是汉语自动分词的难点之一,已经成为制约自动分词系统准确率的一大瓶颈......
最大熵模型可以对非常广泛的自然语言现象建立概率模型,该文提出了一种使用统计模型的中文姓名识别方法,采用最大熵原则建立统计模......