论文部分内容阅读
本研究针对因特网上的文本数据进行语言识别,包括网页和电子邮件内容等,以构建实时、高效的语言识别模块为目标,设计了一种复合方法来实现多语种文本的语言识别。文章首先介绍了区域编码方案和Unicode并存的现状,指出语言识别在计算机自然语言处理领域中的广泛应用,分析了语言识别方法的研究现状。然后,具体研究了目前主要的基于文本的语言识别方法,包括基于编码非重叠区的、采用字频分布统计的、利用马尔可夫模型建立语言模型的以及采用部分匹配预测压缩算法的语言识别方法,这些技术将被用到文中提出的语言识别模块设计方案中。之后,本文设计了一种语言识别的方法,即融合了基于编码非重叠区的识别方法和语言统计模型识别方法的复合识别方法。在对真实数据进行实验和分析的基础上,设计了语言字符分布律统计模型和可信度计算模型,保证了准确和高效地实现语言识别。
本文设计和实现的语言识别模块能够对目前因特网上广泛使用的主要语言字符集进行识别,包括Unicode字符集,多字节和单字节编码方式的字符集,满足电子邮件转发和过滤引擎、网页编码识别等实时系统的应用需要,并且该模块已经在国家某部委的应用工程中得到了应用,获得了很好的评价。