基于文本的语言识别方法研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:z88981414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本研究针对因特网上的文本数据进行语言识别,包括网页和电子邮件内容等,以构建实时、高效的语言识别模块为目标,设计了一种复合方法来实现多语种文本的语言识别。文章首先介绍了区域编码方案和Unicode并存的现状,指出语言识别在计算机自然语言处理领域中的广泛应用,分析了语言识别方法的研究现状。然后,具体研究了目前主要的基于文本的语言识别方法,包括基于编码非重叠区的、采用字频分布统计的、利用马尔可夫模型建立语言模型的以及采用部分匹配预测压缩算法的语言识别方法,这些技术将被用到文中提出的语言识别模块设计方案中。之后,本文设计了一种语言识别的方法,即融合了基于编码非重叠区的识别方法和语言统计模型识别方法的复合识别方法。在对真实数据进行实验和分析的基础上,设计了语言字符分布律统计模型和可信度计算模型,保证了准确和高效地实现语言识别。 本文设计和实现的语言识别模块能够对目前因特网上广泛使用的主要语言字符集进行识别,包括Unicode字符集,多字节和单字节编码方式的字符集,满足电子邮件转发和过滤引擎、网页编码识别等实时系统的应用需要,并且该模块已经在国家某部委的应用工程中得到了应用,获得了很好的评价。
其他文献
企业过程工程(Business Process Engineering)是指用系统工程的方法指导企业过程的开发和运作,它包括企业过程的定义、模拟、优化和运作四个阶段。企业过程模拟是对企业模型
随着互联网的高速发展,网络中的信息量呈爆炸式增长,互联网已经成为人们获取信息的最主要渠道之一。作为信息检索过程中不可缺少的重要工具,搜索引擎在给人们带来便利的同时,
说话人识别是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,达到对说话人进行辨认或者确认的目的。与文本无关的说话人识别具有用户使用方便
随着数据库技术的迅速发展,数据库中存储的数据已经远远超越了人类理解力所能达到的范围。对这些数据进行全面系统的分析,挖掘出这些数据中蕴藏着的知识已经成为一项极具挑战
配电线载波通信(DPLC)技术,是指利用已有的配电网作为传输媒介,实现数据传递和信息交换的一种技术,具有投资少、见效快、可靠性高、稳定性好、运营成本低等得天独厚的优点,近年来
学位
频频发生的反倾销案件使得中国服装产品出口受到重创,当务之急,作为全球最大的纺织品出口和遭受反倾销调查最严重的国家,中国应迅速建立针对出口服装商品的反倾销预警机制。  
随着互联网应用的普及,对网络通信进行分析和监控确保企业和国家的网络信息安全已经成为一个非常重要的课题。当前的协议解析研究工作多是在协议已知的前提下进行的。协议未知
当前,P2P流媒体直播软件已经大规模商业应用,而P2P点播软件在技术上也逐步走上成熟。虽然不同网络运营商对于P2P软件的蓬勃发展采取了截然不同的态度,但P2P软件所代表的个体
在过去的一个世纪中,通信网络的发展主要取决于技术的更新。自上世纪末开始,业务驱动网络发展的趋势已经明朗,业务提供已经成为下一代网络(NGN)的关键技术之一,快速高效地生成和