维吾尔语统计语言模型中建模基元的研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:liongliong589
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言模型是描述自然语言内在规律的数学模型,在自然语言处理过程中占据着重要的地位,但目前维吾尔语语言模型的研究尚处于起步探索阶段,因此构建一个可靠的语言模型对于维吾尔语自然语言处理技术很关键。维吾尔语语言模型是维吾尔语自然语言处理技术的重要基石,广泛应用于语音识别、机器翻译、信息检索等领域,它的研究对促进新疆地区的少数民族自然语言信息处理技术的发展具有重要的意义。   本文针对当前维吾尔语语言模型存在的语料库资源匮乏、数据稀疏以及困惑度较高等问题,试图找出使困惑度最低的平滑算法和建模单元(基元)建立语言模型。具体研究工作如下所示:   为解决数据稀疏问题,本文研究了多种平滑算法,包括加法平滑算法、Good-Turing平滑、Witten-Bell平滑、Katz平滑、绝对折扣平滑、Kneser-Ney平滑。实验结果表明绝对折扣平滑算法的困惑度最低。   本文将基于电话信道的维吾尔口语对话的文本、双语教学系统中的课本教材以及一些日常用语作为实验数据,然后它们进行预处理,并将处理后的数据作为本实验中建立维吾尔语语言模型的文本语料。接着对维吾尔语文本语料进行分词,这里采用两种分词方法:一种是基于词典的维吾尔语词切分,一种是非监督式形态切分。从结果来看,后者的分词效果好于前者。   在基于维吾尔语分词的基础上,对传统的N-gram统计语言模型做出改进。将维吾尔语单词切分成不同单元,以它们作为建模基元建立了3种维吾尔语语言模型,并提出基于词素类的N-gram语言模型。本文利用SRILM1.5.12工具包和MITLM0.4工具包进行实验。结果表明,基于词素的维吾尔语语言模型的困惑度比基于词的维吾尔语语言模型的困惑度降低了约2/3,另外,基于词素的语言模型可有效减少字典词汇量,并有较好的词语的覆盖度。
其他文献
随着VoIP(Voice over IP)逐渐普及,VoIP的安全性已经成为一个重要问题,其中垃圾语音(SPIT,Spam over Internet Telephony)很可能成为进行商品推销、市场调研、骚扰甚至诈骗的工
数据访问延时是影响系统性能的关键因素之一。在MapReduce环境中,由于输入数据远大于处理代码,不在数据节点执行的Map任务将会引起大量的远程数据访问延时;由于Map任务分布在成
随着嵌入式系统的发展,嵌入式SOC芯片以其高集成度和快速定制等特点在工业控制、消费电子等领域获得了迅速的发展。而显示系统作为SOC芯片的重要组成部分,由于其图像显示需要不
近年来,伴随着各种应用日新月异的发展,人们对集群文件系统提出了更全面更多样化的需求。文件的小粒度I/O请求的性能对于集群文件系统的整体性能有着越来越重要的影响,应用迫切
人体动作的表示与识别是近年来在计算机视觉和模式识别领域被广为研究的一个问题,其在智能视频监控、智能人机交互接口以及多媒体检索等领域中都具有巨大的潜在应用价值。本文
为了适应开放、动态和多变的Internet环境,网构软件成为了旨在实现网络环境下计算资源共享和集成的一种新型软件形态。在网构软件开放协同模型中,软件系统的各软件实体以软件服
国内的机器翻译研究集中在汉语和英语互译上,针对少数民族语言的机器翻译以蒙古语居多,对于维语的机器翻译仍处于起步阶段。对于新疆这样一个多民族聚居的地区,以汉族和维吾尔族
随着移动通信技术的不断发展和用户需求的不断提升,现有2G/3G通信系统难以满足人们的日益增长的通信需求,3GPP在R8阶段启动了长期演进(LTE)和系统架构演进(SAE)两大标准化工
随着现代制造业向自动化、集成化、智能化的先进制造模式发展,数控加工仿真在制造业中的地位日趋重要。数控加工仿真是数控加工过程在虚拟环境中的映射,它可用于检验NC代码的正
随着宽带移动通信网络的发展,基于宽带的整合型家庭业务,如个人电脑上网业务、数字电话提供的语音VoIP业务、视频电话业务等,开始步入家庭生活。家庭网关作为连接内部家庭网络与