藏文统计语言模型研究

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:zhongkelong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
藏文语言模型是藏文信息处理的基础和核心技术。研究和开发具有强大描述藏语能力的藏文统计语言模型对藏文信息处理的各个应用领域,如机器翻译、藏文语音识别、藏文输入法、藏字校对和藏文信息检索等具有重要的现实意义和实用价值,构建藏文语言模型是藏文信息处理的关键性基础工作,是实现藏文信息化的必要步骤。   本文首先对藏文自动分词进行了研究,实现了基于格助词的藏文最大匹配分词方案。接着研究了统计语言模型构造、数据平滑等技术,实现了一个藏文统计语言模型系统,主要包括词频统计、模型训练和模型评估三个模块。为解决数据稀疏问题,实现了多种模型平滑方法,包括Witten-Bell平滑、绝对折扣平滑、Kneser-Ney平滑和修正的Kneser-Ney平滑。   本文的实验在收集和整理一定规模的藏文语料并进行预处理的基础上,使用分词程序对藏文文本进行分词,并将藏文文本分成训练语料和测试语料两个部分。接着使用测试语料训练得到藏文统计语言模型,并使用了多种平滑方法,结合测试语料对藏文统计语言模型进行评估,比较了不同平滑方法的优劣。
其他文献
应用市场日益分散与产品开发费用日益增大的矛盾促进了可根据应用定制的现代现场可编程门阵列(FPGA)迅速发展。随着集成密度按照摩尔定律提高,FPGA正在变得越来越复杂,传统的RT
ETL过程是一个从分布数据源(包括数据库、应用系统、文件系统等)抽取数据,进行转换、集成和传输,并最终加载到目标系统的过程。传统的ETL过程主要服务于数据仓库(Data Warehous
近年来,电信增值业务不断发展,给人们的生产和生活都带来了很大的方便。电信增值业务在“量”不断增加的过程中,“质”的问题却也在不断加剧。各种诈骗案件不断发生,尤其是频繁发
常识研究是人工智能领域核心课题,其核心问题之一就是常识知识获取。常识知识获取的目标是构建能够面向应用的常识知识库。为了提高知识获取效率,部分研究者采用自动获取的方法
受自然模型启发的智能计算凭借其智能、简单而高效的特点,广泛应用于工程优化、工业设计、数据挖掘等领域。然而,由于智能算法包含复杂的随机行为,其求解过程存在执行时间长
随着无线通信技术以及电子技术的飞速发展,低成本、低功耗、多功能的传感器节点应运而生,大量传感器节点通过ad-hoc的通信方式构成无线传感器网络。无线传感器网络已经逐渐成为
随着现代交通和汽车工业的飞速发展,VANET(Vehicular Ad-hoc Network)逐渐成为人们日常生活的一部分,VANET能够提高道路安全性和交通效率,同时为行驶中的人们提供娱乐服务。
在当前的信息时代,计算机网络与办公自动化系统的广泛应用大大提高了人们的工作效率,同时也让更多网络用户能够参与公共事务的处理。到目前为止,公共事务处理平台的服务范围已经
学位
随着信息技术和地理学科的发展,平面的地图表达已经不能满足人们的需求,越来越多的生产生活需要构建和使用具有高度真实感的三维地形场景。数据获取技术的进步和网络应用的发展
移动自组织网络(Mobile Ad Hoc Network,MANET)是一种无需依赖于任何事先布设的固定基础设施,而仅依靠网络内部各节点之间的协作,就能够完成节点间通信的网络。与传统网络不同的