一种基于互信息的藏文自动校对技术研究

来源 :西藏大学 | 被引量 : 0次 | 上传用户:gsxs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,出现了许多电子文本,该电子文本经常存在很多错误,比如基本拼写错误、语法和语义错误,从而导致出版业的书刊、政府和新闻媒体发布的公告,以及研究者的数据等文本资料产生了极大的影响,传统的人工校对方法已经无法适应迅速增长的电子文本数量,人工校对不仅繁琐复杂、工作单调、劳动强度大、效率低、成本高,而且可能会出现二次错误,因此,文本自动校对的研究具有非常重要的现实意义。本文通过学习藏语语言学,研究了藏文的最基本拼写规则、格语法、紧缩词、语义等基本知识,并借鉴英文和汉文校对,提出了符合藏文文本的校对方法,即基于字和词互信息的藏文自动校对,同时建立了藏文字典和词典,基本覆盖了常用词语。根据这些相关的理论研究和数据利用,最终实现了藏文文本自动校对系统。文本自动校对是涉及到许多方面的研究,比如最基本的拼写检查、字和词、以及段落、语义等,本文主要提出了基于字和词层面校对。本文的主要工作如下:1.通过分析国内外研究现状趋势,藏文文本自动校对存在滞后现象,从而借鉴英文、汉文和其他少数民族语言的文本自动校对方法,结合藏文本身的特点,研究了符合藏文文本的自动校对方法;2.研究和学习了互信息的基本概念和应用,根据藏文字和词错误类型,把互信息的计算方法应用到藏文字和词校对中;3.提出了基于字互信息的藏文自动校对方法。利用藏文字互信息的算法思想对藏文文本进行字的校对,并为了得到更好的校对效果而提出了藏文字校对的古德-图灵估计法,对数据进行平滑处理。最终实现了基于字互信息的藏文自动校对系统,总体的平均精确率、召回率、F值分别达到81%、78%、80%。4.提出了基于词互信息的藏文自动校对方法。该校对算法思想和字互信息校对思想大致上一样,不同的是词互信息的校对需要分词,分词方法是通过词典匹配方法进行分词,然后按照分词后的界限作为单位进行计算两个词之间的互信息表,最终实现了基于词互信息的藏文自动校对系统,总体的平均精确率、召回率、F值分别达到69.5%,65%,67%。5.最终实现了一种基于互信息的藏文自动校对系统。该系统包含了字和词两个层面的校对功能。并得到了字互信息的校对效果优于词互信息的校对效果。6.为了得到校对效果更好而提出了语言模型和语义分析的校对设想。
其他文献
水下生产系统受天气影响小,可靠性强,成为深水油气田开发的主要模式。水下生产系统需要经过准确的安装才能进行正常的生产活动,因此对水下生产系统安装过程进行受力分析及运
油品中硫/氮化合物的高效脱除对于生产高品质油品及环境保护具有重大意义,开发清洁、高效的硫/氮化合物深度脱除技术极具挑战。利用阴离子柱撑杂化多孔材料结构可调、孔道表面富含氢键位点等特点,本文设计制备了多种阴离子柱撑杂化多孔材料作为吸附剂,用于分离模拟油品中难脱除的芳香性有机硫化物与氮化物,研究其构效关系与作用机理,为新型脱硫脱氮技术的发展奠定基础。本文首先通过改变阴离子、金属离子以及有机配体的种类,
硅材料具有超高的嵌锂容量,被认为是最具潜力的下一代锂离子电池负极材料,因此受到了研究者的广泛关注。硅负极材料中的离子输运是影响其倍率性能的关键问题。本文利用第一性原理的方法研究了界面和微结构两大因素对锂-硅合金中的锂离子输运的影响,进一步探索了硅负极材料中的离子输运机理。本论文首先研究了锂离子在硅-石墨烯复合体系中的横向迁移和纵向扩散性质。迁移势垒的计算结果表明,石墨烯的包覆可以有效降低锂离子在碳
拓扑优化技术,旨在给定的设计域内寻求一定数量材料的最佳分布,其结构设计的有效性已经得到证明并且近年来受到了越来越多的研究和关注。为了得到性能最佳的结构,多层多材料的结构优化设计得到了广泛关注,比如说加强筋结构以及多类型组合结构。针对这些问题,诸多学者开展了大量的研究工作。由于隐式拓扑优化框架没有办法直接提取最优结构对应的几何信息,且具有设计变量个数严重依赖于有限元分析网格个数、计算量较大等问题,所
飞秒脉冲激光由于其脉冲持续时间短、峰值功率高等特点,已成为揭示光与物质相互作用的有力工具,被广泛应用于物理,化学和生物学等领域。然而在实际应用中还常需要具有特定形状的飞秒脉冲,例如飞秒双脉冲序列,因此需要对激光器出来的飞秒脉冲进行整形。整形后脉冲间隔和分布都可独立调控的飞秒双脉冲在泵浦-探测、飞秒微加工、量子相干控制、化学反应解读、超短脉冲测量等领域中都有重要应用。本文基于Kogelnik耦合波理
对于Ac重子强相互作用方面的研究,从上个世纪80年代发展至今,低能态(S波和P波)的∧c的性质在理论上都得到了比较好的解释,它们的量子数基本上已经确立。近几年来,实验上发现了更多的高激发态的∧c,这就使得人们对于这些高激发态∧c的量子数的确立产生了浓厚兴趣。由于实验限制,这些高激发态的量子数并没有明确的测量。对于理论工作者来说确立它们的量子数不仅可以从理论上解释这些重子态,还可以理解重子的内部结构
近年来,3D打印技术迅猛发展,已经在各个领域得到广泛应用。相似模拟作为一种重要的科研方法,在岩土工程、采矿工程、石油钻采地层模拟中起着关键作用,传统的相似模拟砂型的制
多孔材料是一类由闭合或者相通的孔道构成的材料,常见的多孔材料有二氧化硅、活性炭、金属有机框架材料(MOF)、共价有机框架材料(COF)等等。近年来,多孔材料的功能化的研究受到广泛关注。光动力治疗(PDT)是一类新型的肿瘤治疗技术,由于其微创、无耐药性等优点在20世纪末开始快速发展起来。酞菁类光敏剂是一类高效的光敏剂,但酞菁存在容易聚集导致光动力活性下降甚至消失的问题。构建基于酞菁的多孔材料,利用多
无线网络由于具有成本低、部署灵活、覆盖范围广、支持移动性等优势,被广泛应用于工业领域中。当前时分多址技术(Time Division Multiple Access,TDMA)已经应用于无线局域网(
随着量子力学理论的不断发展和成熟,密度泛函理论计算在计算化学领域已经可以精确地计算一些化学结构并与实验数据相吻合,在某些方面还能预测化学反应结果。在目前的金属催化剂研究中,通常使用各类表征方法来确定催化剂的物化性质和形貌特征,继而对催化剂的催化效果做出解释,并且得出相应的催化机理。但在从原子层面来解释催化剂与反应底物之间的电子传递和结构变化却稍显不足。计算化学一方面可以验证已有的实验数据,从微观层