藏文字频统计软件的设计与实现

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:rewyuh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:藏字的频度统计是藏文信息处理技术领域的一项基础研究,对藏文拼写检查、字典建立等应用有着重要的意义。该文根据藏文音节的特性,结合Unicode藏文基本集的编码特征,提出了计算机统计藏文字频的方法,设计实现了藏文字频统计软件,并在藏文样本语料中进行测试,证明了方法的正确性。
  关键词:藏文;字频;统计
  中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)04-0179-03
  The Design and Implementation of Tibetan Word Frequency Statistics Software
  LI Miao-miao, GAO Ding-guo, PU Tsering, TRASHI CangJue
  (Tibetan Information Technology Engineering Research Center, Tibetan University, Lhasa 850000, China)
  Abstract: Word frequency statistics,which has important significance to the Tibetan spell checking, Tibetan dictionary building and other suchlike applications , is a basic research in the field of Tibetan information processing technology . According to the characteristics of Tibetan syllables, combined with the features of encoding of Unicode Tibetan basic set, we proposed a method to statistic Tibetan word with computer ,and implemented the software ,which has been tested in a sample corpus, and achieved satisfactory result.
  Key words: Tibetan; word frequency; statistics
  1 背景
  藏文字符是一种拼音性文种,由辅音和元音构成藏文的一个音节。藏文音节以一个辅音字母为核心,此辅音字母为基础在其前后或上下叠加其他辅音或元音构成一个完整的藏文音节(简称为藏字)[1]。
  藏文字频的统计对研究藏文信息处理技术有着重要的意义,据统计,符合现代藏文书写文法规则的藏字共有19380个[1] ,这是静态统计的结果,包含了所有符合藏文文法书写规则的藏字,但实际上并不都具有实际的意义,在藏文文本中也不会用到没有意义的藏字。为了更好的统计实际应用的现代藏字的数量,就要借助于大规模语料进行动态统计。
  本文在研究藏文文本结构的基础上,整理出藏文音节的分割符号,以这些符号为统计藏文音节的分割点,提出了统计藏文音节的方法,并用软件实现了该方法,在藏文样本语料中进行测试,证明了方法的正确性。
  2 藏字字频统计的方法
  藏文是一种拼音型文字,一般一个音节表示一个字。在文本中,藏文的音节主要以‘□’(0x0F0B)、‘□’(0x0F0D)和一些特殊符号分隔开[8],我们在统计时,逐个从文本中读取字符,并将读取的字符存入字符串中,当读取的字符为0x0F0B或0x0F0D或其他特殊符号(比如数字)等时,表示一个音节读取结束,此时字符串中保存的就是当前读取到的音节。按照该方法扫描语料,每次取得一个音节,就将该音节的频度加1,最终就可以得到一个藏文音节的频度统计结果。
  参照Unicode藏文字符编码集[4-5],共整理了91个藏文的分隔符、数字、特殊符号。表1是藏文的38个音节分隔符、标点符号,表2是藏文的33个特殊符号和特殊字符,表3是藏文的20个数字符号。这些符号出现在文本中时,虽不是直接的隔字符号,但在文本中仍起到分隔音节的作用,因此在软件设计中也被当作音节分隔符进行处理。
  3 藏文字频统计软件的设计
  藏文字频统计软件按其功能分为输入、统计、输出三个模块,如图1所示。
  3.1 输入模块
  输入模块实现的功能是:由用户通过直观的界面选择待统计的藏文语料的存放路径和统计结果输出的路径。
  输入模块的流程图如图2所示。
  3.2 字频统计模块
  3.2.1 字频统计的方法
  为了提高统计过程中的存取效率,采用散列表存储音节及其频度,音节作为关键字,频度作为值。散列表是根据关键码值(Key value)而直接进行访问的数据结构,它通过把关键码值映射到表中一个位置来访问记录,从而加快查找的速度[2]。
  统计时,每读取到一个完整的音节,就将其存入散列表中。存入的方法如下[7]:
  1)如果散列表中已存在以该音节为关键字的项,将该关键字对应的值(频度)加1;
  2)如果散列表中不存在以该音节为关键字的项,则新建一个项,关键字为该音节,值(频度)为1。
  针对非藏文字符、藏文特殊字符的处理:
  1)当前字符为非藏文字符,若字符串非空,首先将字符串中的音节频度加1,然后跳过该字符,读取下一个字符;
  2)当前字符为藏文分隔符、数字、特殊符号,若字符串非空,首先将字符串中的音节频度加1,然后,将当前读取的特殊符号的频度加1(这样,统计的结果中包括了对分隔符、数字、特殊符号的统计),再读取下一个字符。   字频统计模块的流程图如图3所示。
  3.2.2 字频统计主要伪代码
  字频统计过程中最关键的部分是对非藏文编码、藏文分隔符、特殊字符的处理,该部分伪代码如下:
  STATISTICS()
  1 while ch>0
  2 String s = null
  3 if (ch>0x0FFF)||(ch<0x0F00)
  4 //当前字符为非藏文编码
  5 read next char
  6 else if (ch is punc)
  7 //ch为藏文的分隔符、数字、特殊符号
  8 s =ch;
  9 read next char
  10 else
  11 s =ch
  12 while (ch<0x0FFF)
其他文献
基质筛选结果,蛭石为黑穗醋栗试管苗移栽的良好基质,平均移栽成活率比细沙高46.5%,移栽后5周,试管苗生长量和苗高分虽比对照高172.0%和225.9%。
2012年7月9日小二沟地区出现了一次较强的降水天气,6h降水量64.8mm,达到大到暴雨。此次降水天气是在东北冷涡形成的前期过程中,西来槽,低层切变和地面气旋东移共同影响所造成
该系统主要应用于个人用户,提供轻量级私有云存储能力。私有云存储服务可工作于任何TCP/IP网络环境,公网、内网皆可,可随时移动、放置于任何工作、生活场所;支持用户随时随地
摘要:计算机专业英语是计算机各相关专业必备的基础课程,是运用英语这个语言工具对计算机专业知识的扩充。专业英语是一项实用性很强的技能,学好专业英语,能够促进学生对专业的学习和提高。但是在目前我国高校的计算机专业学生的英语水平整体不高,这需要高校教师从不断改进教学方法,提高教学水平。该文根据我国高校计算机专业的专业英语的教学现状,分析存在的问题,探讨提高教学水平的方法,可以为我国高校计算机专业的专业英
随着社会水平发展以及城市生活节奏的加快,城市交通的各类问题越来越突出,政府急需运用各种高科技手段解决道路交通拥堵问题,提高交通管理效率,因此对自动化车牌定位系统需求很急切。车牌定位系统主要以图像处理为基础最终达到车牌准确定位的,该文主要对图像处理中的图像灰度线性变换、二值化处理、削弱背景干扰、自定义模板中值滤波做进一步分析。
师资队伍建设是学校发展的关键,是培养高素质技能型人才的保障.教师质量决定教学质量,教师水平决定教育水平,教师能力决定学生能力.因而,高素质、高水平的"双师型"教师队伍是学
北兴农场本着保护土壤环境,节约作业成本.科学利用原茬.增产增收的栽培理念,大力推进玉米茬原垄播种大豆栽培技术的应用.实施3333.3hm^2玉米原垄播种大豆技术.实现100%正茬轮作种植.达
蛴螬是危害草坪的主要害虫。近几年,包头地区草坪地下害虫蛴螬发生严重。采用随机挖土取样法,对包头市草坪地下害虫蛴螬种类进行调查。结果查到3科7属7种,其中华北大黑金龟为
经过3年测土配方施肥工作,收集的测土配方施肥数据之多,在不同级别上报测土配方施肥数据管理系统数据时,出现许多问题。如何解决在录入测土配方施肥数据管理系统时出现的问题
调查结果表明,延安地区土训有效钼含量为0.013-0.158mg/kg;川地>塬地>山地。植物正常钼含量0.1-20mg/kg。大豆、玉米施钼可使籽粒钼的含量比对照增产2.3-12.9mg/kg。大豆施用钾