彝文分词系统的实现及性能评价

来源 :今日湖北·下旬刊 | 被引量 : 0次 | 上传用户:nvhuang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 彝文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理。当前的彝文信息处理的主要任务已从“字处理”过渡到了“词处理”。而在“词处理”领域,自动分词技术的实现是其他一切技术实现的前提,是基础中的基础。彝文自动分词系统的实现,标志着彝文信息处理技术的一大进步。
  关键词 彝文分词 实现
  一、彝文自身的特点与实现自动分词的难点分析
  信息处理用彝文文本是由连续的字符组成的,中间没有空格。综观彝文自身的特点与现阶段计算语言学在自动分词上的研究,彝文自动分词研究主要存在以下两方面的困难。
  第一、语言学上的困难:
  1、对词的定义的不统一性。“最小的能够独立应用的语言单位”是汉语语言学界对词的形式定义。而对词的具体界定一直飘忽不定,至今没有一个公认的、具有权威性的词表。彝文同样存在这个困难:不仅没有统一的、严格的非形式定义,对形式或抽象定义都还存在一定的问题。导致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界。如:
  名词+名词结构的:(花草)、(水木);
  形容词+形容词结构的:(合适)、(美好);
  形容词+名词结构的:(小学)、(谎言);
  名词+形容词结构的:(糟糕)、(精明人);
  名词+动词结构的:(有狗)、(杀牛);
  形容词+否定词结构的:(能干的人)——(不能干的人);
  动词+补语+否定结构的:(打死)——(别打死)等。
  2、彝文分词还没有形成一个公认的分词标准,同一文本可能被不同的人划分为几种不同的结果。
  如“(不该争而争,争荞饼熟不熟,争酸汤温不温)”的分词结果一:;分词结果二:;分词结果三:;等。
  3、彝文中有大量“”(尔比),即谚语、成语、俗语、格言、典故、熟语等之意。其结构紧密,语言精湛,语义完整。“尔比”中的许多字符可以单独切分为词,也可以与其他字符或字符串组成词,在彝文分词上体现出一定的复杂性。如: “”(“有父之女显高贵,有兄弟之姐妹显漂亮”)等。
  第二、计算机方面的困难:
  1、没有合理的自然语言处理模型。
  从目前汉语分词的理论和技术现状看,通用的、高质量的自然语言处理系统的研发仍是今后较长时期内努力的目标。彝文自动分词技术的研究尚处在起步阶段,没有任何关于彝文语言模型理论或实践的参考。
  2、没有有效利用和表示分詞所需的语法知识和语义知识。
  对任何一门语言的信息处理,都不是单纯意义上的语言学研究。信息处理在自动分词上的研究还广泛涉及到计算机科学、信息科学、系统论、控制论、心理学、数学、自动化技术、人工智能等。
  3、歧义切分和未登录词
  在汉语分词过程中,有两大难题一直没突破,即是歧义切分的消除和未登录词的识别。这两大难题在彝文分词领域同样存在。
  彝文分词歧义。如:“”中“”(“今天”)、“”(“没有”)、“”(“咦”)、“”(“没关系”)都是词,这个短语就可以切分成“”和“”;等等。
  彝文分词中的未登录词,其最典型的是人名,如“(阿卓)” “(吾嘎)”等。未登录词除了人名外,还包括地名、产品名、机构名、商标名、简称略语、网络新词等。如:地名“”(“双流”);产品名“”(“泡泡糖”)、;机构名“”(“美姑毕摩文化研究所”)、;简称略语 “”(凉山州);网络新词“GG”(“哥哥”)、等。
  二、彝文分词系统设计原则
  基于既定词表的彝文分词系统的设计应遵循准确、高效、适用及可维护的原则。现分别描述如下:
  准确性:分词的准确率是衡量一个系统性能的最重要的指标,它直接反映的是分词系统的正确性和科学性。由于彝文分词过程的复杂性,要做到完全精准的切分是不可能的,我们只有不断发现和应用新的技术来提高分词系统的准确性。
  高效性:高效性是衡量一个分词系统性能的重要指标,它直接反映的是分词系统的切分速度。从现阶段的理论和技术看,提高现有各语种分词系统的切分速度相对于提高其准确性要容易的多。
  适用性:彝文自动分词系统的开发只是手段而非目的,其目的应该是服务于某个具体的应用。
  可维护性:彝文自动分词系统是其他各种高层次彝文信息处理技术的共同基础,因而必须具有良好的可维护性。如按实际需要对分词词表补充新词,删除过时词汇,修改错误词汇等。
  三、系统结构
  基于既定词表的彝文分词系统结构包括认字、断句、认词、分词、词表的维护等几个部分。现分别作具体的说明:
  1、认字:系统对所输入的文本进行字体上的识别。
  2、断句:对输入的文本进行断句处理。
  3、认词:系统对输入的文本与对应既定的词表进行认词的功能。
  4、分词:系统完成对所输入的文本的分词并输出结构。
  5、词表的维护:管理员对词表进行添加、删除等多种方式的维护和管理,并提供词频统计以及词表的导入、导出等功能。
  四、系统实现及性能评价
  彝文的分词系统使用VC++语言编程,采用Microsoft基础类库(MFC)的方式实现。这样建立的应用程序更加符合面向对象的思想,既能保证分词的高效率,又能保持源代码的稳定性。本系统是对彝文自动分词技术的一次尝试性探索,其分词准确率和切分速度都比较令人满意。操作简单方便,易于更新和移植,良好的可扩展性是本系统的特点。但对未登录词的识别和歧义现象的处理有待于进一步加强和完善。
  项目成果: 《信息处理用彝文分词规范研究》 项目编号: 12SZYQN37
  参考文献:
  [1]沙马拉毅.计算机彝文信息处理[M].四川民族出版社,2000.
  [2]黄建明.彝文文字学[M].民族出版社,2003.
  [3]孔祥卿.彝文的源流[M].民族出版社,2005.
其他文献
随着建筑行业的不断发展,为了促进行业之间的竞争,在工程建设中实行了工程招投标的竞争机制,这是工程建设的一个非常重要的环节.在我国建筑行业不断推行招投标的竞争机制以来
不久前,诺贝尔物理学奖颁发给3位日本科学家。他们在发现新型高效、环境友好型光源,即蓝色发光二极管(LED)方面做出了巨大贡献。虽然LED灯在使用寿命、发光效率和环保等方面
发改委近日下发的《国家发展改革委办公厅关于企业债券融资支持棚户区改造有关问题》通知指出,棚户区改造项目可发行并使用不超过项目总投资70%的企业债券和资金,鼓励有条件的
今年7月中旬到8月,省治水办联合多部门在全省开展“五水共治”和环境保护“督查+执法”行动。督查行动覆盖全省11个市的76个县(市、区),内容侧重各地“河长制”的落实、“清
伴随着经济的快速发展和技术的创新,当前今日的发展十分迅速,然而在我国农村地区金融的发展比较缓慢,本文主要针对我国农村的金融进行研究和分析,在此基础上更好的促进我国农
摘要:提问是连接“主导”和“主体”的纽带。课堂提问是教师发现问题、提出问题、分析问题和解决问题的过程,也是教师有意识地培养和发展学生的主体意识和思维能力的重要过程。  关键词:政治课堂 提问方法  提问是连接“主导”和“主体”的纽带。课堂提问是教师发现问题、提出问题、分析问题和解决问题的过程,也是教师有意识地培养和发展学生的主体意识和思维能力的重要过程。适时适度的提问才能充分发展学生的思维和智力,
建筑工程造价的动态管理和控制工作的开展,不仅会受到建筑工程造价多方面因素的影响,而且还会因同行业的竞争而使工作出现问题,所以动态管理和控制工作的重要性逐渐被忽视.只
党的十七届六中全会提出,“坚持政府主导,加强文化基础设施建设,完善公共文化服务网络,让群众广泛享有免费或优惠的基本公共文化服务。”这为构建公共文化服务体系、推进文化惠民
日前,商(丘)合(肥)杭(州)铁路正式通过国家发改委立项审批,预计总投资达到842亿元。记者注意到,进入第四季度,铁路建设有提速之势,除了发改委批复新线计划,各地也出台了规模庞大的投资计
摘 要 车辆购置税自2005年由国税部门负责征收以来,国家税务总局为加强对车辆购置税的管理,先对机动车辆实施“以票控税、信息共享、协同管理”的“一条龙”管理,强化了机动车辆税收在生产、消费、购置等各环节的信息沟通,使增值税、车辆购置税的税基得到有效保护,车辆经销企业缴纳的增值税款逐年增长,税负逐年提高;车辆购置税呈上升趋势,机动车辆税收管理得到加强。但是在实际工作中,车辆购置税政策和相关的制度还有