论文部分内容阅读
摘 要 彝文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理。当前的彝文信息处理的主要任务已从“字处理”过渡到了“词处理”。而在“词处理”领域,自动分词技术的实现是其他一切技术实现的前提,是基础中的基础。彝文自动分词系统的实现,标志着彝文信息处理技术的一大进步。
关键词 彝文分词 实现
一、彝文自身的特点与实现自动分词的难点分析
信息处理用彝文文本是由连续的字符组成的,中间没有空格。综观彝文自身的特点与现阶段计算语言学在自动分词上的研究,彝文自动分词研究主要存在以下两方面的困难。
第一、语言学上的困难:
1、对词的定义的不统一性。“最小的能够独立应用的语言单位”是汉语语言学界对词的形式定义。而对词的具体界定一直飘忽不定,至今没有一个公认的、具有权威性的词表。彝文同样存在这个困难:不仅没有统一的、严格的非形式定义,对形式或抽象定义都还存在一定的问题。导致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界。如:
名词+名词结构的:(花草)、(水木);
形容词+形容词结构的:(合适)、(美好);
形容词+名词结构的:(小学)、(谎言);
名词+形容词结构的:(糟糕)、(精明人);
名词+动词结构的:(有狗)、(杀牛);
形容词+否定词结构的:(能干的人)——(不能干的人);
动词+补语+否定结构的:(打死)——(别打死)等。
2、彝文分词还没有形成一个公认的分词标准,同一文本可能被不同的人划分为几种不同的结果。
如“(不该争而争,争荞饼熟不熟,争酸汤温不温)”的分词结果一:;分词结果二:;分词结果三:;等。
3、彝文中有大量“”(尔比),即谚语、成语、俗语、格言、典故、熟语等之意。其结构紧密,语言精湛,语义完整。“尔比”中的许多字符可以单独切分为词,也可以与其他字符或字符串组成词,在彝文分词上体现出一定的复杂性。如: “”(“有父之女显高贵,有兄弟之姐妹显漂亮”)等。
第二、计算机方面的困难:
1、没有合理的自然语言处理模型。
从目前汉语分词的理论和技术现状看,通用的、高质量的自然语言处理系统的研发仍是今后较长时期内努力的目标。彝文自动分词技术的研究尚处在起步阶段,没有任何关于彝文语言模型理论或实践的参考。
2、没有有效利用和表示分詞所需的语法知识和语义知识。
对任何一门语言的信息处理,都不是单纯意义上的语言学研究。信息处理在自动分词上的研究还广泛涉及到计算机科学、信息科学、系统论、控制论、心理学、数学、自动化技术、人工智能等。
3、歧义切分和未登录词
在汉语分词过程中,有两大难题一直没突破,即是歧义切分的消除和未登录词的识别。这两大难题在彝文分词领域同样存在。
彝文分词歧义。如:“”中“”(“今天”)、“”(“没有”)、“”(“咦”)、“”(“没关系”)都是词,这个短语就可以切分成“”和“”;等等。
彝文分词中的未登录词,其最典型的是人名,如“(阿卓)” “(吾嘎)”等。未登录词除了人名外,还包括地名、产品名、机构名、商标名、简称略语、网络新词等。如:地名“”(“双流”);产品名“”(“泡泡糖”)、;机构名“”(“美姑毕摩文化研究所”)、;简称略语 “”(凉山州);网络新词“GG”(“哥哥”)、等。
二、彝文分词系统设计原则
基于既定词表的彝文分词系统的设计应遵循准确、高效、适用及可维护的原则。现分别描述如下:
准确性:分词的准确率是衡量一个系统性能的最重要的指标,它直接反映的是分词系统的正确性和科学性。由于彝文分词过程的复杂性,要做到完全精准的切分是不可能的,我们只有不断发现和应用新的技术来提高分词系统的准确性。
高效性:高效性是衡量一个分词系统性能的重要指标,它直接反映的是分词系统的切分速度。从现阶段的理论和技术看,提高现有各语种分词系统的切分速度相对于提高其准确性要容易的多。
适用性:彝文自动分词系统的开发只是手段而非目的,其目的应该是服务于某个具体的应用。
可维护性:彝文自动分词系统是其他各种高层次彝文信息处理技术的共同基础,因而必须具有良好的可维护性。如按实际需要对分词词表补充新词,删除过时词汇,修改错误词汇等。
三、系统结构
基于既定词表的彝文分词系统结构包括认字、断句、认词、分词、词表的维护等几个部分。现分别作具体的说明:
1、认字:系统对所输入的文本进行字体上的识别。
2、断句:对输入的文本进行断句处理。
3、认词:系统对输入的文本与对应既定的词表进行认词的功能。
4、分词:系统完成对所输入的文本的分词并输出结构。
5、词表的维护:管理员对词表进行添加、删除等多种方式的维护和管理,并提供词频统计以及词表的导入、导出等功能。
四、系统实现及性能评价
彝文的分词系统使用VC++语言编程,采用Microsoft基础类库(MFC)的方式实现。这样建立的应用程序更加符合面向对象的思想,既能保证分词的高效率,又能保持源代码的稳定性。本系统是对彝文自动分词技术的一次尝试性探索,其分词准确率和切分速度都比较令人满意。操作简单方便,易于更新和移植,良好的可扩展性是本系统的特点。但对未登录词的识别和歧义现象的处理有待于进一步加强和完善。
项目成果: 《信息处理用彝文分词规范研究》 项目编号: 12SZYQN37
参考文献:
[1]沙马拉毅.计算机彝文信息处理[M].四川民族出版社,2000.
[2]黄建明.彝文文字学[M].民族出版社,2003.
[3]孔祥卿.彝文的源流[M].民族出版社,2005.
关键词 彝文分词 实现
一、彝文自身的特点与实现自动分词的难点分析
信息处理用彝文文本是由连续的字符组成的,中间没有空格。综观彝文自身的特点与现阶段计算语言学在自动分词上的研究,彝文自动分词研究主要存在以下两方面的困难。
第一、语言学上的困难:
1、对词的定义的不统一性。“最小的能够独立应用的语言单位”是汉语语言学界对词的形式定义。而对词的具体界定一直飘忽不定,至今没有一个公认的、具有权威性的词表。彝文同样存在这个困难:不仅没有统一的、严格的非形式定义,对形式或抽象定义都还存在一定的问题。导致这个困难一方面是单字词与语素之间的划界,另一方面是词与短语(词组)的划界。如:
名词+名词结构的:(花草)、(水木);
形容词+形容词结构的:(合适)、(美好);
形容词+名词结构的:(小学)、(谎言);
名词+形容词结构的:(糟糕)、(精明人);
名词+动词结构的:(有狗)、(杀牛);
形容词+否定词结构的:(能干的人)——(不能干的人);
动词+补语+否定结构的:(打死)——(别打死)等。
2、彝文分词还没有形成一个公认的分词标准,同一文本可能被不同的人划分为几种不同的结果。
如“(不该争而争,争荞饼熟不熟,争酸汤温不温)”的分词结果一:;分词结果二:;分词结果三:;等。
3、彝文中有大量“”(尔比),即谚语、成语、俗语、格言、典故、熟语等之意。其结构紧密,语言精湛,语义完整。“尔比”中的许多字符可以单独切分为词,也可以与其他字符或字符串组成词,在彝文分词上体现出一定的复杂性。如: “”(“有父之女显高贵,有兄弟之姐妹显漂亮”)等。
第二、计算机方面的困难:
1、没有合理的自然语言处理模型。
从目前汉语分词的理论和技术现状看,通用的、高质量的自然语言处理系统的研发仍是今后较长时期内努力的目标。彝文自动分词技术的研究尚处在起步阶段,没有任何关于彝文语言模型理论或实践的参考。
2、没有有效利用和表示分詞所需的语法知识和语义知识。
对任何一门语言的信息处理,都不是单纯意义上的语言学研究。信息处理在自动分词上的研究还广泛涉及到计算机科学、信息科学、系统论、控制论、心理学、数学、自动化技术、人工智能等。
3、歧义切分和未登录词
在汉语分词过程中,有两大难题一直没突破,即是歧义切分的消除和未登录词的识别。这两大难题在彝文分词领域同样存在。
彝文分词歧义。如:“”中“”(“今天”)、“”(“没有”)、“”(“咦”)、“”(“没关系”)都是词,这个短语就可以切分成“”和“”;等等。
彝文分词中的未登录词,其最典型的是人名,如“(阿卓)” “(吾嘎)”等。未登录词除了人名外,还包括地名、产品名、机构名、商标名、简称略语、网络新词等。如:地名“”(“双流”);产品名“”(“泡泡糖”)、;机构名“”(“美姑毕摩文化研究所”)、;简称略语 “”(凉山州);网络新词“GG”(“哥哥”)、等。
二、彝文分词系统设计原则
基于既定词表的彝文分词系统的设计应遵循准确、高效、适用及可维护的原则。现分别描述如下:
准确性:分词的准确率是衡量一个系统性能的最重要的指标,它直接反映的是分词系统的正确性和科学性。由于彝文分词过程的复杂性,要做到完全精准的切分是不可能的,我们只有不断发现和应用新的技术来提高分词系统的准确性。
高效性:高效性是衡量一个分词系统性能的重要指标,它直接反映的是分词系统的切分速度。从现阶段的理论和技术看,提高现有各语种分词系统的切分速度相对于提高其准确性要容易的多。
适用性:彝文自动分词系统的开发只是手段而非目的,其目的应该是服务于某个具体的应用。
可维护性:彝文自动分词系统是其他各种高层次彝文信息处理技术的共同基础,因而必须具有良好的可维护性。如按实际需要对分词词表补充新词,删除过时词汇,修改错误词汇等。
三、系统结构
基于既定词表的彝文分词系统结构包括认字、断句、认词、分词、词表的维护等几个部分。现分别作具体的说明:
1、认字:系统对所输入的文本进行字体上的识别。
2、断句:对输入的文本进行断句处理。
3、认词:系统对输入的文本与对应既定的词表进行认词的功能。
4、分词:系统完成对所输入的文本的分词并输出结构。
5、词表的维护:管理员对词表进行添加、删除等多种方式的维护和管理,并提供词频统计以及词表的导入、导出等功能。
四、系统实现及性能评价
彝文的分词系统使用VC++语言编程,采用Microsoft基础类库(MFC)的方式实现。这样建立的应用程序更加符合面向对象的思想,既能保证分词的高效率,又能保持源代码的稳定性。本系统是对彝文自动分词技术的一次尝试性探索,其分词准确率和切分速度都比较令人满意。操作简单方便,易于更新和移植,良好的可扩展性是本系统的特点。但对未登录词的识别和歧义现象的处理有待于进一步加强和完善。
项目成果: 《信息处理用彝文分词规范研究》 项目编号: 12SZYQN37
参考文献:
[1]沙马拉毅.计算机彝文信息处理[M].四川民族出版社,2000.
[2]黄建明.彝文文字学[M].民族出版社,2003.
[3]孔祥卿.彝文的源流[M].民族出版社,2005.