论文部分内容阅读
[摘 要]文中以藏文位格助词为基础,分析了格助词LA的句式结构,并研究了藏文LA句式转换为汉文句子的方法。由于主语块的不同排列方式在藏汉两种语言的表达存在很大的差异,藏语句子翻译到汉语是通常发生格式转换。藏汉两种句子为分析对象,研究和分析两种语言之间格式转换的规律和规则。
[关键词]结构分析,格式转换,机器翻译
中图分类号:H42 文献标识码:A 文章编号:1009-914X(2015)45-0265-02
引言
近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要的分支,同时也是人工智能领域的一个课题,同样为大家所关注。在机器翻译理论中格式转换是一个重要的内容,是机器翻译理论实践的前提和基础。
机器翻译中格式转换处理包括六个环节,即句类转换、句式转换、主辅语块变换、语块构成变换、辅块排序调整和小句排序调整。其中句式转换包括格式转换和样式转换。据统计,汉英机器翻译中,需要进行格式转换的句子占。可见,格式转换是机器翻译的一个重要内容。目前在藏汉机器翻译中格式转换方面统计的资料欠缺,但从两种语言的结构差异来说格式转换是一项重要的内容。
1相关研究
格式,又叫语句格式,是指句子中语块的排列顺序,而这些主语块在不同的句子中可能顺序不同,这就是语句格式不同。
在世界上的语言中,按句子语序可分为三种类型:主动宾[SVO]、动主宾[VSO]、主宾动[SOV]。现代汉语在语序类型上属于SVO 型语言,而藏文自己特有的传统文法,藏语的句子有若干格关系构成,格关系是动词和其周围对象发生事件的约束关系。传统藏文文法无法满足在计算机中处理自然语言的结构分析。近年来现代语言学理论的影响,有藏族学者从现代语言学理论藏文句法进行阐述,填补了句法学领域的空白,位归纳藏语句子的结构类型,为面向计算机处理的藏语句法分析提供了新的思路和研究方法,但这还在启蒙阶段,没有形成符合藏文通用和成熟的现代文法理论。不同的语法理论的背景下对两种语言格式转换带来一定的困难。语句格式和句类之间存在着密不可分的联系:句类通过语法理论来描述语句的深层语义结构,格式描述语句的表层句法结构。
藏文在语序类型上一般属于[SOV]。语法上的一般规则是:句子成分一般按照“主语—宾语—谓语”的顺序排列。
2 藏语位格助词的添接法
位格助词共有“”七个形式,其中““两个形式属自由格助词,不受前一音节后加字的限制,可自由运用。在古藏文里[]一般表“向格”,[]一般表“于格”其他[]五个形式不自由格助词,受前一音节后加字的限制。
传统藏文位格助词的添接法的形式化描述:
设表示位格助词添接所需的后加字和在后加字的集合,Q表示不自由位格助词集合,R表示自由格助词集合,W表示自由格助词构建的句子,S表示通用的句子。
[]两个形式属于自由助词,不受前一音节后加字的限制,可自由运用,但有时自由运用形成不通用的句子,譬如:两个句子符合藏文的语法,但前者是通用的句子而后者一般不通用,所以自由虚词[]适时而用。S是通用的句子,那么FR产生的句子W是属于S,则W是通用的句子。[]说明现已不用的再后加字,[凵]说明无后加字。
3 位格助词LA句式的结构分析
藏语位格助词里面包括业格、为格、于格和可做时间状语。通常藏语中句式在语序上也可分为“主+宾+谓。而位格助词有多种用法,它们用在静态名词、代词和名词性短语的后面组成位格助词结构,根据与其后不同性能的谓语动词之间结合关系,分别在句中做宾语、状语、补语甚至主语。用在动词后面还起关联分句的连词作用。
2.1 位格助词在句子里面充当对象宾语。
藏语的宾语分两种,一种宾语表示动作所涉及的事物[],我们称之为“涉事宾语”[]。其后不加任何格助词。另一种宾语表示施事的动作及于所指向的某一对象[往往指人或动物],我们称之为“对象宾语”[]。
例如:我们要学习计算机。[涉事宾语]
老师给学生们讲革命故事。[对象宾语]
2.2 少数表心里状态和感情色彩的不自主及物动词做谓语是也只能带附加[]的对象,但这些动词同时又是没有所能关系的。因此主语上不能加作格助词。
例如:对敌人要恨,对亲者要和。
2.3 []可以做前后意义相顺,结构并列的两个形容词词根关联词,相当于汉语的“又………又………”、“既……….
且”的格式。又圆又亮的月亮。
这种用[]关联的修辞作用很强的短语在句中只能做修饰名词的定语,因为它具有名词与形容词双重性质,位置可前可后。
例如: [又圆又亮的月亮]<=>
2.4 []做并列复句的关联词[]。
用[]关联的各分句分别说明一件事,共同表达一个完整的意思。句式分为两种,一是仅在前一分句末加[]接引后一分句,表示一般的并列关系。二是前一分句末加[],后一分句还加起副词作用的[]与之呼应,共同表示并列关系而外,还多少带一点进一层的意味。例如:
江河虽平静但源远流长,浪涛虽澎湃却不会流长。
2.5 []还可用在命令式动词后。
例如:
2.6 []做连贯复句的关联词[]——几个分句按照时间顺序分别说出连续发生的动作和相关情况,一般叫做连贯复句。
例如:洗了手就吃饭。
2.7 []还可做感叹句的标志和动词或形容词的肯定与否定之间的“中嵌”关联词构成特定格式的成语性短语。
例如:
4 藏文位格助词LA句子转换汉语的规则
根据对于句子基本语义信息的重要程度不同,语义块分为主辅两大类。句子的语义结构表示式基本上只需主语义块。主语义块分为对象(B)、作用者(A)、内容(C)、特 征(E)4 种基元类型,其中 B、A、C 称为广义对象语义块(GBK),E 称为特征语义块(EK)。句类表示式按其主语义块的数量可划分为两块句、三块句、四块句,按照主语义块的排列顺序可分为基本格式和非基本格式。句类表示式的主语义块排列顺序都是选用基本格式,基本格式本身就带有主语义块类别的信息。藏语拉格句子基本格式规定广义对象语义块 GBK1 在第一位,EK 在末位,其余的按 m(m>1)取值的顺序从小到大排列,即两块句、三块句、四块句的格式。
符号“||”是全局主块分隔符,语句格式代码一“!”打头,后面加若干为数字,第一位数字表示格式类型。!0表示基本格式,!1表示规范格式,T表示藏文句子,C表示汉文句子,后面的各位数字用于对语义块的排序进行编码。
基本格式代码转换
规则0:!0T=+EK<=>!0C=EK+;
比如:
[二主块句] 参加‖会议。 (!0C)
规范格式代码转换
规则1:!1T=<=>!0C=;
(!1C)
[三主块句] 桑杰‖去 ‖汉地。(!1C)
5 结束语
本文分析和研究了藏文位格助词LA的句式结构,处理简单的位格助词LA的句式结构转换,并在此基础上探索了藏文位格助词LA句式转换的一般性的规律,通过对格式的研究,既可以展现同一句类的不同句法表现形式,也可以揭示不同句法表现形式在语义深层的关联性。因此,格式之于句类、格式转换研究之于句类转换研究具有特别重要的意义。
藏汉格式转换是机器翻译中一项重要的环节,是一项挑战性的工作,值得我们不断地探索和研究的课题。
参考文献
[1]吉太加.藏语语法研究[M].青海民族出版社.中国,2008:339-366.
[2]晋耀红.HNC[概念层次网络]语言理解技术及其应用[M].北京:科学出版社,2006.
[3]张颜红.英汉互译中格式转换[C] //张全,萧国政.HNC与语言研究.武汉:武汉理工大学出版社,2007:302-307.
[4]孙雄勇.汉英翻译中一般转移句格式转换[C]//苗传江,杜燕玲.第二届HNC与语言学研讨会论文集.北京:海洋出版社,2004:362-367.
[5]连巍巍,张克亮.面向汉英机器翻译的格式自转换研究[C]//朱小健,张全,陈小盟.HNC与语言学研究:第 4辑.北京:北京师范大学出版社,2010:297-303.
[6]格桑居冕,格桑央京.实用藏文文法教程[M].四川民族出版社,2004:44-101.
[7]林杏光.词汇语义和计算语言学[M].北京:语文出版社,1999.
[关键词]结构分析,格式转换,机器翻译
中图分类号:H42 文献标识码:A 文章编号:1009-914X(2015)45-0265-02
引言
近年来,自然语言处理的研究已经成为热点,而机器翻译作为自然语言研究领域的一个重要的分支,同时也是人工智能领域的一个课题,同样为大家所关注。在机器翻译理论中格式转换是一个重要的内容,是机器翻译理论实践的前提和基础。
机器翻译中格式转换处理包括六个环节,即句类转换、句式转换、主辅语块变换、语块构成变换、辅块排序调整和小句排序调整。其中句式转换包括格式转换和样式转换。据统计,汉英机器翻译中,需要进行格式转换的句子占。可见,格式转换是机器翻译的一个重要内容。目前在藏汉机器翻译中格式转换方面统计的资料欠缺,但从两种语言的结构差异来说格式转换是一项重要的内容。
1相关研究
格式,又叫语句格式,是指句子中语块的排列顺序,而这些主语块在不同的句子中可能顺序不同,这就是语句格式不同。
在世界上的语言中,按句子语序可分为三种类型:主动宾[SVO]、动主宾[VSO]、主宾动[SOV]。现代汉语在语序类型上属于SVO 型语言,而藏文自己特有的传统文法,藏语的句子有若干格关系构成,格关系是动词和其周围对象发生事件的约束关系。传统藏文文法无法满足在计算机中处理自然语言的结构分析。近年来现代语言学理论的影响,有藏族学者从现代语言学理论藏文句法进行阐述,填补了句法学领域的空白,位归纳藏语句子的结构类型,为面向计算机处理的藏语句法分析提供了新的思路和研究方法,但这还在启蒙阶段,没有形成符合藏文通用和成熟的现代文法理论。不同的语法理论的背景下对两种语言格式转换带来一定的困难。语句格式和句类之间存在着密不可分的联系:句类通过语法理论来描述语句的深层语义结构,格式描述语句的表层句法结构。
藏文在语序类型上一般属于[SOV]。语法上的一般规则是:句子成分一般按照“主语—宾语—谓语”的顺序排列。
2 藏语位格助词的添接法
位格助词共有“”七个形式,其中““两个形式属自由格助词,不受前一音节后加字的限制,可自由运用。在古藏文里[]一般表“向格”,[]一般表“于格”其他[]五个形式不自由格助词,受前一音节后加字的限制。
传统藏文位格助词的添接法的形式化描述:
设表示位格助词添接所需的后加字和在后加字的集合,Q表示不自由位格助词集合,R表示自由格助词集合,W表示自由格助词构建的句子,S表示通用的句子。
[]两个形式属于自由助词,不受前一音节后加字的限制,可自由运用,但有时自由运用形成不通用的句子,譬如:两个句子符合藏文的语法,但前者是通用的句子而后者一般不通用,所以自由虚词[]适时而用。S是通用的句子,那么FR产生的句子W是属于S,则W是通用的句子。[]说明现已不用的再后加字,[凵]说明无后加字。
3 位格助词LA句式的结构分析
藏语位格助词里面包括业格、为格、于格和可做时间状语。通常藏语中句式在语序上也可分为“主+宾+谓。而位格助词有多种用法,它们用在静态名词、代词和名词性短语的后面组成位格助词结构,根据与其后不同性能的谓语动词之间结合关系,分别在句中做宾语、状语、补语甚至主语。用在动词后面还起关联分句的连词作用。
2.1 位格助词在句子里面充当对象宾语。
藏语的宾语分两种,一种宾语表示动作所涉及的事物[],我们称之为“涉事宾语”[]。其后不加任何格助词。另一种宾语表示施事的动作及于所指向的某一对象[往往指人或动物],我们称之为“对象宾语”[]。
例如:我们要学习计算机。[涉事宾语]
老师给学生们讲革命故事。[对象宾语]
2.2 少数表心里状态和感情色彩的不自主及物动词做谓语是也只能带附加[]的对象,但这些动词同时又是没有所能关系的。因此主语上不能加作格助词。
例如:对敌人要恨,对亲者要和。
2.3 []可以做前后意义相顺,结构并列的两个形容词词根关联词,相当于汉语的“又………又………”、“既……….
且”的格式。又圆又亮的月亮。
这种用[]关联的修辞作用很强的短语在句中只能做修饰名词的定语,因为它具有名词与形容词双重性质,位置可前可后。
例如: [又圆又亮的月亮]<=>
2.4 []做并列复句的关联词[]。
用[]关联的各分句分别说明一件事,共同表达一个完整的意思。句式分为两种,一是仅在前一分句末加[]接引后一分句,表示一般的并列关系。二是前一分句末加[],后一分句还加起副词作用的[]与之呼应,共同表示并列关系而外,还多少带一点进一层的意味。例如:
江河虽平静但源远流长,浪涛虽澎湃却不会流长。
2.5 []还可用在命令式动词后。
例如:
2.6 []做连贯复句的关联词[]——几个分句按照时间顺序分别说出连续发生的动作和相关情况,一般叫做连贯复句。
例如:洗了手就吃饭。
2.7 []还可做感叹句的标志和动词或形容词的肯定与否定之间的“中嵌”关联词构成特定格式的成语性短语。
例如:
4 藏文位格助词LA句子转换汉语的规则
根据对于句子基本语义信息的重要程度不同,语义块分为主辅两大类。句子的语义结构表示式基本上只需主语义块。主语义块分为对象(B)、作用者(A)、内容(C)、特 征(E)4 种基元类型,其中 B、A、C 称为广义对象语义块(GBK),E 称为特征语义块(EK)。句类表示式按其主语义块的数量可划分为两块句、三块句、四块句,按照主语义块的排列顺序可分为基本格式和非基本格式。句类表示式的主语义块排列顺序都是选用基本格式,基本格式本身就带有主语义块类别的信息。藏语拉格句子基本格式规定广义对象语义块 GBK1 在第一位,EK 在末位,其余的按 m(m>1)取值的顺序从小到大排列,即两块句、三块句、四块句的格式。
符号“||”是全局主块分隔符,语句格式代码一“!”打头,后面加若干为数字,第一位数字表示格式类型。!0表示基本格式,!1表示规范格式,T表示藏文句子,C表示汉文句子,后面的各位数字用于对语义块的排序进行编码。
基本格式代码转换
规则0:!0T=+EK<=>!0C=EK+;
比如:
[二主块句] 参加‖会议。 (!0C)
规范格式代码转换
规则1:!1T=<=>!0C=;
(!1C)
[三主块句] 桑杰‖去 ‖汉地。(!1C)
5 结束语
本文分析和研究了藏文位格助词LA的句式结构,处理简单的位格助词LA的句式结构转换,并在此基础上探索了藏文位格助词LA句式转换的一般性的规律,通过对格式的研究,既可以展现同一句类的不同句法表现形式,也可以揭示不同句法表现形式在语义深层的关联性。因此,格式之于句类、格式转换研究之于句类转换研究具有特别重要的意义。
藏汉格式转换是机器翻译中一项重要的环节,是一项挑战性的工作,值得我们不断地探索和研究的课题。
参考文献
[1]吉太加.藏语语法研究[M].青海民族出版社.中国,2008:339-366.
[2]晋耀红.HNC[概念层次网络]语言理解技术及其应用[M].北京:科学出版社,2006.
[3]张颜红.英汉互译中格式转换[C] //张全,萧国政.HNC与语言研究.武汉:武汉理工大学出版社,2007:302-307.
[4]孙雄勇.汉英翻译中一般转移句格式转换[C]//苗传江,杜燕玲.第二届HNC与语言学研讨会论文集.北京:海洋出版社,2004:362-367.
[5]连巍巍,张克亮.面向汉英机器翻译的格式自转换研究[C]//朱小健,张全,陈小盟.HNC与语言学研究:第 4辑.北京:北京师范大学出版社,2010:297-303.
[6]格桑居冕,格桑央京.实用藏文文法教程[M].四川民族出版社,2004:44-101.
[7]林杏光.词汇语义和计算语言学[M].北京:语文出版社,1999.