论文部分内容阅读
本文将借鉴国内外相关语料库的做法,重点探讨这个问题,主要包括转写内容、转写中遇到的问题和转写规则三个部分.口语语料库建设最关键也是最耗时、耗力的工作是语料的转写与标注,在真实性原则与完整性原则的指导下进行。转写中遇到的最大问题是单纯汉字转写的不准确性,转写时对于非正常停顿的呈现是非常必要和有意义的,学习者在口语表达中还会出现各种重复在转写过程中也应该进行相应的呈现。针对单纯汉字转写的不准确性问题,建议采用拼音汉字双重转写。第一层是汉语拼音层,第二层是汉字层。关于停顿,运用语图仪等设备,采用科学的研究方法,研究停顿的时间问题,探讨其可能负载的语用意义,进而进行科学有效地转写。关于重复的问题,建议只转写一次,然后在重复的单音节字词后面加[wr],短语后面加[pr],句子后面加[sr]。对于内容无法分辨或完全听不清的部分,借鉴英语口语语料库的转写方法,无法辨别的用“>”表示,一个“>”代表一个音节,像一些人名地名;如果是整个语句没有听清,我们用[X]表示。对于数字的转写,建议不用阿拉伯数字,而使用汉字。