论文部分内容阅读
中文分词是自然语言处理一项重要的基础性任务。一直以来,中文信息处理的对象主要是现代汉语,在古代汉语的处理方面还远远不足。作为自然语言处理的一个分支,古代汉语信息处理的核心任务是词处理,只有在实现古代汉语分词的基础上才能够真正为古典文献学提供数字化的技术手段。本文结合古代汉语信息处理的特点,以中古史传文献《汉书》为例,从词汇获取的层面和字标注的层面探讨古代汉语分词的多种方法。我们主要进行了以下几个方面的工作:1.制定针对《汉书》词语的切分细则,归纳分词过程中疑难字串的类别并探讨处理办法。我们参照已有的面向现代汉语的分词规范,结合《汉书》中的用词实例,依据不同词类制定了信息处理用的《汉书》分词规范,并对于同一词类间的不同分词情况进行分析说明。不同于以往分词规范的是,我们通过对比查找以及类推的方法,搜集切分困难和切分不一致的疑难字串,对这一类字串展开专门的讨论,并将这些字串按照构成结构进行分类。以其中一类为例,给出了处理疑难字串分词的统计依据和具体操作办法。2.通过多种渠道获取分词词表,收集了三大类的词表。一是地名表、人名表、以及先秦词表这类可以直接获取的词表;二是通过双字互信息阈值筛选所得词表,通过对文本双字互信息值的计算获取,经反复实验,得出最适合《汉书》分词的互信息阈值约为7.5;三是注疏词表获取,主要利用注疏文献《汉书补注》在实现注疏对齐的基础上,根据基于字符串匹配的方法从注疏文献中获取词汇信息,生成注疏词表。同以往的注疏词表获取不同的是,我们对初步获得的词条添加后处理过程,利用第一类词表中的已登录词切分过长字串,提高词表精度,更为简单快捷。最后,我们添加了对三类词表的分词效果比较,发现就单个词表分词而言,注疏词表效果最为显著,F值达到83.3%。对于多个词表综合的分词,实验结果表明,最优的词表组合是专有名词词表(人名表和地名表)和注疏词表,其分词的F值超过了85%,比baseline提高了近8个百分点。因此,我们认为,基于词表的分词,注疏词表和专名词表是最优的分词词表组合。3.选取不同语言特征,用条件随机场模型进行基于字标注的分词。在《汉书》的实际分词中,选取合适的特征模板,并添加一些相关的语言特征用以辅助分词,例如字符分类,声、韵等,并首次尝试加入上古音、上古韵这两大特征并与中古音、中古韵的分词效果进行对比。分组实验结果表明以1W+2(上下文窗口长度为1,2个字符同现的模板)为基础的分词模板效果普遍较好,增加了字符分类(C1)和上古音(C5)的1W+2+C1’5’模板在特征二元同现(’表示特征的二元同现)的情况下分词效果最优,F值可以达到94.4%。4.在实现汉书分词的基础上,对于《汉书》的词汇概貌从词长、高频词、成语、特征词等多个方面做了简要的描述和统计分析。统计结果表明,《汉书》中单音节词占比仅为24.24%,但在使用频率远高于多音节词,用例占比约为80.29%,说明《汉书》用词仍以单音节词为主。通过比较《汉书》与25部先秦文献以及《人民日报》1998年1月语料的平均词长,也印证了汉语从单音节词向多音节词的发展规律。《汉书》高频词的统计结果证明了文中关于《汉书》高频字表即高频单字词表的推测;四字成语的统计为考察部分成语来源提供了参考依据;“匈奴”、“汉王”、“单于”等时代特征词的成功抽取也正确地反映了《汉书》的时代面貌。