论文部分内容阅读
字母词语是汉语中出现的一种新型外来语(如:WTO、CT、OA等)和构词形式(如:HSK、GB、3C等),目前,它们在汉语中的使用呈现飙升的趋势,而且一定程度上存在使用形式混乱,同一个概念两岸四地有多种表示,如不及时发现、收集和规范,势必影响科技信息的理解、交流和汉语汉字的信息化发展。在大规模真实文本中对字母词语进行考察分析的结果是国家语言文字管理部门制订规范的一个重要依据。 字母词语尤其是那些与汉字搭配组成专名、术语的字母词语,它们作为中文信息处理自动分词中的未登录词语,信息检索中的叙词,机器翻译中的翻译单位,自动分类、自动文摘、语音识别的关键词语和命名实体……,其正确识别与否,将直接影响到语言信息处理系统的召回率和准确率。 为此,我们基于北京语言大学应用语言学研究所的DCC动态流通语料库,选择2002年全年的《人民日报》《北京青年报》《羊城晚报》网络版文本,共1亿66万字的语料,建立了字母词语考察语料库。在此基础上,对字母词语的使用状况进行考察,并寻找一种快速有效的字母词语识别方法。 本文对字母词语的使用状况和字母词语的自动识别进行了较深入的分析和研究,取得了以下几项有特色的研究成果: (1) 提出了形式化的字母词语工程定义(ELWP~1)。这个定义从面向信息处理、面向字母词语考察的角度出发,对字母词语进行了工程界定(以下的字母词语均指ELWP),并通过字母词语自动提取系统和标注系统显示了该定义的可操作性。 (2) 通过对字母词语自身的特点和其出现的上下文语境的深入分析,提出了以字母串为中心的“中心扩展的规则+统计”的字母词语自动提取算法,并设计和实现了一个字母词语自动提取系统。实验结果表明该系统的正确率达到了82%左右。本系统还特别为字母词语双语对释的情况设计了编码系统,进行了专门的识别处理,从提取结果直接可以得到一批字母词语双语资源,目前已取得712条。 (3) 建立了56万字经人工校对的字母词语标注语料库,其语料可以用作字母词语自动识别和提取的训练语料与测试语料。 (4) 在自动提取规则集基础上,采用基于错误驱动的机器学习策略对已有规则