论文部分内容阅读
文章叙述了“汉语新词语辅助识别系统”的开发过程。该系统的主要任务是结合使用规则方法和统计方法,利用计算机自动从大规模电子文本中提取候选新词语,帮助现代汉语语文词典编纂者发现新词语。同时,本系统也可以用于处理中文信息处理中的未登录词识别问题。 语言学家多从意合的角度解释构词的规律,属于定性的方法,得到的结论难以形式化,在计算机上实现起来比较困难。迄今为止还没有一个关于“词”的完整、准确、令所有人认同的定义,语言学家在判断“词”时常常要依靠“语感”。目前也没有一套切实可行的标准和操作程序让计算机来判断一个字串是否是词。因此,本文力求从定量的角度描述某些构词规则,使它具有可操作性。 统计学方法试图以大量词语的统计特征反映构词的规律。但由于统计方法本身的局限性,无法全面正确地揭示这一规律。而且统计规律受统计资料的影响非常明显,对不同类别的语料统计所得到的结论往往不尽相同,甚至互相冲突。同时统计资料的规模也会影响统计结果。因此单用统计方法也不能很好地解决新词语识别和未登录词的问题。 本系统的一个特点是结合使用了以上两种方法。统计规则方法的可计算性强,易于在计算机上实现。但它也存在着自身不可克服的弱点,例如统计上的小概率事件在实际应用中变成了不可能事件,因为机器在识别时总是会倾向于选择概率较大的结论。这时就需要由语言规则来进行校正。语言规则越完善,可操作性越强,得到的结果也越准确。所以在这次实验中尽可能合理地使用语言规则,让尽量多的构词规律具有可操作性。 本系统开发的另一个特点是利用了大规模的语料进行训练。本系统使用《人民日报》电子版作为实验语料,经程序处理过的语料近七千万字。《人民日报》的特点是发行量大,流通度广,实时性强,使用语言规范。使用大规模语料的目的是为了保证实验的可靠性。在实验过程中,反复对大量语料的处理结果进行分析,不断调整使用各种规则和统计方法的时机,校正处理过程中的失误和偏差,得到了比较满意的实验结果。 另外,本系统在开放式规则识别方面作了一些尝试。在系统中的规则部分,把具体规则放入程序之外的文本文件,程序执行过程中,从不同文件中读取相应的规则进行处理。如果需要对规则进行改动,可以按照规则的格式,对文本文件进行编辑,加入、删除规则,而不需要改动程序本身。