论文部分内容阅读
中国手语环境下的自然语言处理是人工智能的一个重要分支,而手语环境下的汉语自动分词是中国自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题,同时也是实现自然语言和手语语言互译的一个技术难点。
中国手语环境下的分词方法和通用的分词方法差异很大,本文在分析手语词汇和手语环境的基础上,进行了排歧问题、手语词语分割问题等方面的研究。
本文提出了一种基于统计模型和知识库相结合歧义消减算法,即一种基于词的二元模型的广度似然比GLR算法,该算法结合了互信息MI模型和似然比LR模型的优点,不但减少了排歧过程的计算量,而且解决了数据稀疏敏感的问题。实验表明,该方法可有效的进行歧义消减。
本文关于手语词语分割的问题主要做了两方面的工作:
手语词典重构问题:针对中国手语的特点设计了适应于手语环境的字典重构策略,首先根据词典中无重复的手语词的首字进行HASH散列,然后首字相同的词语聚类存储。此结构不但使首字相同的词语聚类,而且提高了词语查找匹配的速度。
手语词分割的算法方面:提出了一种渐进式长度优先的正向匹配和逆向匹配分词算法。该方法不仅极大缩减了词语查找范围,且大大的减少了手语词查找和匹配的次数,提高了系统的性能,保证了系统的实时性。
本文设计和实现了大词汇量手语词的“汉语自动分词系统”,该系统包括Web文本的抓取和解析模块、语料预处理模块、语料切分模块、歧义字段识别和消减等模块。通过用大量的不同类型的语料作为测试集,做了封闭式和开放式的实验,验证了系统的性能。与人工分词结果相比,系统的分词正确率达到了90.00%左右,分词速度在8000~12000个词/秒。