论文部分内容阅读
蒙古语基本动词短语自动识别研究属于语言学基础研究,是语言信息处理重要研究课题。蒙古语基本动词短语自动识别研究包括边界识别和结构判定两部分内容。为归纳基本动词短语识别规则,作者从100万词级现代蒙古语语料库中选取部分语料建立训练集Ⅰ(约4万词)和训练集Ⅱ(约20万词),并对训练集Ⅰ的全部句子(共1501个句子)进行短语结构分析。根据短语结构分析结果,挑选出2751条基本动词短语,创建基本动词短语库VPset。对VPset的全部实例进行统计分析的基础上,归纳基本动词短语词类组合类型与相应的形态特征、基本动词短语成分之间的结构关系类型与相应的形态特征,并提出基于结构性质与统计信息的基本动词短语识别优先级别。根据VPset的实例分析,一方面,对某些基本动词短语类型的组成成分进行再分类探索,另一方面,利用现有的短语结构规则研究成果建立面向基本动词短语自动识别的上下文信息表。结合本课题研究,本文提出原因俱全原则和约束适度原则。在这两种原则的支配下,把词类、形态、子类和上下文特征等信息组织成基本动词短语识别规则。在基本动词短语识别规则的形式化描述方面,在参考复杂特征理论的基础上,结合基本短语的特点,提出面向基本短语形式化描述的MBT形式模型,有效形式化了蒙古语基本动词短语识别规则。根据基本动词短语识别规则,用VB程序设计语言编写基本动词短语识别软件,并在训练集Ⅰ和训练集Ⅱ中进行自动识别测试,给出自动识别的召回率和准确率。根据测试结果分析,归纳边界潜在歧义格式和关系潜在歧义格式的同时,对其消解策略进行探讨,并利用上下文信息优化基本动词短语识别规则。根据优化的基本动词短语识别规则,在100万词级现代蒙古语语料库中进行自动识别。识别结果表明,边界识别的准确率达86.69%,结构判定的准确率达80.12%。在目前的条件下,这样的识别效果还是令人满意。