论文部分内容阅读
自然语言处理已经成为世界各国和各民族信息技术发展过程中至关重要的研究课题之一,伴随着如今大数据时代的到来,更加体现了它的学科优势性,成为了每一个民族信息处理的核心问题之一;词法分析和短语识别是自然语言处理的基础研究,其研究成果的优劣直接反映在后续语义理解研究及它们相应的应用系统;由于哈萨克语语料资源稀缺且词形态的多样性,词法分析和短语识别处理中存在的问题至今没有完全地解决,仍然存在诸多方面严峻挑战。如何有效地进行哈萨克语的词法分析和短语识别处理研究成为了哈萨克语自然语言处理中迫切需要解决的核心问题。本文重点研究哈萨克语词法分析和基本短语识别关键性的基础问题,通过分析词形态和短语结构,构建适合哈萨克语计算语言学的语言规则,再利用语言规则和统计方法构建语料库;进而研究词信息统计和形态分析、词性标注和基本短语识别方法,从而实现哈语语言学从传统的“定性研究”转入“定量研究”;不仅为进一步哈语的信息处理提供了方法和技术支撑,而且对哈语语言学研究提供了可靠的语料库数据和资源平台,同时其研究成果可应用于国内外哈语的机器翻译、语音识别、信息检索等的许多应用开发领域。特别哈语作为跨境语言,对“一带一路”的战略具有重要研究意义和实际应用价值。哈萨克语(简称:哈语)在语言谱系上属于阿尔泰语系突厥语族,以其黏着语特性,可以通过在词根或词干前后粘连附加成分的形式来表示其语法意义。本学位论文针对中国境内阿拉伯字符的哈萨克文文字,据其独特的语言特性,研究依据规则和统计技术去解决哈萨克语词法分析和基本短语识别的难题。从以下几个方面来完成研究工作:第一,为了解决哈语资源稀缺问题,本文首先规范化语料库的编码方式和存储格式,提出了规范化语料的加工内容,构建了语料库;针对词频问题,提出了基于语料库的词信息分析与统计方法,揭示了哈语词信息的一些语言现象和词信息相互间的语言规律,完成了基于语料库的词信息统计与分析。第二,为了解决哈萨克语词法分析中形态分析问题,本文深入剖析了包括词形态分析、词附加成分的切分与还原、词形态的歧义分析等的哈语语言特性;针对词形态结构,提出了基于哈语规律的词法形态模型;最后针对词干提取,提出了基于语言规律的词干提取算法,提出了“全切分+哈语语言规律和语言形态模型+最大匹配算法”的实现方法,实现了词的形态分析。第三,为了解决哈萨克语词法分析中的词性标注问题,提出了哈语词的标注内容为:词干、词性、附加成分的规范化设计。首先研究了将词、词性和附加成分为特征的适合哈语词性标注的统计模型方法,然后融入到两个统计模型处理哈语词性标注问题,提出了基于最大熵模型的基本词和基于条件随机场模型的兼类词和未登录词的哈语词性标注实现方法,实现了哈语词性标注研究。随后进一步引入哈语词干粘连不同词性属性词缀的特性,进行基于形态分析的词性标注,提出统计模型和哈萨克语语言规律相结合的词性标注方案,并获得了较理想的实验结果。第四,为了解决哈萨克语浅层句法分析中基本短语识别问题,首先通过哈语基本短语结构和歧义分析探讨,确定了名词性等几个主要基本短语组成规则;然后进行了基于哈语语言规律的基本短语识别研究;借鉴统计模型,提出了基于最大熵模型和条件随机场模型的基本短语识别的方法策略,并构建了短语库。总之,本文依据哈萨克语语言规则和统计信息处理的方法,借助统计语言模型和概率图模型方法,针对哈萨克语的词法分析和基本短语识别存在的问题,在语料库和短语库构建、词形态分析、词频统计、词性标注、基本短语识别的各个方面系统地进行了研究,构建了哈语的语料资源平台,提出了相应的适合哈语自然语言信息处理的解决方法,为后续哈语的句法分析和语义分析等研究打下基础。