论文部分内容阅读
随着计算机的普及和互联网的迅猛发展,人类已经迈入了信息化社会,无论是在维吾尔语还是在其他语言中处理何种类型的数据都离不开计算机的使用。维吾尔语研究已成为信息处理领域热门话题。随着计算技术的快速发展,从最早的文字处理研究慢慢转向了自然语言处理的各个层面中。在此研究过程中所有的信息处理和研究都在词层面上进行的。现代维吾尔语中词可以分为实词和虚词两大类。实词具有同时表示词汇语义和语法语义的功能。因此,独自充当句子成分;虚词只能表示语法语义,它没有表示词汇语义功能。因此,它依附于实词之后,专门表示相应的语法功能。维吾尔语中虚词主要包括后置词、连词、语气词和感叹词等四种。维吾尔语中的同一个虚词,有时候可能扮演着既不同又特殊的角色,因而出现歧义性问题。歧义性的存在会大大降低维吾尔语虚词识别准确率,同时对句子的生成语义理解等方面产生负面影响。因此,消歧是维吾尔语虚词研究中的重要内容之一。论文的主要内容包括以下几个方面:1.本文对维吾尔语虚词自动识别研究过程中,主要对小学维吾尔文语文教教材中的所有的词和虚词进行详细而全面的研究。为了满足维吾尔语虚词信息化的需求,本文构建了较为完善的维吾尔语虚词电子语料库。2.从传统语言学角度来对维吾尔语虚词语法、语义结构进行分析,并构建了维吾尔语虚词识别规则库和虚词消歧规则库。根据计算语言学的理论技术和方法,设计并实现一个从文本中识别出维吾尔语虚词,并且能提供语法语义标注、语义解释等一系列信息的维吾尔语虚词自动识别系统。3.本系统在维吾尔语虚词识别过程中分成了四个子模块,各个模块包含着查询和统计功能,有效的减少从文本中识别维吾尔语虚词所需的时间,并且对以后的维吾尔语虚词研究领域中提供了一定的技术平台,在自然语言理解和处置中广泛运用,最重要的是弥补了虚词识别研究方面的空白。4.本文为提高虚词识别准确率,通过对小学维吾尔文语文不同五个年级的教材进行查询,最终识别出8539个虚词,识别准确率达到了83.50%。从而可知,本系统的实现文本分析中的舆情分析起着重要的作用,也为开展计算机理解与处理维吾尔语奠定了一个崭新的基础。