Urdu语言词性标注的统计学方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cerfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言在人们的日常生活中扮演着重要的角色,是执行任务、完成工作的手段。语言有口语、书面语之分。在任何语言处理任务中,语料库语言学的研究都很有意义。一般来说,语料是组织好的文本集合,包括口语和书面语资源。从计算语言学的角度,语料是采用电子手段处理的大量文本的集合,包含各种各样的信息。语料能够准确揭示语言的使用模式,是语言统计学产生的根源。不同的基于语料库的方法可以被用来完成不同的语言学相关任务。  基本上,对屈折语言进行句法分析和信息检索等任务的研究时,使用的资源是经过词法分析的文本。例如给每个词语指定一个包含所有可能词法类别标记的集合,能够使词语本身更有意义,也更容易理解。然而多数系统需要更加精准的信息,这些系统仅仅需要一个单独的词法类别,以便准确地应用在特定的文本中。这一过程被称为“标注”(Tagging),它利用输入文本中词语的上下文从标记类别中选择最适当的标记。  在任何与自然语言处理相关的任务中,标注问题的重要性都丝毫不能忽略。本文的主要研究对象是乌尔都语(Urdu)。跟其他语言,如英语、汉语相比,乌尔都语的计算机自动处理技术研究远远落在后面。这主要归因于缺乏标准标注集和已标注资源。考虑到这些资源的昂贵价格和构建的困难性,这是难以避免的。然而,就像论文里所描述的,我们跨越了这些障碍。  乌尔都语属于印欧语系,受波斯语和阿拉伯语的影响很大,同印地语关系密切,是东南亚地区的一种重要语言。在许多国家,如巴基斯坦、印度和阿富汗等具有重要的地位。全世界有超过6千万人把乌尔都语作为母语,有超过1亿人把乌尔都语作为第二语言。在互联网时代,研究乌尔都语的自动处理技术,对于乌尔都语的使用和推广具有重要作用,因而本文的研究具有重要意义。  我们考察了乌尔都语词性标注研究中的各种不同问题。对乌尔都语分析的结果表明,对于词序自由(freewordorder)和高度屈折(highlyinflected)的语言来说,未登录词是标注错误的主要来源。英语中的未登录词大多数都是专有名词,然而研究表明,乌尔都语的未登录词通常是有标志或无标志的名词、动词以及无标志的形容词。这些未登录词与乌尔都语结合起来,加深了标注问题的难度,在这个意义上乌尔都语更像土耳其语(Turkish)或捷克语(Czech),而不是英语。  本文着重论述我们在乌尔都语词性标注方面所取得的进展。统计方法在其他自然语言的处理过程中曾经大显身手,因此他们也被用来构建和标注乌尔都语的语料库。鉴于其他印度语系语言语料的缺乏,本文所获得的事实和结论对于其他印度语系语言来说也富有积极的启发意义。  乌尔都语作为一种高度屈折和词序结构自由的语言,具有很高的歧义性。本文着重于使用不同的基于统计的方法来处理乌尔都语语料,比如N-gram,基于词形态结构的模型,隐马尔科夫模型(HiddenMarkovModel)以及最大熵模型(MaximumEntropyModel)。  我们首先使用了N-gram模型,重点分析了Unigram、Bi-gram和Back-off模型在乌尔都语词性标注中的应用。这些模型标注时使用了覆盖词语周围信息的上下文。我们也分别考察了两种标注集(大小不同)和语料规模对N-gram标注模型性能的影响,结果表明我们提出的小标注集获得了非常好的效果。在大、小标注集的基础上,我们进一步构造了混淆矩阵来分析最容易产生歧义的标注子集,并通过使用基于统计的t-分布来考察使用大、小标注集结果的有效性。跟其他复杂的统计模型相比较,N-gram既简单又有效。  接着我们使用隐马尔科夫模型来解决歧义问题。我们使用有监督学习算法基于已标注语料库进行模型的参数选择,并使用Viterbi算法找出与文本中词语序列最匹配的词性标记序列。我们的方法最突出的特点是在隐马尔科夫模型中整合了多种有名的平滑技术,比如Laplace、Lidstone、Expected、Likelihood、WittenBell和GoodTuring等等。我们观察到平滑技术在处理未登录词时起到了很重要的作用,但是有时基于规则的方法也很有效。对于各种平滑技术,我们针对屈折性比较高的词性标记构造了混淆矩阵进行分析。此外,还使用了基于方差分析(ANOVA)的统计评价方法进行分析,结果表明平滑技术对于整体的标注正确率和未登录词正确率有很重要的影响。  最大熵模型也被我们采用用来解决乌尔都语的词性标注问题。最大熵模型也是一种有监督的学习方法,因此需要标注好的语料库。在最大熵模型中,我们采用的特征包括词语形态学特征和上下文特征。两种参数估计方法:GIS和LBFGS被分别用来训练模型的参数。实验中我们发现,LBFGS比GIS具有更快的速度和更好的效果。我们设计了针对不同标注集和不同规模的训练集上的实验,这些实验的结果表明,采用最大熵方法,乌尔都语的词性标注的整体准确率位于89.71%和97.16%之间。其中,词表词的词性标注的准确率位于90.12%和97.73%之间,未登录词的词性标注的准确率位于81.75%和86.20%之间。这个结果表明乌尔都语的词性标注的性能达到了实用水平。  最后我们把基于词形态结构的模型整合到统计模型中,着重评价基于词形态结构的方法在处理未登录词问题的效果。统计模型在此处仅仅起到过滤未登录词的作用。词形态结构特征基于常用的屈折变化进行抽取,我们通过使用相关方法的结果的平均值来分析新模型的性能提升的统计显著性。该分析在对词性标注的性能进行评价的同时还能够显示每一个词形态结构特征集合的有效性。  本文中所有的标注系统都是通过在EMILLE语料库上进行训练获得的,该语料库由英国的兰彻斯特大学(LancasterUniversity)创建。EMILLE语料库主要由单语语料、平行语料和带标注语料等构成。  在本文中,我们通过一系列步骤来构建乌尔都语的词法标注器,这些步骤展示了我们每个阶段工作的结果。正如我们所看到的,标注模型的性能随着特征的增加和模型的复杂在逐步提高,未登录词的问题也逐渐得到解决。本文所研究的词性标注技术为乌尔都语的深层处理提供了良好的基础。在未来的工作中,我们将继续研究乌尔都语的深层自动处理技术,如语义角色标注、句法分析等,推动乌尔都语的推广和使用。
其他文献
随着计算机网络技术和应用的迅猛发展,人们对互联网的需求也进一步提高,希望互联网能够有效地提供他们所需的各种服务。企业如何利用已有资源,在新的Internet环境下根据用户
支持向量机(Support Vector Machine, SVM)是在统计学习理论基础之上发展起来的一种全新的机器学习算法,是一种解决分类问题的有效方法。它将分类问题转化为最优化问题,从而应
随着全球经济一体化趋势的发展,银行业越来越需要依靠数据仓库系统作为决策分析的支持,以迎接国内外竞争对手的挑战。然而,基于企业信息工厂的数据仓库设计方法建设周期长、风险
移动环境具有多种新特点,它们对数据的传播、组织、存取和管理提出了新的挑战。事务处理是数据库管理系统的一个基本功能,它主要用于维护数据的一致性,支持多用户的并发访问,
图像修复就是一个在静态图像或视频图像中的指定区域,填入丢失信息的过程。它使修复后的图像区域能从视觉上融入整幅图像中,让观察者无法察觉图像曾经缺损或己被修复。图像修
当前语义Web中基于本体的应用越来越多,这意味着本体越来越受到重视。本体的长处在于能提供语义信息,正是这一能力使得万维网更具丰富的内容,以及提供更多的功能。在万维网最
随着Web上数据信息量的不断增长,基于关键词的传统信息查询方式越来越不能满足用户的需要。本文提出了一种基于语义逼近的信息查询方法和分布式下的多代理同步更新策略,并进
随着互联网技术的迅猛发展,网络安全问题已经成为信息时代人类面临的重大挑战。网络安全问题产生的根本原因之_是因为操作系统或者应用程序存在的漏洞。消除漏洞的根本方法就
学位
故障诊断及纠错是离散事件系统研究热点之一。本文主要研究在控制器实施控制的情况下,如何对离散事件系统的故障实行纠错,使系统运行在可接受状态范围内的相关问题。本文通过