基于机器学习的汉语词性自动标注系统

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:wyt_2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长久以来,人们就想制造出一种具有智能的机器,它能通过自然语言与人类交流并服务于人类。计算机的出现和迅速发展为这个梦想的实现带来了希望。因此,人们迫切地需要计算机具有理解自然语言的能力,从而为具有人工智能的机器人的实现铺平道路。自然语言处理因此应运而生,成为人工智能领域的一个热门课题。人工智能就是以建立智能化的、自主的计算机为目标的一门学科,它研究的课题包括专家系统、问题求解、逻辑与不确定性问题、自然语言处理、机器人学、视觉与模式识别等。本文从事的研究是自然语言处理领域的一个基础性的课题:汉语词性自动标注。 汉语词性标注的目的是对句子中已切分的词标注上正确的词性,从而为下一步的处理提供输入。它的研究结果直接影响到语法分析、语义分析、机器翻译和信息检索等诸多领域。 词性标注方面的研究最初采用基于规则的方法进行,根据人工制定各种语言学规则标注词性,正确率并不高。后来采取基于统计的方法(机器学习)进行标注词性,正确率有了较大提高,可达到95%以上。目前基于机器学习的词性标注方法成为研究的热点,比较典型的有最大熵模型、隐马尔科夫模型、人工神经网络、决策树、支持向量机等。目前采用较多的是基于n-元语法的隐马尔科夫,一般采用二元或三元模型,但该模型存在一些先天不足。 最大熵模型在词性标注方面相对其它模型来说具有较多的优点。因此本文采用了基于改进的最大熵模型,并运用BLMVM参数估计算法,有效地提高了标注正确率和标注效率。在自然语言处理领域,由于熟语料(已标注好的语料)规模的限制,数据稀疏现象严重,模型在训练中不可避免地会出现训练过适应的问题,需要对模型进行平滑。Gaussian Prior平滑方法在众多的平滑方法中有出色的表现,适合用来平滑最大熵模型。应用最大熵模型进行词性标注的一个重要步骤是特征的选取,特征选取的好坏将对模型的标注精度产生很大的影响。本文根据汉语自身的特点,设计了基于字和词混合的特征,取得了较好的标注效果。另外,最大熵的一个优势就是在模型不变的情况下,只要发现好的特征就可以加入,而不用更改数学模型,这有利于在实际应用中根据领域特点增加不同的特征,进一步提高模型的标注正确率。 本文应用最大熵模型并根据汉语自身的特点选取有效的特征,在词性标注实验中取得了令人满意的标注结果。
其他文献
学位
随着互联网技术的飞速发展,网络正在成为人们进行信息交流和信息处理的有效平台,各种数字化的信息每天以极高的速度增长,网络上积累了海量的数据。面对如此巨大的信息量,如何发现
随着互联网的高速发展,云计算集群系统越来越大,处理数据的规模越来越大,这样就需要一个高效的分布式处理系统进行数据挖掘、计算等任务。MapReduce是Hadoop下的计算框架,也是云
学位
为了实际应用的需要,快速鲁棒的人脸检测和识别研究在模式识别和机器学习领域里引起了广泛的重视.本文提出了一种基于统计学习理论的判决特征选择方法和快速分类方法,仔细研
跨域认证,特别是不同类型之间的跨域认证是认证研究的重要课题。主动网的授权用户拥有比传统网络授权用户更多的访问能力,对他们的认证关系到主动网的安全,在主动网上进行跨
随着Internet的飞速发展,从IPv4向IPv6过渡是必然的趋势,在相当长的时间内,IPv4将与IPv6共存。IPv6为互联网发展带来的巨大的挑战和机遇,因为IPv6协议不是完全向下兼容的,必然导致
随着水利工程及岩石工程的建设和发展,岩石内部裂隙的各种科学研究越来越重要。而利用计算机进行岩石内部裂隙的三维形态的重建可以直观有效地展示岩石内部结构将帮助其他科
集控式机器人足球比赛系统分为视觉子系统、决策子系统、通讯子系统和足球机器人小车子系统四个部分,其中小车子系统的性能直接决定着足球机器人在赛场上的表现。本文通过分析
数据库系统担负着对数据信息访问控制和存储的任务,数据库不安全的主要原因之一是原始数据以明文可读形式存放在数据库中,如果对数据库中的数据进行加密处理,那么上述问题可以得