基于统计的蒙古文自动词性标注的研究与实现

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:h_heart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术,特别是网络技术的迅速发展和普及,人们越来越迫切地希望用自然语言与计算机交流。因此自然语言信息处理得到了前所未有的重视,受到了国内外许多研究者的关注。词性标注是自然语言信息处理的基础,词性标注的准确率直接影响到后续的研究。目前关于汉语自动词性标注方面一些人士做了许多相关研究,并取得了一定的成果。而有关蒙古文自动词性标注方面的研究还欠缺。本文主要研究并实现了基于统计的蒙古文自动词性标注系统。该系统通过隐马尔可夫模型对训练语料库进行训练,获得两种重要的模型参数,即词性转移概率矩阵和词汇概率分布矩阵。得到模型参数之后采用VITERBI算法进行自动词性标注。本文采用了词语切分和线性插值法解决了隐马尔可夫模型的数据稀疏问题,从而在一定程度上避免了由于数据稀疏而导致的自动词性标注准确率下降问题。最后本文对该系统对蒙古文进行切分之前和切分之后的自动词性标注分别作了以下的实验。先在不同规模的语料下分别做了一级封闭测试和一级开放测试。然后当词性标记集为二级和三级标记集时分别做了封闭测试和开放测试。测试评价标准分别采用了词性标注准确率和兼类词排歧准确率。以规模为95万词的语料库作为训练语料,对5万词的测试语料进行测试之后得到的封闭测试标注准确率和排歧准确率分别约为97.9%和85.9%,开放测试标注准确率和排歧准确率分别约为97.6%和85.5%。
其他文献
随着虚拟现实技术不断发展,三维地形可视化的构建在各个领域都有着广泛应用。三维地形的构建由过去的小规模构建,演变成了大规模动态地形的构建。对三维地形的模拟不再拘泥于
近年来,随着软件与硬件的飞速发展以及个人电脑和互联网的普及,基于熟人关系的网络如微信、基于同学关系的网络如人人网和基于关注关系的网络如微博等各类在线社交平台深受人
随着信息化的普及,计算机已走进了千家万户,为人们的生活带来了极大的便利。然而,在使用计算机的过程中,也会由于各种原因导致重要文件被删除或遭到破坏,造成无法挽回的损失
随着网络技术的发展和数据库应用领域的不断扩大,政府、企业、个人根据需要在互联网上发布自己的数据,而一些研究部门则研究他们发布的数据。在这些数据中包含了社会中各种各
网络流量是由不同应用类型的流量成分混合而成的,充分理解总体流量的构成以及各种成分的变化规律对网络管理和网络行为学研究具有重要意义。源宿IP、源宿端口与协议在五个维
随着互联网的发展和全球经济一体化,电子商务的建设变得非常重要。近年来,网络的迅猛发展给人们生活各个方面带来很大的便利,也使得企业向着信息化的方向发展。同时,企业的需求也
Web挖掘是将传统数据挖掘与Web结合起来的技术,其中Web使用挖掘的挖掘对象是用户和网络交互过程中抽取的Web日志数据。对这些数据挖掘可以帮助理解用户的行为,从而改进站点的
随着移动通信迅猛发展,手机已成为集通讯、报纸、广播、电视及电脑优势于一身的移动通信终端设备。MTK平台因其开发门槛低、开发周期短、功能集成度高而成为国内生产手机的主
随着信息化社会的不断发展,计算模式已由传统的桌面计算逐渐转变为普适计算。在这个信息空间与物理空间高度融合的环境中,用户可以随时随地、透明地享受普适环境中提供的各种
随着数据挖掘和数据发布等数据应用的出现与发展,如何保护隐私数据和防止敏感信息泄露成为当前面临的重大挑战。匿名化技术由于能在保护隐私信息的同时,保证对外发布数据的真