基于隐马尔科夫模型词性标注的研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:qzyss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机技术发展给人们生活带来了革命性的改变,人们希望能够和计算机更加有效地沟通,因此,自然语言处理技术应运而生。词性标注作为自然语言处理中一个重要的基础性研究课题,具有深刻的意义和广泛的应用。在自然语言处理系统中它通常是作为预处理程序,所以标注的准确性对于后续工作甚至是整个系统都至关重要。因此词性标注必须为后续自然语言处理过程提供高准确率的中间结果。   词性作为词汇最重要的属性,是将词汇连接到句法的主要纽带,它能够提供大量有关词汇及其上下文的重要信息。同时也能够提供有关单词发音的信息,这在语音识别的语言模型中是非常有用的。进行过词性标注的文本是自然语言处理最基本的训练语料,如果没有这样语料库的建立,自然语言处理也只能是空谈。   目前,词性标注的研究已经基本趋于成熟,主要的标注方法有:基于规则的词性标注方法、基于统计的词性标注方法、规则和统计相结合的方法以及基于转换的错误驱动方法。词性标注的应用也越来越广泛,主要应用于:机器翻译、自动摘要、文本分类、文本校对、语音识别、语音合成、语料库加工、信息检索等领域。   本文主要从以下三个方面对词性标注的准确率进行了提高。首先,在传统隐马尔科夫模型的基础上进行了改进,实现了二阶隐马尔科夫模型,使模型能够更好地结合上下文信息,从而提高标注的准确率。其次,由于目前各类平滑算法还缺乏深入的研究及性能分析,因此最佳平滑算法的选取也是一个难题。这里对决定平滑算法效果的因素和它们在哪种情况下效果最好做了说明。并选择最适用于现有模型和训练语料库规模的平滑算法来对数据进行处理。最后,针对词性标注中生词处理算法难以结合到统计模型中的问题,特采用通过求词汇发射概率来对生词问题进行处理的方法,并提出一种针对专业领域文献中高频生词处理的方法。本文使用JAVA在Eclipse开发平台上实现了隐马尔科夫模型模型和本文所提到的改进方法,在英语和汉语两种语料库中进行了测试。实验表明,通过使用二阶隐马尔科夫模型,加入平滑算法以及生词处理算法之后进行词性标注,能够获得更加理想的词性标注效果。同时,通过将高频生词加入到训练语料,也有助于建立更加准确、规范和完善的语料库。
其他文献
人工鱼群算法(Artificial Fish Warm Algorithm, AFWA)是人工智能领域中的一项新兴技术,自2002年被提出以来,已经逐渐被广泛地应用于各种优化问题与数据挖掘领域。数据分类是
无线传感器网络(Wireless Sensor Networks, WSN)由大量的传感器节点组成,常被部署在环境恶劣、人迹罕至的地方,能量受限是人们在研究无线传感器网络时不得不面临的问题。如
信息-物理融合系统(CPS)是一个综合计算、网络和物理环境的多维复杂系统,通过计算,通信和控制等技术的密切结合,该系统必须感知由环境变化所引起的约束,并且对这些变化可以进
连接是数据库系统查询处理中的一个核心操作,高能效连接算法是能效DBMS中的一个重要研究议题。固态盘和硬盘比较具有随机读写性能快的优势,数据库系统中合理利用这一优势提升
随着云计算和互联网的快速发展,云计算环境下的实例密集型工作流作为一种重要的商业应用开始被广泛应用于人们的工作和生活中,如电子商务中的在线付款和网络购物等。因此,对
随着网络技术的迅速发展,电子商务活动越来越频繁,尤其是网上购物、网上银行等业务给人们生活带来了巨大的便利,人们能够在足不出户的情况下,获得自己所需要的资源和服务。但是人
软件缺陷预测是软件工程中最活跃的研究领域之一。缺陷预测模型能够提供容易出错的源代码组件或更改等,使得质量保证团队可以通过更多努力应对易出错的源代码,有效地分配有限的
下料问题广泛应用于各个行业,如金属制品业,家具业,钣金件加工业等。目前应用较为广泛的是二维矩形下料。二维矩形下料问题,是将板材材料加工成满足一定需求的矩形毛坯,在满
近年来,随着物联网技术的快速发展,作为其支撑技术之一的无线传感器网络技术也得到了迅速的发展。无线通信技术的迅速普及,使得异构系统之间的共存与干扰问题日益严重。随着ZigB
信息技术的高速发展极大地丰富了网络资源,为人们获取信息带来了方便。但是由于网络资源的逐渐增多,面对繁杂的信息,用户要找到所需的信息也变得更加困难,信息过载的问题便随