基于隐马尔科夫模型词性标注的研究

被引量 : 27次 | 上传用户：helen_shen

【摘要】

：

计算机技术发展给人们生活带来了革命性的改变,人们希望能够和计算机更加有效地沟通,因此,自然语言处理技术应运而生。词性标注作为自然语言处理中一个重要的基础性研究课题,

【作者】

：

牛秀萍

【发表日期】

：

2013年01期

【关键词】

：

词性标注隐马尔科夫模型平滑算法高频生词处理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

计算机技术发展给人们生活带来了革命性的改变,人们希望能够和计算机更加有效地沟通,因此,自然语言处理技术应运而生。词性标注作为自然语言处理中一个重要的基础性研究课题,具有深刻的意义和广泛的应用。在自然语言处理系统中它通常是作为预处理程序,所以标注的准确性对于后续工作甚至是整个系统都至关重要。因此词性标注必须为后续自然语言处理过程提供高准确率的中间结果。词性作为词汇最重要的属性,是将词汇连接到句法的主要纽带,它能够提供大量有关词汇及其上下文的重要信息。同时也能够提供有关单词发音的信息,这在语音识别的语言模型中是非常有用的。进行过词性标注的文本是自然语言处理最基本的训练语料,如果没有这样语料库的建立,自然语言处理也只能是空谈。目前,词性标注的研究已经基本趋于成熟,主要的标注方法有：基于规则的词性标注方法、基于统计的词性标注方法、规则和统计相结合的方法以及基于转换的错误驱动方法。词性标注的应用也越来越广泛,主要应用于：机器翻译、自动摘要、文本分类、文本校对、语音识别、语音合成、语料库加工、信息检索等领域。本文主要从以下三个方面对词性标注的准确率进行了提高。首先,在传统隐马尔科夫模型的基础上进行了改进,实现了二阶隐马尔科夫模型,使模型能够更好地结合上下文信息,从而提高标注的准确率。其次,由于目前各类平滑算法还缺乏深入的研究及性能分析,因此最佳平滑算法的选取也是一个难题。这里对决定平滑算法效果的因素和它们在哪种情况下效果最好做了说明。并选择最适用于现有模型和训练语料库规模的平滑算法来对数据进行处理。最后,针对词性标注中生词处理算法难以结合到统计模型中的问题,特采用通过求词汇发射概率来对生词问题进行处理的方法,并提出一种针对专业领域文献中高频生词处理的方法。本文使用JAVA在Eclipse开发平台上实现了隐马尔科夫模型模型和本文所提到的改进方法,在英语和汉语两种语料库中进行了测试。实验表明,通过使用二阶隐马尔科夫模型,加入平滑算法以及生词处理算法之后进行词性标注,能够获得更加理想的词性标注效果。同时,通过将高频生词加入到训练语料,也有助于建立更加准确、规范和完善的语料库。

其他文献

基于Google Maps的地理信息共享与Web服务集成方法研究与实践

地理信息作为一种重要的基础信息资源，不仅在经济、交通、军事各个领域得到广泛应用，而且与公众的日常生活联系得越来越紧密。随着计算机和网络技术的快速发展，尤其是Google地图

学位

地理信息共享面向服务的体系结构Web服务个性化AjaxGoogle Maps

肌肤的新尤物标准

肌肤总是被贴满各种标签:美白,水润,光滑……有没有想过肌肤也需要性感一下呢?美容达人吴佩慈在她的第二本美容书《新尤物主义》里为肌肤提出了新的标准,那就是性感。想要让

期刊

毛孔粗大保湿霜

论现代汉语“工具”成分在话语中的隐现

本文认为，作为句子语义成分的“工具”在语义结构（动核结构）中是非强制性的可有成分，在话语中可隐可现。文中运用“蕴含”、“激活”、“加细”、“凸显”等语义、语用、认知上的

期刊

语义成分工具蕴含激活加细凸显

Y研究所知识型员工激励问题研究

知识经济时代,如何充分调动知识型员工的工作积极性,实现单位的战略规划和组织目标,是十分重要的理论问题和现实问题。Y研究所的员工具有鲜明的知识型员工的特点,构建适合知

学位

Y研究所知识型员工激励机制

渗透美学教育激发学习兴趣

<正>爱美之心,人皆有之,然而对于化学教师来说,美学教育似乎与化学教学沾不上边,往往认为,美学属艺术课的范畴,其实,美学与化学有着密不可分的联系,它对提高学生素质有着至关

期刊

美学教育演示实验化学教学激发学习兴趣化学教师学习化学

水引发及渗透引发对华山松种子萌发的影响

华山松(Pinus armandii)分布极其广泛,在山西、河南、陕西、甘肃、四川、贵州、云南、西藏东南部海拔1500-3300m等均有分布,尤其是我国西南地区重要的造林树种之一,随着长江

会议

华山松引发发芽率

地铁工程车应急电源设计分析

介绍应急电源的功能及负载,阐述蓄电池容量的计算;分析应急电源自动切换管理。

期刊

应急电源控制系统蓄电池自动切换

城市住宅向低碳住宅演变的研究

目前,中国已经超越美国,成为世界上最大的温室气体排放国。而近日各地出现的严重的雾霾天气,也再一次让我们意识到“低碳”对自然环境和人类的共同发展的重要性。城市作为高

学位

低碳住宅住宅设计住宅演变太原市

换热站智能控制系统设计与应用

我国的北方地区,城市供暖大多采用集中供热,冬季供暖需要消耗大量的能源,如果处理不当会造成严重能源浪费和环境污染。换热站是集中供热系统中最重要的环节之一,起着承上启下

学位

换热站分阶段等温差控制PLC触摸屏

扬弃而非抛弃:文化产业和文化工业关系再思考——以电影“梦工厂”的变奏为例

文化产业理论由文化工业理论发展而来。由于社会背景、理论语境和价值立场的变迁,当代文化产业研究已经把文化工业理论及其批判反思精神几乎全盘抛弃。这种倾向在大力发展文

期刊

文化产业文化工业电影“梦工厂”

基于隐马尔科夫模型词性标注的研究

与本文相关的学术论文