基于统计的汉语词性标注方法的研究

被引量 : 0次 | 上传用户:sxx1203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机的发展,用自然语言作为人机交互语言已是必然趋势,这就对自然语言处理的深度和广度提出了越来越高的要求。词性标注是自然语言处理中的一项基础性题课,词性标注的正误对汉语语料库标注、机器翻译和大规模文本的信息检索等都有重要的意义。 本文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。获得上下文信息的多少和数据平滑的程度是评价词性标注统计模型性能的两个重要的参数。针对以前统计模型获取上下文信息有限的缺点,给出了一种针对汉语词性标注的、扩展的完全二阶隐马尔可夫模型,该模型方法比标准的统计模型获得更多的上下文信息。同时,本文采用性能稳定的基于线性插值的平滑算法解决了三元模型严重的数据稀疏问题。由于模型获取词汇概率和词性概率参数方法的改变,相应的修改了Viterbi算法。实验证明,这种新的完全二阶隐马尔可夫模型比现有的模型更能有效地提高汉语词性标注的正确率和消歧率。
其他文献
自然山体的保护与显现具有多重价值。山体相临地段的城市开发受不同目标的多元约束。本文以南京浦口求雨山地段高度管制研究为例,从视域范围、高度取值、评估与修正等方面讨
康熙朝以精湛细腻的五彩瓷绘为最,雍正朝则不能不说粉彩和珐琅彩,同样创烧于康熙晚期的粉彩与珐琅彩之间不仅有着互相关联的渊源,且同在雍正一朝达至艺术与技术的巅峰。近年
本文对一株碱性蛋白酶高产菌株的发酵培养基及发酵条件进行了优化,并对酶的分离纯化工艺及酶的主要性质进行了研究。本文研究的主要内容和结论如下: 1、通过对菌株发酵培养
<正> 我國鑲嵌工藝技術歷史悠久,早在西周時期已有鑲嵌蚌泡的朱黑兩色漆器托,春秋後期到戰國時期又出現了青銅器上用金、銀、紅銅、玉石、松石、珊瑚等鑲嵌出的图案和畫像。
期刊
Internet发展迅速,尤其是多媒体存储与传输技术的进步,带来了数字媒体应用的迅速增长。多媒体数据的数字化为多媒体信息的存取提供了极大的方便,同时也极大地提高了信息表达的效
都市圈是高度城市化地区空间组织的一种重要形式,其核心城市与内部其它城市的高强度联系塑造了圈层状的地域结构特征。都市圈内部城市间密切的经济联系有赖于强大的交通网络作
<正>祥瑞又名"符瑞"。祥瑞的征兆,即为吉兆,也就是吉祥的预兆。祥瑞思想在我国历史上由来已久。人们把见到的某一类奇异事物当作吉兆,见到这些就预示自己将会得到幸福。如:早
物理概念的教学至始至终贯穿于物理教学中,一直是被关注的重点。对教师来说,概念教学的好坏直接关系到一堂课是否成功,而对学生来说,概念掌握得如何则直接反映了其物理学习成绩的
随着无线电技术的不断发展,天线技术在太空飞船、科学探测站、地球观测站、通信卫星、广播电视卫星等领域得到了发展,口径面天线在天线系统中作为重要的组成部分,得到了越来越广
课程改革是一个系统工程,涉及到课程标准的研制和教科书的编写等方面。课程标准是国家管理和评价课程的基础,是教材编写、教学、评估和考试命题依据。在新一轮的课程改革中,课程