基于错误驱动的汉语词性标注研究

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:feifeiml
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网文化和经济的飞速发展和信息爆炸时代的到来,能够在短时间内处理大规模文本且从中挖掘和抽取语言信息的计算语言学快速地成长起来。语料库的规模扩大和切分标注水平的提高成为迫切的需要,以计算语言学为主的多语言语料库切分和标注技术越来越受到语言学专家的重视。要使语料库真正为提高自然语言处理的水平服务,就必须对语料库进行深度挖掘和精细加工。词性是对语言进行语法、语义、语用分析的基础和必要前提,如何解决语料库的词性标注问题仍是当今的一项重要的基础工作。汉语词性标注的成果包括基于统计和规则两种处理方法。语言学工作者们常用的统计算法模型,如最大熵模型、隐马尔可夫模型和决策树分析等进行大规模的词性切分和标注,再结合规则模板或者手工编制的排歧词典对经过统计算法训练的模型进行择优、排歧,从而达到较为理想的结果。本文在介绍了提出的汉语词性标注方案也是规则和统计结合的方法,首先在极大熵标注模型的基础上给出了一个汉语词性标注方案,并提出基于兼类词错误学习的思想。该方案有别于以往单纯依靠算法和规则模板的常规方法,从原标注系统的标注错误样本中获取上下文,利用上下文信息形成的概率特征函数计算出容易出错的词的特征概率。另外,提出在统计的基础上加入外部知识库和分类器的联合修正算法,较好地完成了针对兼类词复杂类项的标注任务,缩短了模型运行占用的时间。
其他文献
在准备本期关于安防与监控系统的专题文章之前,笔者走访了一些从事安防领域的芯片厂商和系统制造商。和他们交流后发现,与芯片厂商主要关注技术与标准规范不同,系统厂商更多
实际中所获得的单变量时间序列往往长度有限并存在噪声,而且单变量时间序列所包含的信息具有不完备与不确定性,无法精确反映动力学系统的动态特性。相比单变量混沌时间序列,多变
1995年4月21日7时45分,美国新泽西州洛迪市的纳普科技公司(Napp)化工厂进行化学品混合作业时,发生意外反应,释放大量热气和恶臭气体,引发剧烈爆炸和火灾.事故导致5名员工死亡
期刊
特征选择是机器学习和数据挖掘的基础内容之一。传统的、与代价敏感学习相关的特征选择研究往往关注的是样本的错误分类代价,而特征代价本身,作为另一种代价类型经常被忽略。实
使用微孔滤膜过滤,能有效降低絮凝预处理的实验室空白值,该方法满足地表水中氨氮的测定.当标准物质浓度为0.100~ 1.60 mg/L时,测定平均值为0.086~ 1.63 mg/L,RSD值4.01%~8.85%.水
IPCamera实时多任务系统是近年来随着嵌入式技术、网络技术、视频处理技术和计算机技术等的发展而快速发展起来的。作为物联网安防的重要组成部分且基于智能家居发展中的内在
在能源短缺的当今世界,风能作为一种取之不尽、用之不竭的新能源,由于它的可再生性和无污染的优点,成为最具有诱惑力的一种新能源,引起多个国家的重视。中国也加大了开发和利用风
1950年代初,新中国建筑业在进行基本建设过程中“不设计就施工”的现象层出不穷且造成了很多浪费,从而引起了社会广泛的关注.在这一段建筑专业媒体几乎处于空白的特殊时期,时
传统的8位单片机已经越来越不能适应逐渐复杂的应用需求。友好的交互界面、网络互联功能、智能化的软件、高效的数据处理几乎成了智能化系统的共同需求。随着嵌入式系统的迅
开展中央生态环境保护督察,是党中央、国务院为加强生态环境保护工作采取的一项重大改革举措和制度安排.自治区落实生态环境保护督察制度,应从提高思想认识、保障中央生态环