汉语语料词性标注自动校对方法的研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:shaoping6868
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量.针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法.它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量.分别对50万汉语语料做封闭测试和开放测试,结果显示,校对后语料的兼类词词性标注正确率分别可提高11.32%和5.97%.
其他文献
本文提出一种基于Bootstrapping的文本分类模型,该模型采用最大熵模型作为分类器,从少量的种子集出发,自动学习更多的文本作为新的种子样本,这样不断学习来提高最大熵分类器
【摘要】随着教育的不断改革,不断更新的课改教学理念在创新教学方式方面对教师提出了更高的要求。高中物理涉及到的知识就是大自然的一些规律,通过创问题教学设情境,更有利于学生进行学习和探究。在高中教学阶段,学生的思维以及思想基本上已趋向成熟,即学生拥有着自己的思想和观点,为此,如何在高中物理教学中创设教学问题情境,是教师值得探究的一个问题。  【关键词】高中物理问题情境教学策略在以往的高中物理教学过程中
10月16日,由西北政法大学民商法学院主办,西北政法大学商事治理法律机制研究所承办的“公司法上的合约”学术研讨会在西安召开。来自最高人民法院、中国人民大学、清华大学、陕
机器翻译系统提高译文质量是一个关键性的难题.本文探讨如何在多方法的机器翻译系统中引入多Agent组织结构,并提出一种多层次多Agent组织结构-类工程组织结构,使用登记表通讯
第21届国际计算语言学学术会议和第44届计算语言学协会年会联合会议(COLING-ACL2006)于2006年7月15~23日在悉尼成功举行,与其同期举行的还有16个卫星会议。这是两个计算语言学领
新中国成立60周年的今天,国家的财政收入是成立初期的1000倍,从1952年到2008年,中国的经济总量增加了77倍,国内生产总值以年均8.1%的速度增长。今天的中国在国际社会中再也不是经济