汉、蒙、藏、维分词与词性标注技术发展现状研究

来源 :第五届全国青年计算语言学研讨会(YWCL 2010) | 被引量 : 0次 | 上传用户:wlc198812
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文信息处理用各种统计方法实现精度的提高,而规则的运用更多是在歧义和未登录词的研究上。蒙古语的统计方法发轫于近几年,但更多的是一种理念的进步,仍是以词干加附加成分的规则方法为主,现有AYIMAG和DARHAN切分和词性标注系统。藏文较多运用规则加统计的方法,也有直接运用viterbi算法进行分词的成果,其基于规则的方法是用格助词和词典库进行分词;现有北大计算语言学研究所和国家语言资源监测与研究中心少数民族语言分中心的藏文自动分词系统,不过还未见藏文词性标注系统的实现成果。维吾尔语有基于隐马尔科夫模型的viterbi算法与基于n-gram模型的尝试,其规则方法仍足词干加附加成分的切分理念,现还未见可用的切分与标注系统。
其他文献
目前网页标题的抽取方法大多利用HTML结构和标签特征生成特定规则进行抽取,但是这些方法只考虑到了HTML的统计特点,没有考虑标题与正文信息之间的关系。本文提出一种基于相似度
受到西方语言语法体系的影响,现代汉语中能够翻译成英语对应的从句的结构越来越多。但是因为汉语传统的语法结构与西方语言语法体系有着很大的不同,利用西方语言的句法分析方法
会议
进入2010年,巴西CVRD和澳洲BHP、Rio甚至包括FMG们被全球范围内粗钢产量的快速增长所鼓舞,在铁矿石刚性需求渐趋强烈的趋势下,大幅提高铁矿石价格成为巨头们的主要努力方向.
期刊
在大句的范围内小句的组织结构会呈现某些特定的模式,即大句范式。而范式的运用存在着语种间的有无或常用罕用之别,需要在翻译时予以变换。迭句与花园幽径句都是汉语的常用大句
缩略语是几乎所有的语言中都存在的语言现象,它把必要的信息压缩到在接触的一瞬间就能立刻了解的程度,使语言的使用和表达更加的便捷和快速。由于缩略语本身具有的简洁、快速等
提出了一种中文句子修剪方法。引入噪音通道模型,经过改进,提出了更适合句子修剪任务的Bi—NC模型。 引入无导的方法,解决了中文中缺乏原句-压缩句对齐语料的瓶颈问题。提出
儿童免疫倡议及全球疫苗接种规划(特别专家顾问组推荐)第一部分:有关儿童免疫倡议(CVI)及全球疫苗免疫接种规划(GPV)的特别专家组(SAGE)于1997年6月11~13日在日内瓦召开了第二次会议。以下是该组对此次会议
多词语单元识别问题是目前计算语言学的研究热点之一。多词语单元是一个描述相对完整的若干词语组合,包括固定或半固定搭配。在语义块分析系统中,本文采用修改后的C-value方法
会议
西红柿同黄瓜一样,既可作蔬菜烹煮食之,也可作为水果生吃或凉拌食用。而与黄瓜不同的是:西红柿不能吃嫩的、未成熟的。成熟的西红柿才含有它应有的多种营养素。嫩西红柿中缺
期刊
普通话已经走过了近百年的历程,目前还很少有人对普通话的历时语音变化及其韵律特征进行系统的实验研究。本文以2005年颇具代表性的广播电视谈话体语料为基准数据,选取《现代汉
会议