为微型语料库标记词类使用田野调查人员记录及基于转换的自动学习

来源 :第二届全国学生计算语言学研讨会 | 被引量 : 0次 | 上传用户：ye14382163

【摘要】

：

本文以语言学家及田野调查人员习用的注记作为初级词类标记,搭配Brill(1993)的基于转换的错误驱动学习,在较少人为加工的情况下,为微型语料库自动标上词类.在处理注记中的语意及语法信息后,初级标记的正确率约83.89﹪,加上转换规则后约是88.11﹪.本文并报告了标记不同发音人、不同题目、不同语体的具体情况,并指出只使用排名较前的几个规则,可以得到较佳的结果.

【作者】

：

林哲民

【机构】

：

台湾大学语言学研究所(台湾台北)

【出处】

：

第二届全国学生计算语言学研讨会

【发表日期】

：

2004年6期

【关键词】

：

词类标记语料库田野调查赛夏语自动学习少数民族语言自然语言

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

兼类词排歧的一种方法

词性标注的关键是兼类词的排歧.本文探讨了一种方法来解决兼类问题,并以动词中的兼类词为切入点做了实验,即利用非兼类动词(纯动词)在大规模语料中的分布信息来判断具体上下文中出现的某个与动词有关的兼类词的词性.这种方法不需要人工标注好词性的训练语料,所需知识仅停留在词表一级,而且对其他存在兼类现象的语言也同样适用.实验结果证明了该方法的可行性.

会议

兼类词排歧纯动词计算语言学汉语语料库自然语言处理

基于语料库的英汉熟语标注研究

熟语是自然语言中存在的普遍现象,所有的语料库在标注阶段都要处理熟语.为了把熟语问题处理好,本文以英汉熟语为例,在英汉熟语对比研究的基础上,介绍并分析了国内外现有语料库对英汉熟语的标注方式,发现并解决了一些汉语熟语在词性标注时存在的问题,进一步指出了对汉语熟语的语义进行标注的研究方向.

会议

语料库熟语词性标注语义标注自然语言处理

基于汉英双语平行语料库的词义排歧

本文充分利用当前HowNet资源中概念的可计算性和句子对齐的汉英双语平行语料库信息,将词义排歧的问题转化为两种语言相对应句子词义组合的相似度计算问题,进而利用动态规划法的思想设计出一种在一定的时间和空间复杂度内,有效的标出多义词义项的算法.该方法从以前对每个多义词进行排歧时只考察其上下文环境和对应信息,改变到对句子所有中的词同时考察上下文环境,这样就可以从另一个角度来进行词义排歧,并且取得了满意的

会议

词义排歧双语语料库自然语言处理

基于词对齐的双语组块对齐

本文提出了一种基于词对齐的双语组块对齐的方法.它利用已有的词对齐信息和英语组块识别结果,进行汉语组块的识别和双语组块的对齐.通过对双语组块对齐实例的分析,我们将组块对齐分为三种情况:(1)双语组块对应连续(2)双语组块对应不连续(3)组块合并情况.根据这三种情况,我们提出三种不同算法,进行双语组块对齐.实验结果表明,该方法的正确率和召回率分别达到90.76﹪,88.59﹪.

会议

双语组块对齐组块获取词对齐语料库机器翻译

构造自然语言问答系统平台

本文在介绍了几种常用的检索模型和XML技术应用的现状的基础上,通过改进向量空间模型中索引词权重的计算,设计实现问答系统平台.

会议

向量空间信息检索自然语言问答系统

词聚类在文本分类中的应用

现有的文本分类方法需要较大的训练语料,在训练语料足够大的前提下可取得不错的效果,训练语料的规模直接影响分类的效果.然而,要大规模人工进行语料标注是一个难题.本文将k-means聚类算法引入到文本分类中,首先在无标注语料上进行词聚类,然后将聚类结果作为文本特征来代替词特征.通过这种方法,利用无标注的训练语料来改善训练语料不足的情况下文本分类的效果.实验结果表明,采用这种方法,在同等训练语料的情况下,

会议

文本分类背景语料语料标注自然语言处理

现代汉语“名+名”组合的统计考察

本文以大规模经过分词系统标注后的真实语料的统计数据为依据,对名词特别是二元"名+名"组合的组合能力以及合法性进行了初步的统计分析.

会议

现代汉语分词系统计算语言学标注语料

现代藏语带助动词的谓语组块及其识别

本文在现代藏语组块分析的前提下,讨论带助动词的谓语组块中助动词的自动识别策略.文章首先介绍了藏语助动词的功能以及在各类句法结构中的分布特征,然后根据这些句法分布特征提出了助动词的基本识别算法以及识别中可利用的句法规则.

会议

现代藏语助动词句法分布识别算法

维吾尔文字母频率统计及其应用

本文在超过2000万词汇的大量科学统计的基础上,提供了维文尔字母频率表.这对今后语言文字研究和制定科学的维吾尔文字输入键盘布局方案、维吾尔文字压缩算法的设计、语文类课程内容的补充等众多方面有着非常重要的参考价值.

会议

维吾尔文字母频率统计键盘布局

信息处理用名词细分类研究

词类划分是为句法分析服务的,名词的再分类也必须遵循这一原则.但就现有的名词细类看,由于在分类时为句法分析考虑得不够充分,所以划出的小类对自动句法分析难以起到应有的作用.鉴于此,本文一改过去那种为了把某词放到合适的词类中而找"特点"的做法,而是按照词的句法分布,详细描述每个词的句法功能,按照句法功能总和相同即为一类的标准为名词进行再分类,以期为自动句法分析提供客观依据.

会议

句法结构句法分析句法功能信息处理自然语言处理

为微型语料库标记词类使用田野调查人员记录及基于转换的自动学习

与本文相关的学术论文