汉语虚词用法标注一致性检测研究

被引量 : 0次 | 上传用户:huangqianqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是信息传递的载体,语言文字处理技术的发展对信息化建设起着至关重要的作用。自然语言的不断发展研究表明高质量、大规模、基于真实文本的语料库建设对语言信息的处理发挥着重要作用。语料库是支持信息处理高级应用的基础,因此,保证语料库建设的高质量是自然语言处理研究领域的重中之重。随着语料库加工程度的不断深入,语料库建设的一致性成为语料库建设的七条基本原则之一。虚词是现代汉语中不可或缺的一部分,对于现代汉语的语义理解起着重要的作用。虚词语料库的建设是现代汉语知识库建设的一个重要方面。保证虚词语料库建设的一致性对现代汉语的发展有着重要的意义。在现代汉语虚词知识库中,虚词用法标注的一致性对语料库的建设起着质量把关的作用。虚词用法标注的一致性指的是在相同或相似的上下文环境中,同一个的虚词有着相同的用法。本文在研究虚词用法标注的一致性问题中,采用不同的方法进行虚词用法一致性检测。首先,采用提取上下文窗口字符特征的方式对虚词上下文窗口中的词性进行提取来模拟其所在的上下文环境,在语料库中查找相同字符特征串的虚词用法语句,将这些语句进行归类比对来查找其中的不一致。实验表明在选择合适的虚词上下文窗口的条件下,能有效够识别上下文中用法标注不一致的语句。将识别到的用法标注不一致的语句进行修改,从而提高虚词用法标注语料库标注的一致性。其次,采用在自然语言处理中有着良好表现的条件随机场(CRF)、支持向量机(SVM)、最大熵(ME)三种不同的分类模型。将实验语料进行特征选取、特征信息计算,用模型对用法标注进行分类。分别统计分类模型的虚词用法标注不一致性,并将三种模型的分类结果加以组合形成不同的类型,从这些类型中找出虚词用法标注的不一致现象。通过实验表明,用上述的方法能够很好的检测出虚词用法标注中的不一致地方,即提高了虚词用法标注的一致性。最后,对本文所采用的虚词用法标注一致性研究的方法进行了归纳总结,并对开展更深入的一致性研究进行了展望。
其他文献
近十几年来,全国各高等体育院校都先后开设了网球专修课与普修课程。在十几年的网球教学中我国各高等体育院校都取得了很大的成绩,也正因为体育院校的网球教育带动了我国网球
门式起重机是一种在露天物料搬运工作中广泛采用的大型装卸机械,被应用于航空工业、冶金、机械加工等诸多生产领域。而作为起重机“骨架"的金属结构,其重量占整机重量的60%~80
文章从两个层面对"S+不是+X+的"句式的焦点进行分析。首先从表层结构对这类句式的焦点指派进行了分类:有的焦点指派给X的前段,有的指派给后段。接着对这类句式的深层语义结构
汉语的虚词丰富多样且没有形态标记和曲折变化,却又担负着繁重的语法和语义的表现任务,这就决定了虚词更加灵活和难以掌握,因此对虚词的研究有着重要的意义。现代汉语虚词用
<正>《雨巷》教学结束后,有学生谈起《再别康桥》的诗味,就有了"悠悠雨巷意,柔柔康河情"的教学延展:将两位同时代不同风格的诗人作品进行比较,走向文本的更深处,获得审美的能
量词"根"源于名词"根",在植物之"根"外露的特殊情景中,"根"在人们的认知中被凸显了,因而被用来对露根的植物进行量化。随着"根"组配范围的不断扩大,人们提取出了其组配对象的
<正> 一近十年来,我国的政治、经济、文化以及人们的日常生活和思想观念发生了急剧而深刻的变化。社会的变异带来了语言的变异,尤以词汇的变异最为显著。今天的新词新语,遍及
目的:了解16a以下未成年人吸食毒品的原因。方法:采用自拟问卷,对2006年1月-2007年10月间在昆明市强制戒毒所接受脱毒治疗的72例未成年人进行调查,内容包括:人口学特征、家庭
课程建设,是汉语国际教育硕士培养体系中至关重要的一环,直接决定了我们所培养的学生能不能适应汉语国际推广市场的需要。目前,因各种原因,汉语国际教育专业的课程设置还存在
严格地说,我国在刑法典没有明确以医疗犯罪的字样规定犯罪,并没有在97年刑法中像环境犯罪、侵犯知识产权犯罪那样用专门章节规定这类犯罪,同样在国外的刑法或境外的刑法中,也没有