计算语言学视角下的语料库标注探析

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:a597525618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库的出现以及语料库语言学的诞生,在语言学研究中具有划时代的意义。语料库出现后发展迅猛,容量不断扩大,功能不断增强,研究和应用的范围也不断扩展。在这个过程中,语料库标注发挥了巨大作用。语料库标注是语料库的重要组成部分,已成为语料库研究的热点。语料库标注能够揭示语言深层信息,拓展语料库的功能,是语料库资源用于计算语言研究的前提条件。目前尚未有文献全面论述语料库标注,以往对语料库标注的研究侧重于构建实用的标注系统,孤立地研究某一种标注类型,散见于大型语料库的技术规范中缺乏对相关理论的思考和探讨。文章从计算语言学的角度,论述语料库标注的概念、意义﹑原则﹑类型等一系列问题,侧重介绍结构标注和语义标注这两种标注类型,重点提出了一种结构标注模型和语义标注模型。引言部分总结了目前国内对语料库标注的研究现状,对研究内容﹑研究方法做出说明,指明文章的重点。第二章联系语料库的特征归纳出语料库标注的概念,从两方面阐述语料库标注的意义。在阐释语料库语言学家Leech提出的语料库标注原则基础上,针对新型语料库的标注需求补充了四条标注原则:①以语料库的主要用途为导向设计实用的标注系统;②注意不同层次语料库标注之间的的兼容性;③重视语料库标注对相关软件的支持;④设计便于共享的语料库标注。第三章介绍新旧两种语料库的标注模式,阐明一系列围绕TEI标注模式的概念。引入与TEI模式联系紧密的标准通用置标语言。对几种标注类型做出总结。第四章分析语料库的语法标注,重点论述语法标注中的结构标注,介绍两种主要的结构标注语料库:短语结构树库以及依存结构树库,并针对汉语语法结构特点提出句法结构最简标注模型。该模型以直接成分分析法作为标注理论,通过简单的符号系统描写句子的语法结构,用类似词性标注的形式实现了结构标注,对汉语结构标注有一定的参考价值。第五章以语义标注为主要内容,在前人研究基础之上,提出了一种句义标注模型,该模型句义标注部分参考格语法制订标注集,标注种类包括词性标注,结构标注,句义标注,信息容量大且易于在机器中实现,为汉语句义标注提供全新的可供参考的模型。第六章从语法标注和语义标注两个方面概括归纳汉语语料库标注的特点。第七章为结语,回顾全文同时指出日后需要进一步完善之处。
其他文献
为找到更好的保持鲜切菠萝贮藏品质的预处理方法,以巴厘菠萝为试验材料,研究不同预处理方法[次氯酸钠(NaClO)处理、二氧化氯(ClO2)处理、漂烫处理、空白处理]对鲜切菠萝贮藏
<正> 很久以来,人们就知道洋地黄类药物对植物神经系统有重要的作用。但它们之间相互作用的程度和复杂性直到最近才开始得到了解。这些药物似乎是完全作用于植物神经反射弧的
惯用语在汉语中占有非常重要的地位。由于惯用语语言具有精炼、准确、通俗、形象、幽默等特点,这使得它成为对外汉语词汇教学非常重要的组成部分,同时也成为对外汉语词汇教学的
本文针对北方地区冬春季节昼夜温差大,透水砖受冻融循环作用显著,融雪剂的使用及煤炭粉尘等酸性物质污染影响等,利用自主研发的一种外加剂和市场上采购的3种同类型外加剂对比
无线局域网是利用无线射频技术实现快速接入以太网的技术。是一种相当便利的数据传输系统,它利用射频的技术,取代传统的局域网络,使得无线局域网络能利用简单的存取架构,让用户通
本文叙述一种舰载雷达的稳定平台系统。在该系统跟随正弦信号时,根据误差级数理论,对系统的稳态误差的计算进行了推导和分析,并给出一些有用的结果。
<正>3月5日,第十三届全国人民代表大会第二次会议在北京人民大会堂开幕,李克强总理做《政府工作报告》。李克强总理在报告中说,在以习近平同志为核心的党中央坚强领导下,全国
"右文说"理论自出现之初便一直是训诂学界的关注热点,它是对早期不合理声训的修正,是以汉字的形体为关注点进行释义的理论,启发了后世训诂学者对因声求义的重视。但若是过于
作为社会保障兜底扶贫的重要措施,最低生活保障制度在我市脱贫攻坚中功不可没。与此相联系,近年来,我市已建立了以城乡低保、五保供养为基础,以医疗、教育等专项救助为辅助,以临
报纸
定量描述叶片颜色变化的动态过程是植物生长数字化和可视化的重要内容。本研究通过对不同水稻品种和不同水氮处理条件下主茎和分蘖不同叶位叶色变化过程的连续观测和定量分析