面向汉语辞书编纂的大型通用语料库构建研究

被引量 : 0次 | 上传用户:topccb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文通过对国外面向辞书编纂的语料库成功经验的学习,结合我国语言研究和辞书编纂的实际,选取适合我国语料库建设的方法和途径,制定出一个大型通用的语料库建设方案。论文共分六章,各章节的内容安排如下:第一章绪论。主要介绍了国内外语料库建设的研究现状,并明确了我们建设语料库的意义和价值,以及研究方法和研究思路。国外对于语料库建设早有研究,且已有较为丰富的理论成果和完整科学的系统结构;而我国对于语料库建设的研究起步较晚,同时基本上还局限于专用型语料库,适用范围较小,只为特定词典编纂服务。因而在我国词典学领域急需一个面向汉语辞书编纂的大型通用语料库。它有助于填补了汉语辞书理论的空白,推进中文信息处理的发展,提高辞书编纂的客观性、准确性和科学性。第二章面向汉语辞书编纂的大型通用语料库的设计理念。在Chomsky的理性主义占主导地位的二十世纪中后期,语料库研究方法深得人心。随着WordNet、知网、FrameNet的成功建立,关于大型通用型语料库的设计理念也浮出水面。我们要建立的面向汉语辞书编纂的大型通用语料库的设计理念是大规模和多语体、深度加工和监控语料库。第三章面向汉语辞书编纂的大型通用语料库的语料采集。语料的采集是建设语料库的一个重要环节,我们先回顾了COBUILD语料库、朗文语料库网络、英国国家语料库、剑桥国际语料库、Sinica语料库五个语料库在语料采集时的成功经验,结合我国实际,明确了面向汉语辞书编纂的大型通用语料库的语料采集分五种语体:口语、小说、新闻、杂志和学术期刊,每种体裁所占比例均为20%。各收7千万字左右,计划建成一个3.5亿字左右的大型通用语料库。第四章面向汉语辞书编纂的大型通用语料库的语料加工处理。我们采用XML格式将文本收录进语料库,对每篇文章的类别、来源、作者、出版时间、标题和正文内容这些信息加以标注。分词系统选择,采用北京大学计算语言学研究所研制的汉语语料库多机加工系统;词语切分与词性标注,采用北京大学2003版词语切分和词性标注规范(俞士汶等,2003)的标准;词法标注,采用最大匹配法;句法标注,采用邱立坤(2012)提出的依存句法的标注体系规范;语义标注,采用Mel’ uk等人创立的语义-篇章理论。第五章面向汉语辞书编纂的大型通用语料库的功能。管理功能、检索功能、统计功能、词义更新功能、辅助释义功能。第六章结论。对本文的研究工作进行了总结,指出了进一步研究的方向。
其他文献
随着天然气行业蓬勃发展,市场进程不断加快,全球天然气供给与需求量持续攀升,整体供需格局发生较大变化。LNG具有储存安全和易于运输的特性,进一步促进了天然气全球贸易的发
燕山地区位于华北板块北缘中段,地理坐标大致为东经114°-120°,北纬40°00’-42°20’,行政区划上基本包括了冀北、冀东和辽西部分地区,是环西太平洋金属成矿带的一部分,研
经济全球化的今天,科技对国家和地区的经济发展越来越重要,区域综合实力竞争的实质是科技的竞争,是人才的竞争,尤其是对科技创新人才的竞争。大连作为振兴东北老工业基地的龙
目的:观察补肾益气通淋汤治疗中老年女性慢性尿路感染的疗效。方法:将慢性尿路感染患者60例随机分为治疗组32例,对照组28例,分别服用补肾益气通淋汤和三金片,治疗4周,观察其临床疗
文简述了汽车线束的研发及制造,通过介绍X11M车型线束,了解线束的构成及制造流程。
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
目的:苯丙氨酸(Phenylalanine,Phe)是人体必需氨基酸,可用于合成各种蛋白质,肝脏等组织可将其代谢生成酪氨酸(Tyrosine,Tyr),稳定的Phe代谢状态可以维持机体的正常生长发育。高苯
2012年11月29日,“中国梦”一词第一次由我们的国家主席习近平同志正式提出。自此,“中国梦”成为各网络媒体、电视报刊、企事业单位等的热门词汇。它作为我国一项新的指导思想
随着在全球范围内人口老龄化问题的日益严重,人们越来越重视对养老保险制度的研究。新增长理论兴起以来,人力资本对经济增长的作用日益凸显,人们不仅仅只看重物质资本的增长,
空间概念对于地理学习十分重要,地理的空间性是地理学科的重要标志。在培养中学生地理空间能力中很重要的一部分就是培养学生的地理空间思维能力,学生地理空间思维能力水平的高