基于“动态流通语料库”的“有效字符串”提取研究

来源 :北京语言大学 | 被引量 : 6次 | 上传用户:menes127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文提出了一个新的语言处理单位“有效字符串(Valid String,VSt)”并以“动态流通语料库(DCC)”为依托,以“流通度”理论为支点,对“有效字符串(VSt)”的提取进行了初步的研究。 本文定义的“有效字符串(VSt)”是一种语言理解单位,而不是单纯的语法单位。从语用的角度看,语法研究中的各级单位(例如词、词组/短语、组块等)在一定语用条件下都可以单独完成语言理解和交际任务,本质上也是“有效字符串(VSt)”的一种形式。而关于这些传统语法单位人们已经作了深入细致的研究,并且取得了丰硕的成果,因此,本文更专注于比这些传统语法单位空间跨度更大的“有效字符串(VSt)”的提取研究。 从形式上看,本文所要提取的“有效字符串(VSt)”也是由上述传统语法单位构成的,它涵盖了从词一直到语块的全部可能的“表达/理解”单位。所不同的是,这些字符串跟语用的要求更加接近,它们不是静态的、备用的语法单位,而是动态的、备用的语用单位,通过对“有效字符串(VSt)”在大规模真实文本中使用情况监控,就可以间接实现对语言使用情况的监控,也就是“语用监控”,进而达到“语言知识动态更新”的终极目标。 为了实现这一目标,本研究建造了以“句碎片”库为核心的“动态流通语料库(DCC)”,并把“流通度”理论作为整个研究的指导,从“有效字符串(VSt)”的提取入手,试图从一个全新的角度对大规模真实文本的加工处理进行一次探索。 在这个过程中,本文考察了已有的相关研究成果并从中汲取丰富的营养。参考了认知心理学、大众传播学等的相关理论,对“有效字符串(VSt)”进行了严格的定义,对字符串“频度、使用度、流通度”曲线走势模式进行了初步的分析和归纳,为“有效字符串(VSt)”的自动提取做好了准备。 在语料具体处理过程中,本文引进了“全捆绑”的策略,从经过分词处理的“句碎片”库中“捆绑”出“备选字符串”,把它们与字符串曲线走势模式进行匹配,从而提取出“有效字符串(VSt)”。 本研究建造的“动态流通语料库(DCC)”包含2003年10种报纸1-6月的全部语料,8,687,925条记录,平均“句碎片”长度为16字,总语料规模为8,687,925~*16=139,006,800字。全部语料都按照时间序列存储。 为了处理语料和提取“有效字符串(VSt)”,我们开发了“DCC’处理软系统件”。包括“句碎片’切分、分词”模块、“X串’剥离”模块、“备选字符串’捆绑”模块、“有效字符串(VSt)’提取”模块和“有效字符串(VSt)’后处理”模块。 以这个规模的语料库为中心,本研究作了157,661条“有效字符串(VSt)”提取实验,正确率为80.21%。 本文主要有以下四方面创新: 1、从认知的角度定义了语言的理解和交际单位“有效字符串(VSt)”。 2、分析并确定“有效字符串(VSt)”的曲线走势图模式(三种)。 3、提出了基于“曲线走势图”的“流通度”评估方法并提取“有效字符串(VSt)”。 4、建造基于“句碎片”库的“动态流通语料库(DCC)”。
其他文献
本课题在前贤的研究基础上,以认知语言学的基本理论为指导,从普通话与闽南方言的对比视角,通过四个专题的形式,对现代汉语趋向范畴中的表上向的“起”、“上”组趋向动词的相
我国并没有规定自白任意性规则,理论界对此也没有统一的观点,但随着人权保障观念、正当程序理念和权利保护意识的增强,完善自白任意性规则势在必行,本文从理论基础、国外理论
通过本研究,构建了蒙汉英语言知识库。论文中主要介绍了“蒙汉英词典”数据库、蒙古语词法变化形式库、多语句对齐语料库的构建工作以及建库平台、蒙汉英语言知识库用户界面
本文选取一个现代汉语中常用的多义词“拿”作为建构同义词集合、进行同义词对比及词义内涵描写的起始词。在词汇语义网中,“拿”在形式上表现为动词类的一个节点,但这个节点
“预期”与“偏离预期”是一组话语-语用界面的概念,集中反映了言语行为中的人际关系,与语言的主观性密切相关。相对于预期信息与中性信息而言,偏离预期性信息是更重要、信息
民办高等职业教育作为中国高等教育的重要组成部分,对全面促进社会与经济的快速发展有着十分重要的作用。随着我国民办高等职业教育的发展,在民办高职院校的教师队伍中,辅导
普通话水平测试是载入《国家通用语言文字法》的大规模国家通用语言口试,在我国语言文化建设中具有重要作用,在语言测试领域也以其鲜明的特点,独树一帜。本文旨在通过对普通
文献引用是学术写作中参考文献的一种修辞行为,也是学术写作的典型特征之一。在二语写作领域,引用研究表明,对学术写作初学者而言,文献引用能力的获得较为困难。要想探究其中
基于陶瓷CBN砂轮对渗碳钢20Cr Mn Ti开展了高速外圆磨削试验。在外圆磨削余量和工艺参数固定的情况下对工件进行连续磨削,以工件上的磨除体积为砂轮磨损指标,考察了砂轮磨损
又到了岁末,市场经历了风风火火的2005年,到此逐渐平静下来。对于建筑工程机械行业来说,岁末年初至关重要,在总结全年的功过是非的同时,对明年总体形势的判断更是决定来年收