论文部分内容阅读
从一个民族的语言系统来说,词汇是承载语言信息的基本载体,它是语言系统中最活跃、最具生命力的元素。假若没有了词汇,语音发挥不了作用,语法也无法建构起来,三要素中词汇占有十分重要的地位。然而,语言不是静止的,它在运用中不断地产生变化,语言是具有生命力的“活”的语言,是一个“语言生态系统”。在语言系统中,社会生活的变化总是最先反映到日常的词汇使用中。因此,三要素中又以词汇的发展变化范畴最大、速度最快。基本词汇的词是一个民族的人民日常都在使用的、不容易变化,比较稳固的词语,它们一般都具有较强的构词能力,是语言中派生新词的基础。基本词汇是语言词汇系统的核心,基本词汇的研究对语言教学、词典编纂以及语言信息处理等领域应用都具有重要的意义。然而由于基本词汇所具有的“全民常用性、历史稳固性及构词能力强”三大特性概念宽泛、评判标准模糊,而且其量化标准受限于计算语言学的发展程度,因而以往对基本词汇的研究及认定大都限制在语言学家例证性的范畴内,极少进行定量的分析与考察研究。因此,本论文首先对基于动态流通语料库上进行研究的基本词汇、通用词汇给出了概念界定,并在此基础上确立了本文的研究目标,那就是:在现代汉语动态流通语料库上实现现代汉语基本词汇的自动识别及提取方法研究。本论文研究将以北京语言大学“国家语言资源监测与研究中心”(平面媒体)的动态流通语料库中的2002~2006年大陆地区发行的六份主流报纸(《人民日报》、《北京青年报》、《北京晚报》、《法制日报》、《环球时报》、《羊城晚报》)作为考察对象,动态跟踪和考察词汇在大众媒体中的真实使用情况。本论文首先提出了词语通用度的计算公式,据此计算并提取“语言工程用现代汉语通用词”CCWE,然后在CCWE词汇范畴内进一步考察语言学家例证所获得的CBVE先验集词汇所具有的统计特征类型,确立基本词汇的特征描述向量,采用遗传算法构造基于动态流通语料库的“语言工程用现代汉语基本词汇”CBVE自动识别及提取模型,实现CBVE的自动提取,为现代汉语基本词汇的研究提供了一种量化考察途径。本论文的研究内容主要包括:◇词语预处理:词语的预处理主要是将网页格式语料文本转化为纯文本格式语料。◇文本领域分类、词语切分:为了计算词语在不同领域的通用程度,需要将语料进行领域分类。本研究将语料分为“政治”、“经济”、“教育”等十个领域类。◇CCWE通用词汇特征描述及自动提取:根据本文对CCWE通用词汇的界定,描述词语通用度特征,提出词语通用度计算公式,进而实现CCWE的自动提取。◇构建CBVE基本词汇先验集:研究语言学家用举例法所获得的基本词汇先验集,根据其特征表现,获取CBVE自动识别及提取模型的构建标准。◇选择CBVE基本词汇特征向量:依据CBVE基本词汇所具有“常用性、稳定性和能产性”的统计特征属性,选择CBVE自动识别及提取模型的特征向量。◇构造CBVE基本词汇训练初始集:对CBVE先验集通过聚类方式进行分类,根据不同的CBVE先验集类别辅助人工标注CBVE训练初始集,为训练和构造CBVE自动提取模型提供保证。◇采用遗传算法训练CBVE自动识别及提取模型:在训练集上,采用遗传算法训练CBVE自动识别及提取模型参数,直到CBVE集合趋向稳定为止。◇CBVE自动识别提取模型对比实验分析:为验证本研究所构造的CBVE的自动识别和提取模型的性能,设计实验进行相关的对比分析。◇CCWE通用词汇和CBVE基本词汇专项考察分析:进行与CCWE通用词汇和CBVE基本词汇研究相关的一些专项考察分析。本论文的研究创新点及主要贡献体现在如下几个方面:◇在大规模的动态流通语料库中,考察了大众媒体报纸的词汇真实使用情况。处理考察的语料规模庞大,覆盖文本数632,255个,词次总数247,257,749,不同词数8,750,105。◇首次提出了在动态流通语料库中定量分析和考察CBVE基本词汇特征的一种方法,为今后基本词汇从定性研究过渡到定量研究提供了一种途径。◇提出了一种词汇通用程度的计算方法,为词汇统计特征考察提供了一种新的计量指标。◇借鉴了模式识别领域的研究方法,依据遗传算法搜寻特征向量空间范围广、收敛速度快、鲁棒性强等特点,将其应用到对CBVE自动识别及提取模型的参数训练上,获得了令人满意的结果。