基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究

被引量 : 35次 | 上传用户:maxiao912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从一个民族的语言系统来说,词汇是承载语言信息的基本载体,它是语言系统中最活跃、最具生命力的元素。假若没有了词汇,语音发挥不了作用,语法也无法建构起来,三要素中词汇占有十分重要的地位。然而,语言不是静止的,它在运用中不断地产生变化,语言是具有生命力的“活”的语言,是一个“语言生态系统”。在语言系统中,社会生活的变化总是最先反映到日常的词汇使用中。因此,三要素中又以词汇的发展变化范畴最大、速度最快。基本词汇的词是一个民族的人民日常都在使用的、不容易变化,比较稳固的词语,它们一般都具有较强的构词能力,是语言中派生新词的基础。基本词汇是语言词汇系统的核心,基本词汇的研究对语言教学、词典编纂以及语言信息处理等领域应用都具有重要的意义。然而由于基本词汇所具有的“全民常用性、历史稳固性及构词能力强”三大特性概念宽泛、评判标准模糊,而且其量化标准受限于计算语言学的发展程度,因而以往对基本词汇的研究及认定大都限制在语言学家例证性的范畴内,极少进行定量的分析与考察研究。因此,本论文首先对基于动态流通语料库上进行研究的基本词汇、通用词汇给出了概念界定,并在此基础上确立了本文的研究目标,那就是:在现代汉语动态流通语料库上实现现代汉语基本词汇的自动识别及提取方法研究。本论文研究将以北京语言大学“国家语言资源监测与研究中心”(平面媒体)的动态流通语料库中的2002~2006年大陆地区发行的六份主流报纸(《人民日报》、《北京青年报》、《北京晚报》、《法制日报》、《环球时报》、《羊城晚报》)作为考察对象,动态跟踪和考察词汇在大众媒体中的真实使用情况。本论文首先提出了词语通用度的计算公式,据此计算并提取“语言工程用现代汉语通用词”CCWE,然后在CCWE词汇范畴内进一步考察语言学家例证所获得的CBVE先验集词汇所具有的统计特征类型,确立基本词汇的特征描述向量,采用遗传算法构造基于动态流通语料库的“语言工程用现代汉语基本词汇”CBVE自动识别及提取模型,实现CBVE的自动提取,为现代汉语基本词汇的研究提供了一种量化考察途径。本论文的研究内容主要包括:◇词语预处理:词语的预处理主要是将网页格式语料文本转化为纯文本格式语料。◇文本领域分类、词语切分:为了计算词语在不同领域的通用程度,需要将语料进行领域分类。本研究将语料分为“政治”、“经济”、“教育”等十个领域类。◇CCWE通用词汇特征描述及自动提取:根据本文对CCWE通用词汇的界定,描述词语通用度特征,提出词语通用度计算公式,进而实现CCWE的自动提取。◇构建CBVE基本词汇先验集:研究语言学家用举例法所获得的基本词汇先验集,根据其特征表现,获取CBVE自动识别及提取模型的构建标准。◇选择CBVE基本词汇特征向量:依据CBVE基本词汇所具有“常用性、稳定性和能产性”的统计特征属性,选择CBVE自动识别及提取模型的特征向量。◇构造CBVE基本词汇训练初始集:对CBVE先验集通过聚类方式进行分类,根据不同的CBVE先验集类别辅助人工标注CBVE训练初始集,为训练和构造CBVE自动提取模型提供保证。◇采用遗传算法训练CBVE自动识别及提取模型:在训练集上,采用遗传算法训练CBVE自动识别及提取模型参数,直到CBVE集合趋向稳定为止。◇CBVE自动识别提取模型对比实验分析:为验证本研究所构造的CBVE的自动识别和提取模型的性能,设计实验进行相关的对比分析。◇CCWE通用词汇和CBVE基本词汇专项考察分析:进行与CCWE通用词汇和CBVE基本词汇研究相关的一些专项考察分析。本论文的研究创新点及主要贡献体现在如下几个方面:◇在大规模的动态流通语料库中,考察了大众媒体报纸的词汇真实使用情况。处理考察的语料规模庞大,覆盖文本数632,255个,词次总数247,257,749,不同词数8,750,105。◇首次提出了在动态流通语料库中定量分析和考察CBVE基本词汇特征的一种方法,为今后基本词汇从定性研究过渡到定量研究提供了一种途径。◇提出了一种词汇通用程度的计算方法,为词汇统计特征考察提供了一种新的计量指标。◇借鉴了模式识别领域的研究方法,依据遗传算法搜寻特征向量空间范围广、收敛速度快、鲁棒性强等特点,将其应用到对CBVE自动识别及提取模型的参数训练上,获得了令人满意的结果。
其他文献
随着中国地位的提高,我国与其他各国做生意的机会越来越多,所进行的商务谈判也越来越多。怎样才能克服双方文化差异,避免谈判出现僵局,甚至谈判破裂,使谈判取得双方都满意的
与其他谋划方式相比,大学发展战略的制定须遵循"非常规"、"合规律"、"高务虚"的基本逻辑。从这一原则出发,结合国内外大学发展战略制定实际,可以发现大学发展战略的构成体系
目的探讨类风湿关节炎(RA)患者心血管事件与其血脂成分中脂蛋白(a)[Lp(a)]的关系。方法纳入2007年2月~2007年9月收住风湿免疫科各类疾病患者,测定其血脂全套、血沉、C反应蛋
<正>精神分裂症治疗需要长期甚至终生服药,但抗精神病药物引发的代谢综合征成为影响病人服药依从性的重要因素,因停药所引发的病情复发给病人带来很大的痛苦,所以临床上多见
综述了聚四氢呋喃的生产工艺方法,包括氟磺酸工艺、杂多酸工艺、醋酐-醇解,分析了各种生产工艺的基本生产过程,探讨了国内外聚四氢呋喃的工艺技术发展情况。
本文采用电渗析法分离乙二醛电氧化合成后的乙醛酸产品,研究了电流密度、流速、温度、阴离子交换膜对电渗析分离效果的影响。
本文给出了由地磁场的高斯系数计算地球某一点的地磁场强度的X、Y、Z分量和总地磁强度以及磁偏角、磁倾角的方法,并给出了由1965年的国际地磁参考场的高斯系数计算的磁偏角、
目的探讨金陵术治疗顽固性便秘患者的术后观察和护理要点。方法回顾性分析总结590例接受金陵术治疗的顽固性便秘患者的临床资料。结果本组患者术后平均住院(11.8±8.8)d,术后
探讨视觉语言对指导人们在包装垃圾再生性方面的可行性研究。通过分析发现包装产生的废弃物对自然环境的影响很大,但人类处理包装垃圾的环保意识还不够强。因此,怎样实现包装
嘉绒语分东部、北部和西部三个方言。使用嘉绒语东部方言和北部方言的人自称k(?)ru,与《旧唐书·东女国传》所记的“哥邻”的译音相近;使用藏语的人将使用嘉绒语的地区称rgia