基于语料库的基因相关新闻词语搭配研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:csmeteor135
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本研究依据语料库语言学,采用统计的方法,对基因新闻词语搭配进行研究。本研究的目的是从所选取的语料库中提取“gene”和“genome”的搭配词,并对节点词的词形变化,词的搭配规律进行分析。词语搭配研究存在两方面的意义。第一,它揭示了自然语言产生与处理的规律;第二,为计算机与语言学相结合提供的材料和方法。本研究采用词语共现的搭配标准,坚持只要词语共现实现统计学意义上的显著程度就可以构成搭配的理念,依据以下原则:1)采用自然语料;2)定量,定性相结合;3)以词为中心;4)已发现理解为目的。本文对从《自然》(Nature)下载的近十年关于与基因有关的110篇新闻,共77937个单词及其搭配进行了研究,用Wconcond和Excel。Wconcord用于提取搭配词,Excel用于计算T值和MI值。T值用于确定合适的搭配词,本文T值设置大于2。MI值用于研究搭配强度,本文设置大于11。本研究表明:1)基于语料库的计算机处理词语搭配研究可以揭示自然处理过程中的词语相互限制和词语相互选择的规律;2)有助于学习者建立词语搭配框架,为计算机词典编撰提供材料和方法;3)可以为小型语料库的词语搭配研究提供方法;4)但同时表明:计算机统计方法在词形方面有很大的局限性;5)对于一些难理解词语的搭配可以进行渐次性分析,有助于读者建立认知范畴,帮助对搭配词语的理解。
其他文献
<正>资金是影响农机化发展的基本要素。随着农业机械的广泛使用和农村金融扩展,运用农机融资租赁方式解决农机化发展中的资金短缺问题,对于农机化技术推广和技术进步具有特别
近年来,汉语言语听力测试广泛应用于听力损失患者的临床评估,目前对汉语测听材料进行的等价性评估(判断测试词表的听力难易程度是否相同)方法多依赖于测试数据的大量采集,并
自朱德熙(1961)对汉语中的“的”进行了开创性的研究以来,“的3”(下文称为“的”)一直备受国内外学者们的关注(司富珍2002, 2004;Rubin 2003;黄师哲2006;李艳慧2008;贺川生&
随着时代的迅速发展以及军事题材影视作品的大量涌现,大量军事用语突破其原有的语用范围泛化到其他的非军事领域中来,语义也随之发生转化。本文以军事用语语义泛化现象为研究
《躋春台》是清代最后一部凝话本小说集。其语言有文言、白话相夹杂和大量使用方言俗语两个显著的特点。《躋春台》语言形式的多元性使得我们有必要对其语音、词汇、语法进行
<正>随着糖尿病患者的日益增多,阑尾炎手术患者中糖尿病所占比例趋于上升。糖尿病患者在并发阑尾炎时,多数由于忧虑病情,机体抵抗力低下,而且由于炎症所致的腹痛加剧,从而精
本试验旨在研究枯草芽孢杆菌、酵母细胞壁多糖及二者的复合添加剂对哺乳仔猪和断奶仔猪生长性能、腹泻指数、血清生化指标及饲料养分消化率、粪样微生物的影响。试验一研究在
在市场经济的强大推动下,极大地促进了生产制造型企业的发展,而全面预算管理的应用也变得越来越重要,尤其对企业财务内控产生了极其深远的影响,已经成为了生产制造型企业发展
近年来,对外汉语教学事业蓬勃发展,不仅积累了我国对外汉语教学实践经验,也极大的推动了对外汉语教学理论研究。尽管外汉语教学理论研究在语音、词汇、语法等方面都取得了丰硕的
本文对《水浒传》中的非自主动词进行了量的统计,着重在共时平面上对现象进行描写,也通过比较的方法从历时的角度简析了一些特殊非自主动词的语源,以及和现代汉语非自主动词