基于现代汉语和中介语语料的复合词语义提取和自组织聚类分析研究

来源 :北京语言大学 | 被引量 : 4次 | 上传用户:confusion00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
联结主义(Connectionism)自二十世纪八十年代后期以来是认知心理学的主导理论之一,它被广泛应用于包括语言学在内的各个领域。联结主义分布表征的观念和对学习机制解释的合理性被语言习得研究者广泛看好,目前,联结主义已经成为解释语言习得的主导流派之一。本文在国外联结主义理论和神经网络模型研究比较成熟、联结主义引入语言习得研究的理论比较成熟的情况下,将联结主义的分布表征理论、语义提取和自组织聚类的方法引入汉语作为第二语言的留学生复合词习得研究中。着力于从理论和方法上两个方面更新的研究视点。文中介绍了联结主义理论看待习得问题的优势,利用联结主义自动提取语义表征模型WCD,做了一系列从现代汉语和中介语语料自动抽取语义的实验,对抽取出来的语义进行自组织聚类分析,并参照联结主义的理论,以此为留学生和汉语母语使用者的心理词典的假设,考察了它们的异同和发展过程。实验研究发现,初级水平的留学生还不能很好识别同家族复合词的近义、同形关系。随着水平的提高,留学生掌握同家族复合词的数量慢慢增加,他们的语义系统逐渐发展,到了高级水平,留学生能够比较好的识别同家族复合词的近义、同形等关系,但是仍然不如汉语母语使用者的语义系统完善。推测其原因在于留学生掌握同家族复合词的数量少、部分词汇使用频率低,同时用法不免有一些单一。提出要真正学好复合词必须全面的掌握它们的各种语法、语义、语用特点。实验的结果也表明,这种用联结主义的模型处理语料库的方式,可以处理一些传统语料库研究中仅靠频率分析、实例检索分析不好处理的问题,发现一些传统语料库研究很难发现的问题。例如模型可以对语料库中复合词的语义语用进行全面综合计算,收集到人很难归纳出来的上下文信息。另外,文中对复合词的语义透明度作了自动定量评定的探讨,提出语义透明度的自动评价公式的假设。实验结果表明,在模型提取出来的语义表征的基础上,进行的语义距离计算的假设,以及语义透明度自动评价的假设是有一定合理性和可行性的。本文利用联结主义的模型对中介语语料进行处理,试探了一种与传统语料库分析方法绝然不同的研究方法;对语料中抽取的语义进行自组织聚类,以此为语义心理词典的假设,去探讨留学生复合词习得的情况,同样采用了有别于传统复合词习得认知研究的方式进行研究。我们希望这种探讨是有益的。同时也希望实验中提出的改进模型训练的方法、语义距离计算的假设、语义透明度计算的假设有一定的价值。
其他文献
从后殖民主义理论解读如何保持中国传统文化。本文从后殖民主义理论出发,以后殖民主义理论的拓展——美国国内帝国主义的兴起为例,由三方面探讨了在美国文化霸权日益全球化的
本选题以湖南省湘西土家族苗族自治州吉首市境内的苗语四音格词和汉语四音格词为研究对象,运用描写法、归纳法、统计法、对比法,从语音形式、语义特征、语法功能、形成机制及演
政府采购法律制度是关系到各级国家机关有效行使其职能、加强财政支出管理、更好的发挥财政在国民经济发展的宏观调控作用、抑制腐败的重要法律。我国加入世界贸易组织已经近
可持续发展是以人为中心,以资源环境保护为条件,以经济社会发展为手段,谋求当代人与后代人共同繁荣、持续发展的目的。水资源在可持续发展过程中与人口、资源、环境和经济密
本文旨在认识中国土地纠纷的性质 ,并尝试对土地使用规则不能确定的原因做出解释。文章认为 ,目前 ,在政治和法律各自的活动领域及活动原则未经区分 (分化 )的安排下 ,不存在
精密计量技术是保证产品质量的重要手段,也是进行科学研究的重要工具。计量测试是科技、经济和社会发展的重要技术基础,其水平高低已成为衡量一个国家科技水平的重要标志之一
本文结合我国被派到韩国釜山市26所中小学进行汉语教学的汉语教师状况的实际感受,分析了我国对外汉语教师在海外汉语教学当中出现的问题实质所在,并就此提出汉语国际推广背景
美国金融危机是国际金融垄断资本主义的结构性危机。由信息技术和网络技术革命、新自由主义意识形态和为国际金融垄断资本服务的国际金融货币体系共同建构的国际金融垄断资本
目的:①研究国人牙齿颜色分布、获取牙齿颜色个人满意度信息并分析其影响因素。②研究Beyond冷光美白技术临床应用适应征、有效性、安全性。 方法:①随机选择满足纳入标准
本文分析了我国新股发行"三高"现状,并从制度设计的缺陷和外部市场环境两方面深刻剖析了"三高"现象形成原因,最后提出新股发行由核准制向注册制转变、引入做市商制度、对发行