基于历时语料库的词义分布及词义变迁研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:gongleiwp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言是人类特有的文化现象,经历着生生不息的变迁过程。语言变迁的历史是人类历经的兴衰史。而语言变迁的一个重要现象就是词汇的语义变化(简称词义变迁),这也是本文的研究重点。词义变迁一直是语言学中的一个重要课题,在传统的语言学方向取得了显著的成就。但是传统的“田野工作”只能进行定性地分析,需要精确地进行数据收集,耗费大量人工。而定量的研究上并没有成熟的研究思路,往往只使用一些简单的统计量,如词频、上下文相关度等等来进行语义变迁的度量,结果很难具有说服性。因此需要提供一个统计学意义上的研究方法,对词义变迁现象做出深入的挖掘,给语言学家及计算语言学的各个领域提供参考。基于历时语料库的研究方法一直是一种重要的研究手段,不仅能精确快捷地进行语言运算,也由于其符合语言学原则而被语言学家们接受。本文的研究就选择在历时语料库上进行,研究结果表明,本文提出的方法具有通用性,能适用于不同的语料库。  本文在此基础上提出了一种全新的词汇语义度量方式,首先通过词向量模型对历时语料库中的不同时间段建立词义空间,然后采用空间映射的方法把不同时间段的词向量映射到同一个目标空间中,得到一个词在目标空间中的词义分布。我们假定该分布是词向量空间中的一个多维高斯分布,该分布是词语在历时语料库中的词义表达。经过实验表明,该分布可以刻画词语潜在的话题特征,反应词语受某个或者某几个时代热点话题的影响而发生语义波动的现象。利用这种词义分布还可以构建出词语的话题层次聚类树,经LDA模型验证,这种聚类效果符合话题的分布,能够找出特定的话题类。同时,提出了词汇语义变迁的研究框架,通过对空间变换的训练集算法的设计,找到了语言学中的“基本词汇”;通过对误差函数值的分析发现了语义变迁程度与时间的关系,证明了该框架的合理性。然后进一步提出了词汇的语义是由“理性义”和“话题义”构成。理性义相对稳固,而话题义容易受到周围社会环境变换的影响。通过实验证明词语的语义确实包含这两方面,而且两种意义相辅相成,得到的统计结果经分析表明符合语言学中的词义变迁规律。本文中涉及到的词义分布定义方法及词义变迁研究框架,不仅能用来有效地研究词义变迁,还能为计算语言学的其他领域提供参考,如词类研究、新词发现、词语相似度度量、热点话题挖掘等。
其他文献
该文详细分析了NISDetector系统的体系结构--分布式集中控制入侵检测系统,对探测器,主机代理,安全控制中心三部分的工作原理进行了深入阐述.其中对基于审计日志监测分析的主
该论文是一篇计算机管理软件项目设计论文.主要阐述了项目的立项的背景、系统调查、总体设计和表设计、主体窗口的详细设计,以及项目设计中的特色部分.
该论文主要讨论了一种新的名字服务系统Handle-DNS的理论设计与具体实现.该文作者参与了该系统理论模型的设计以及原型系统的实施,集成现有DNS和Handle System系统,完成Handl
论文详细叙述了面向超市的市场调查统计分析系统的设计与功能实现的全过程,主要包括以下内容:对项目要求与课题内容进行了详细的分析,将问题模型化,对其功能模块进行了划分,
数学公式是教育、科技类文档的重要组成部分,也是科学技术交流的重要语言。目前互联网上积累了海量的包含数学公式的文档资源,如何识别及检索文档中的公式成为很多领域中的关键
该文介绍了一个分布式频繁项集挖掘算法,该算法借鉴了Fpgrowth算法的思想,并充分利网格系统提供的数据访问服务和元数据服务,使得频繁项集的挖掘能在网格平台上运行,并因此获
事务处理技术是保证信息可靠性和一致性的关键技术。事务是具有ACID(atomicity,consistency,isolation and durability)特性的原子操作序列。 恢复处理是事务处理的核心问题
该文通过对供应链中采购管理的研究,针对中国企业自身的特点,实施供应链管理环境下的采购管理,全面应用电子商务,采购招投标与比价采购相结合,全面实施基于供应商信誉积分的
随着互联网的不断发展与扩大,域名系统作为网络的基础设施扮演了越来越重要的角色.当前作为域名系统重要组成部分的域名注册系统所遵守的RRP协议由于缺乏可扩展性,难以满足不
利用激光扫描等技术获取三维场景数据,然后进行三维场景重建是计算机视觉研究的一个重点,该技术在城市三维建模等领域中发挥着重要作用。在进行数据获取时由于受视场或遮挡等因