基于半监督的汉语词义消歧方法

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:cxqr520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧是自然语言处理领域中的一个重要研究问题。词义消歧的目的是为了确定歧义词汇在日常交流对话中的含义。句子中的语义信息和词性信息是两种重要的语言学知识,能够帮助确定歧义词汇的语义类别。随着自然语言处理领域的快速发展,词义消歧问题的解决成为了自然语言处理领域的一个难题。本文提出了一种半监督的词义消歧方法。以歧义词汇为中心,从左右邻接的词汇单元中抽取出消歧特征来构建词义消歧模型,并采用半监督的方法来优化词义消歧模型,提高词义消歧分类器的性能。本文的主要研究内容分为以下三个方面:其一,阐述了词义消歧问题的研究背景和意义,介绍了词义消歧技术在国内外的研究现状,并对目前的研究现状进行了分析,对词义消歧技术面临的难题进行了分析和说明。其二,介绍了实验中需要用到的词典资源和语料库,阐述了《同义词词林》的内容组织结构。对训练语料和测试语料的背景和内容进行了说明,介绍了其预处理过程。详细的说明了消歧特征的提取过程。其三,以歧义词汇左、右邻接词单元的词形、词性和译文作为消歧特征,来构建贝叶斯词义分类器;以歧义词汇左、右邻接词单元的词形和词性作为消歧特征,来构建最大熵词义分类器。采用Co-Training算法并结合大量无标注语料来优化词义消歧模型。使用Sem Eval-2007:Task#5的训练语料和哈尔滨工业大学的无标注语料来优化贝叶斯分类器和最大熵分类器,同时,对优化后的词义消歧模型进行测试。实验结果表明:运用本文所提出的半监督方法,词义消歧模型的准确率有所提高。
其他文献
市政道路与公路的主管部门分别为住房和城乡建设部、交通运输部,并对应存在两种不同的计价体系。大量工程实践表明,市政道路与公路建设项目的投资巨大且相同主体工程部分在同样工程量下的造价的确存在差异性。课题首先从造价管理、计价依据、费用组成、计价程序及计价定额等五方面对两者的计价体系进行系统性的对比分析,得出其差异性;其次节选贵州省遵义乐理至冷水坪高速公路中具代表性的一段工程项目作为编制造价文件实例,量化
随着科技的飞速发展,计算机图形学在渲染方面取得了一个又一个的突破,诞生了大量优秀韵渲染模型,但是离真实感渲染还有一定差距。因为现实世界场景复杂多变、客观条件众多,用
随着社会的发展,现有的频谱资源已远远无法满足广大用户的需求,人们急于寻找新的频谱资源,于是,未来的第五代移动通信技术(5G)研究者们便将目光投向了目前仍未被授权的毫米波
图匹配作为图计算中一种基本操作,是图数据处理领域中一项重要的研究内容,在生物学、信息学、社会学等重点领域均得到广泛的研究与应用。近年来,许多国内外学者对图匹配方法
卫星通信具备全覆盖、全天时及全天候等独有特点,而低轨(Low Earth Orbit,LEO)卫星更是以其优越的通信链路具备良好的发展潜力。扩频技术以其抗干扰能力强、保密性能好及功率
压水堆燃料组件由燃料棒和定位格架构成,堆芯内冷却剂的高速冲刷加上定位格架搅混翼引起的横向流动会导致燃料组件的振动,振动和由振动引起的变形会诱发包壳出现磨损进而引发放射性物质的泄漏危及反应堆第一道安全屏障的完整性。总结有关棒束流致振动问题的研究,燃料棒振动问题的研究主要集中在三个方面:一是研究燃料组件内冷却剂流动情况;二是研究不考虑传热条件下的来流横向冲刷;三是将单根燃料棒等效为梁,进行力学分析。本
近年来,为了满足用户不断增长的通信需求,逐渐形成了在已有宏基站覆盖的基础上引入大量低功率基站(节点)的分层异构网络,来实现网络的无缝覆盖和高速数据传输。但是,因为宏基
随着大数据科学的提出与兴起,分布式存储技术的价值和重要性日渐凸显。相比于传统的集中式存储系统,分布式存储系统具有低成本、易扩展、高可用等优势。复制技术是实现分布式
Android是目前市场占有率最高的智能手机平台,在2017年第一季度中,Android的市场占有率高达85.0%。在智能Android设备日益普及的同时,移动支付、拍照摄影、定位导航、语音通
导航定位技术伴随科技发展而产生。传统的导航系统虽然单独使用都能实现定位导航,但是都存在着一些缺陷,如全球定位系统(Global Positioning System,GPS)短时间内定位精度高,