基于语义类词法信息的词义消歧

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:lucky121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语的词汇组合搭配的灵活性和变通性,导致中文词汇歧义现象的产生。语言的不确定性直接影响着自然语言处理领域的相关应用的实现,这说明词义消歧研究是解决自然语言处理的关键。让计算机依据从语料中提取出的语言学知识,自动地为歧义词匹配符合语境的词义是词义消歧的目的。本文针对本课题的研究的起源、意义和已有研究现状以及词义消歧未来将面临的挑战进行了介绍,并对比分析了主流词义消歧方法的优缺点。参考已有的相关知识和研究成果,提出一种结合统计学习理论的有监督的混合特征消歧方法。该方法结合语言学中常用的词法信息和语义类信息作为消歧特征。最后利用提取到的特征来训练分类模型,并测试该模型的消歧准确率。本文的研究内容主要体现为以下三个方面:其一,本文阐述了词义消歧领域中较为主流的消歧方法,并针对这些方法做出示例和比较。简述了词义消歧的评测体系和准确率的计算方式,以及词义消歧研究亟待解决的问题。其二,分析了词义消歧的语言学工程资源,包括语料的来源、语料格式、解析工具、语料标注体系、特征筛选和特征的提取。深入研究语料可提供的语言学知识有助于筛选出有益于消歧的特征。利用《同义词词林》获得词汇的语义类信息即语义代码,结合语义类和词法信息的特征提取方法,可以获取包括语义代码、词形和词性等语言学知识。其中,语义代码的多层知识结构可以提供不同层次的指导。其三,通过提取单一特征或不同特征信息的组合,构建有差异的特征向量集。分别利用这些差异化的特征向量集训练支持向量机分类器,然后对比多组不同特征向量集的实验结果,证明新方法及消歧分类器的性能。
其他文献
当前越来越多的企业已经把信息安全看做影响业务发展的核心因素之一,信息安全管理已经成为企业管理的重点。本文对当前企业信息安全风险的现状展开了探讨,并就信息安全政策,
几年前《速度与激情4》上映前,开始恶补系列的前三部。其实12年前的第一部《速度与激情》并不是一部有天价投资的好莱坞电影,但整部电影的剧情和飙车场面还是让它成为了一部好
湘绣是我国四大名绣之一。在当代社会背景下,湘绣需要创新,设计创新是其发展的关键,也是传承湘绣的重要生命线。该文以创意文化的视角分析湘绣题材设计创新,旨在推动湘绣实现
2017年9月,湖南省郴州市某猪场的怀孕母猪突然发生流产、死亡。为确诊病因,对该猪场病死猪脏器进行了细菌分离和PCR检测,结合临床症状最终确诊病原为猪丹毒丝菌。为了解整个
随着新农村建设步伐的加快,农村群众文化建设得到了重视与发展。农村群众文化建设是提高人民文化水平,指引农村文化发展导向,推动新农村建设的主要途径。但是,怎样构建农村群
西安市水利建筑勘测设计院,始建于1962年。位于西安市文艺北路98号,行政隶属于西安市水务部门、具有水利行业乙级设计资源。在水利、水电工程中是一个以研究、咨询、设计、规划
目前淡水鱼塘水质评价中将重金属、富营养化和有机污染分开独立研究的较多,同时综合起来进行评价分析的较少。为了解淡水混养鱼塘水体综合污染的特征和发生机理,用基于主成分
论述了入侵检测系统和数据挖掘的基本概念。针对现有入侵检测系统对新的攻击缺乏自适应性这一缺陷,提出了一个基于数据挖掘的入侵检测系统模型,该模型具有一定的自主学习和自
肺栓塞发生时,各种栓子阻塞肺动脉系统后,肺动脉的血流被完全或部分阻塞,发生一系列的病理生理改变,血液动力学和呼吸功能出现不同程度的改变。已有大量的动物及临床试验对栓塞后