基于半监督模型的词义消歧研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:erwewrasfrfa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言领域,词汇在不同的语境中所表达的意思往往会有偏差,甚至截然不同,这就是一词多义现象。词义消歧(Word Sense Disambiguation,WSD)就是为了解决一词多义现象而提出的,其目的是通过建立算法模型来确定不同语境下歧义词汇所表达的真实含义。本文使用传统机器学习模型和卷积神经网络(Convolution Neural Network,CNN)模型作为基础词义消歧模型,建立了基于多模型集成的半监督词义消歧模型和基于聚类思想的半监督词义消歧模型。利用训练数据优化基础词义消歧模型,使用多模型集成算法和聚类算法筛选高置信度的无标签语料,并进行标注。将标注后的高置信度无标签语料添加至有标签语料,使得训练语料规模不断扩充,从而使得基础词义消歧模型不断优化。不断重复这一过程使得训练语料库规模达到最大,此时基础词义消歧模型性能达到最优。在本文中主要对以下三个方面作了详细的研究。其一,详细地分析了词义消歧问题的研究目的、研究意义和适用场景,介绍了国内外词义消歧领域的研究历史和现状,并在此基础上分析了词义消歧问题的研究难点和未来的研究方向。同时介绍了常见的词义消歧方法,详细分析了各个方法的优劣和适用场景。其二,详细地介绍了本文实验中使用的语料数据集,并介绍了消歧特征提取的具体流程,介绍了基于支持向量机(Support Vector Machine,SVM)模型、随机森林(Random Forest,RF)模型和CNN模型的消歧过程,并对三者进行了详尽的分析。其三,详细地介绍了半监督思想的概念,建立了基于多模型集成和聚类算法的半监督词义消歧模型。利用训练数据集优化基础词义消歧模型,利用多模型集成算法和聚类算法判别无标签语料是否是高置信度语料,如果是则将该数据加入至训练数据集中,并再次利用训练数据集优化基础词义消歧模型。不断重复上述过程,直到不再有无标签数据加入到训练数据集中为止。
其他文献
传统的先加工后装配作业车间调度方式,已经很难满足当今社会对个性化产品的需求。在这种背景下,产品的加工和装配一同调度的第三类产品调度模式综合调度应运而生。综合调度的研究虽然取得了丰硕的成果,但目前没有针对存在柔性设备多工序同时结束的问题进行考虑,所以本文对存在柔性设备多工序同时结束的问题进行研究。针对单车间环境存在柔性设备单组多工序同时结束的问题,提出存在柔性设备单组工序同时结束的综合调度算法。该算
异常检测,又称为离群点检测,是找出行为与预期行为差异较大的对象的检测过程,而时间序列异常检测旨在发现对应时序特征中不符合一般规律的特异性模式,是机器学习领域重要的研究方向。然而,现有的时序异常检测方法大多为单模态学习,忽略了时序信息在多模态空间上不同特征分布的关联性和互补性,不能充分利用时序数据进行有效的模式挖掘,从而造成检测效果差等问题。基于这些传统方法的缺陷,本文提出了一种多模态自适应时间序列
历史解释有两大要义:探求因果和阐释意义。自高中历史新课标颁布以来,学界探讨历史解释素养的文章可谓是汗牛充栋,从理论与实践两个方面丰富了人们对历史解释素养的认识。美中不足的是,这些文章探讨的主要是因果关系,阐释意义的文章较为少见。这就好比鸟少一翼,车缺一轮。为此,本文拟择一案例,解剖麻雀,进而探讨阐释历史意义的策略,以求教于方家。本文选择的案例是欧阳修在《归田录》中记载的陈尧咨与卖油翁的故事:
期刊
学位
近年来,高熵合金因其独有的优异性能获得了广泛关注。当前对于高熵合金的研究往往是实验合成或者复杂的理论计算,但是前者需要消耗大量的时间与材料成本,甚至对于实验设备也有较高要求,后者的计算过程耗时耗力且有一定局限性。随着人工智能与计算机技术的飞速发展,机器学习在材料研究与设计中逐渐展现出革命性的优势,获得了研究者的极大兴趣。因此,基于机器学习算法进行高熵合金成分设计以期达到高硬度具有十分重要的研究意义
无模型深度强化学习算法作为强化学习中的一种主要算法,其最大特点是在不对环境建模的情况下,通过与环境不断交互自主的进行学习。强化学习虽然已经在一系列具有挑战性的决策和控制任务上得到了长足的发展,但是连续控制任务下的深度强化学习的研究还是处于初级阶段,这些算法仍存在着一些问题和挑战,比如维度爆炸、随机环境下泛化能力差、样本数据使用效率低、脆弱的收敛特性和极易陷入局部最优策略。这些问题导致多数模型需要细
随着多核架构普遍流行,系统的并行能力和多线程技术随之得到增强,系统程序的并行程序设计开发模型不断研发,多线程技术慢慢成为一种必不可少的编程技术,二者提高了操作系统并发程序的性能。测试的进步和可负担并发性的增加促进了并发方向的发展,虽然用更为全面的方法分析日益复杂的程序已经成为常态,但许多方法在检测方面仍然存在很多缺陷。如何提高数据竞争误检率和漏检率问题,以及提升内存性能,减少运行开销是目前迫切需要
在现代无线通信网络技术繁荣昌盛的今天,基于位置的服务(LBS)已深深融入人们生活中。据统计人们百分之八十的活动均在室内进行,如商场、医院、家居、安全防控火警救援等行业需求,所以研究室内定位项目具有深刻的意义。基于MR地址指纹定位技术和行人航位推算法(PDR)的定位技术以其快速、准确、定位精度高、成本低等优点成为定位技术领域的研究热点。但是MR指纹定位技术不足之处在于其呈现跳跃性定位,且定位精度易受
进入21世纪以来,整个社会的信息化程度越来越高,网络信息爆炸,越来越多的信息技术走进每个人的生活。物联网技术的愈发多样,伴随而来的计算机系统软硬件的安全性与可靠性挑战比起以往都更加巨大,所以实现信息时代的信息安全成为当前的主流研究方向之一,构建高可信系统己成为世界范围的重要课题。为了保障软件开发安全,消除程序潜在隐患,我们通常使用逻辑推理系统来完成形式化验证的工作,实现信息安全,一个重要方向就是在
工作流是科学实验的常用模型,它由许多任务、数据流和计算依赖性组成。随着互联网行业的快速发展,云计算实现了资源的统一管理并提供人性化服务,用户可以根据需要制定相应的虚拟资源。如何在满足服务质量的情况下,使云计算环境下的工作流调度执行成本最小化,已成为当前的一个研究热点。而在工作流调度过程中还需要考虑安全因素,尤其是科学工作流,如果未保证数据安全,可能会导致信息泄露或数据变更,这将对科学实验带来巨大负