基于K-means聚类与LSTM的词义消歧研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:jay2048
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文包含很多多义词,结合不同的语境可以表达截然不同的意思。词义消歧的概念是针对计算机在自然语言处理领域中的应用提出来的。期望通过算法模型,使计算机明确语境并自动选择歧义词汇的正确语义。词义消歧可以增强计算机使用和理解自然语言的能力,在机器翻译、文本分类等领域的应用越来越广泛。词义消歧已经演变为自然语言处理中亟待解决的重要课题。本文研究的是一种基于K-means聚类与LSTM(Long Short Term Memory,LSTM)的词义消歧方法。构建半监督K-means聚类器,对无标注语料聚类,将聚类得到的语料加入训练语料优化LSTM模型,并测试LSTM模型的性能。本文主要进行了以下几个部分的研究:首先,分析了国内外关于词义消歧的文献,对目前的研究现状和发展有了了解,明确了词义消歧的目的和意义,总结了词义消歧技术面临的困难和发展趋势。其次,介绍了实验所需的《同义词词林》词典及语料库。研究了词义消歧特征工程方面的相关知识,详细描述了K-means聚类器的聚类特征和LSTM分类器的消歧特征的预处理和选取的过程。详细说明了贝叶斯分类器和LSTM分类器的消歧过程。最后,构建半监督K-means聚类器,对无标注语料进行聚类。在有标注语料中选取若干个聚类中心,选取一条无标注语料,计算它到每个聚类中心的距离。若到某个聚类中心的距离小于阈值,则将其取出放至该聚类中心所在的类。所有无标注语料计算完成后更新聚类中心。重复这一过程,直到有标注语料中的聚类中心不再更新。将聚类得到的语料加入训练语料扩充训练语料的规模,使用扩充后的训练语料训练LSTM消歧模型,优化LSTM的参数,并对测试语料进行了消歧。实验结果表明:本文所提出的消歧方法的消歧能力高于LSTM分类器、DBN分类器和贝叶斯分类器。
其他文献
高中思想政治课承担着落实立德树人的根本任务,是培养德智体美劳全面发展的社会主义建设者和接班人的主阵地,新一轮基础教育的改革将培养学生学科“核心素养”作为改革的聚焦点。高中思想政治课程顺应新时代的要求,正历经以培养高中生学科核心素养为依据,从三维目标到核心素养为主线,深化课程内容的更新的改革之路。为了应对新的要求和挑战,提升高中思想政治课教师核心素养成为“核心素养”时代高中思想政治课教师专业发展的必
学位
现在的时代是大数据和云计算的时代,数据的整理及其蕴含着的信息都变得越来越重要。数据的存储及数据间的关联规则挖掘方面都出现了较成熟的系统软件,但是一般都有这样或那样
物流能够保证商品的流通,因此它是商品经济的动脉。车辆路径问题作为物流活动中的优化问题,更是具有深远的研究价值。群智能优化算法作为一类新兴的优化算法,虽然具有较好的
随着物联网的快速发展和智能终端的兴起,大量的智能终端接入互联网,然而,由于物联网厂商缺少安全意识并且在安全方面的研究投入比较少,导致安全标准的制定、实施速度远低于物
生产外包由于降低成本,减少投资,提高产能和增强核心竞争力等诸多优势,成为普遍的供应链特征,在许多高科技公司的商业实践中发展迅速。然而由于制造商对供应商缺乏质量控制,
近年来,机器人技术得到了飞速发展,被广泛应用于社会各个行业和领域,特别是在某些人类难以操作的特殊的危险的环境中,机器人发挥了重要作用。传统的六自由度机械臂操作时间长
图像分割是医疗影像分析中的重要环节之一。有效的脑图像分割有利于医生临床观察及诊断,从而辅助医生发现病灶区域,并制定更加积极有效的治疗方案。近年来,随着机器学习技术
随着信息科学技术的不断发展,人们对于个人信息的保护愈发地重视,所以人们迫切地需要一种可靠且方便的身份识别技术。随着计算能力变强,生物特征识别技术的优势受到广泛关注,
在工业生产和制造过程中,对工作环境要求比较苛刻的设备,尤其是军用设备和汽车电子,在产品交付和使用之前必须经过严格的筛选,使它们满足具体的环境要求。其中的振动实验是必不可少的筛选试验之一。3D远程监控系统克服了传统实验过程中实验人员需要进入空间小、噪声大的实验室并且利用大量时间去查看进行振动设备的运行状态的弊端,是一个给实验人员提供了更加便捷、远程、可以追溯故障率的监控系统。本文从实际应用角度出发,
目的:研究Brg1蛋白在肝脏纤维化(liver fibrosis)过程中的作用及其可能机制。方法:1、利用数据库数据分析正常肝脏组织和肝纤维化组织(肝硬化和肝癌患者临床样本)中Brg1蛋白表达量的差异。2、在活化的肝星状细胞中,高、低表达Brg1,检测肝纤维化相关基因表达差异。3、在人肝星状细胞LX-2中高、低表达Brg1,检测TGFβ/Smad通路中关键蛋白的表达变化。4、体外构建慢性肝损伤动物