基于深度学习的文本消歧算法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:jbue520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在计算机语言学中,词义消歧是自然语言处理中一个重要问题,词义消歧即根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。机器翻译、语音识别、文本分类和自动摘要等各种自然语言处理系统都涵盖了消除歧义这项工作,为了使这些系统更高效,提高消歧的准确率显得尤为重要。论文主要研究内容如下:(1)针对不同词典中词汇语义不唯一、语义编码不完善等问题将影响深度学习应用到词义消歧领域中,采用现有的《同义词词林》和《现代汉语词典》语料资源进行词义整合,将两部词典中义项数不同的多义词进行对照,找出更加合理的词义划分,为词义消歧研究提供多义词词汇语义及编码。(2)为解决多义词语料匮乏问题,本文提出一种基于伪实例聚类算法的多义词语料库自动构建方法。根据《现代汉语词典》与《同义词词林》查找多义词及等价伪词,再结合无标注语料库SogouCA新闻语料数据集利用等价伪词来获取足够的伪实例,可以对整个实验阶段做好充足的准备工作。该方法中最为关键的部分即为利用混合蛙跳改进的聚类算法对伪实例进行多次聚类,以获得最佳聚类效果,最后通过计算义项与每个聚类的相似度,引导伪实例获得正确分类,为伪实例标注统一标签。通过实验对比,本文提出的基于伪实例聚类算法构建语料库的方法平均准确率达到74.9%的准确度,高于二阶context向量、基于混合特征的规则法和隐马尔可夫等算法的平均准确率,具有较高的可靠性和可实施性,能够有效解决利用深度学习算法来处理词义消歧任务时缺乏语料库的问题。(3)使用整理归纳的多义词与扩展语料库作为数据集基础,克服缺乏语料库及编码不统一的问题,将深度学习运用到词义消歧任务。本文采用BERT-BiLSTM构造文本词义消歧模型,利用BERT模型训练的词向量作为输入,并加入词性向量特征,结合BiLSTM神经网络模型对多义词进行词义消歧。实验表明,利用BERT词向量能够更好的保存文本序列的上下文信息,更好的学习语义特征之间的关系,在同等数据集上本文提出的模型消歧准确率达到86.10%,消歧准确率高于基于上下文翻译的有监督词义消歧模型、基于目标词释义结合例句信息为特征的BiLSTM模型和基于词性、词形结合语义为特征的DBN模型。
其他文献
近年来,在科技兴邦的口号越来越响,我国科技发展突飞猛进,行业龙头独大甚至垄断的时代背景下,中小型高新技术企业要想站稳脚跟的当务之急是:准确衡量自己的经营业绩,发现自身管理与经营方面的不足,然后更好的制定和执行未来发展战略。所以,怎么样科学地进行业绩评价就变得非常重要。目前大多数企业一般从传统的财务指标角度来衡量企业业绩,而对于像Z公司这类密集性的资金技术的行业来说,这些信息往往片面化、短视化,不能
各类搜索软件拓展了互动业务,推出以问题为纽带的问答社区,随着问答社区的发展壮大,社区中的内容逐渐饱和,参与者的热情渐渐流失。大多数的社区用户只是沉默式的进行浏览,偶
在计算机视觉领域中,人体图像的理解具有巨大的研究价值和极其广泛的应用前景。其中最基础也是最重要的任务就是人体姿态估计,准确的人体姿态估计在动作识别、智能监控、人机交互等领域都具有巨大的应用价值,而三维人体姿态估计则提供了更多维度的人体信息,减少了姿态的歧义性,能够更好的适用于更多的应用。人体图像生成也是近年来新兴的对于人体图像的研究方向,人体图像生成以人体姿态估计为基础,生成多样性的新图像可用于扩
随着船舶信息系统需求日益增加、建设规模不断扩大,信息系统之间往往各自为营,各种应用程序中的数据难以交换和共享,数据孤岛现象日趋明显。为解决这一矛盾,本文提出一种船舶
复合材料是一种通过人工手段将一些不同性质的材料来进行组合和优化的一种新型加工材料,复合材料在生产过程中可能会出现孔洞缺陷,因此对存在这种缺陷的复合材料元件进行自动化的检测任务是非常有必要的。本文通过CT计算机断层扫描的方法来对复合材料成型件进行扫描和拍摄,并且结合深度学习的技术对于存在缺陷的区域进行检测识别。为了满足对于复合材料缺陷检测稳定性、便捷性、准确性以及经济性的要求,本文通过对几种主流深度
随着陆上油田采油技术的升级迭代,现阶段采用的三元复合驱驱替剂由大量碱、表面活性剂、聚合物组成,对地层原油的驱油效果明显。然而,原油分离过程产生的采出水被严重乳化,而且还包含大量残留化学物质,这种采出水在回注过程中会造成注水井套管腐蚀、地层岩隙堵塞等危害。不但影响后续开采,还容易造成环境污染。因此,在采出水回注地下前,必须对其进一步破乳脱水,从而尽量减小其对设备和土壤的腐蚀。太阳能是一种洁净、可靠的
高技术产业属于资本、技术以及人才密集型的产业,高技术在我国的经济建设中占据的位置越来越重要,从全国范围来看,在“十三五”规划中,各地纷纷把发展高技术产业作为重要的战略方针。高技术产业的发展对我国宏观经济的发展和产业结构的升级优化均起着不可替代的作用。促进高技术产业进一步地高效健康发展,有利于我国创新型国家的建设,也能进一步带动新常态下我国经济的健康发展。本文所研究的高技术产业集聚效率地区差异以及影
近年来,全球气候变暖的加剧与雾霾、沙尘等恶劣气候的频发,使得碳排放的有效控制逐渐成为各国政府与专家学者关注的焦点。碳税、碳限额、碳交易与碳标签等一系列措施的推广实
当前,我国农业面临国际市场对农产品无污染、高品质、高标准的要求,农业需求结构、市场竞争环境及运行环境都发生了根本性的变化。在2017年9月30日,中共中央办公厅、国务院办公厅印发了《关于创新体制机制推进农业绿色发展的意见》,认为推进农业绿色发展是守住绿水青山、建设美丽中国的时代担当,对保障国家食物安全、资源安全和生态安全,维系当代人福祉和保障子孙后代永续发展具有重大意义。习近平总书记曾多次强调,绿
在我国得到广泛应用的是以兼并和收购为主的扩张型资产重组模式,随着多元化企业的不断发展,这种资产重组模式带来的资源分配不均以及新兴业务发展受到阻碍等负面效果凸显,分拆上市作为缓解这种负面影响的有效途径,通过将企业的其他业务分离进入资本市场为企业带来价值创造,而受到市场的追捧。近些年,分拆上市虽然在国内得到了一定程度的发展,但同欧美等发达国家相比仍存在较大的差异,解决扩张型资产重组带来的压力是刻不容缓