关键词提取与生成的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:soundbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词特指的是某些媒体应用在制作或者使用索引时所用到的一组词汇。随着互联网的高速发展,网络上的信息开始不断的增加,网络的使用也开始兴起,有效地搜索和管理信息变得越来越重要。关键词作为文档的简要概述,提供了一种能够帮助组织和检索文档的解决方案,可以有效地用于理解,组织和检索文本内容,这些文档已经广泛用于数字图书馆和信息检索。本课题主要用深度学习来研究关键词提取与生成问题。一方面,关键词提取与生成时会存在关键词缺失与冗余的情况,关键词缺失即模型无法生成词汇表之外的单词,关键词冗余即生成的多个关键词中会有某几个关键词关注概括到文本中的相同层面。另一方面,以往关键词提取与生成的深度学习模型中,使用的注意力机制考虑的都是目标关键词与源文本经过编码器之后的隐藏层表示之间的关系,而没有考虑到目标侧与源文本中每个独立单词之间的关联关系,这也是本课题需要解决的一个重要问题。根据上述问题,本课题提出了多种深度学习模型用于关键词的提取与生成。首先,本课题提出了一种序列到序列(编码器-解码器)模型来生成关键词。该模型结合了注意力机制计算目标侧与隐藏层之间的权重关系。此外,针对上面提到的关键词缺失与关键词冗余的问题,模型还分别结合了复制机制与覆盖机制。并且本课题提出了一种新型的字注意力机制,该字注意力机制解决了传统注意力机制关注的只是隐藏层表示(子序列级别信息)的问题。通过对原始文本进行关注,计算原始文本表示中单个独立单词与目标关键词之间的关系,得出新的注意力向量与单词级别信息。模型在多个真实的数据集上进行了实验,证实了模型的有效性与可靠性。其次,本课题使用多种方式结合单词级别信息与子序列级别信息。采用了两种不同的方式来将传统注意力机制与本课题提出的字注意力机制进行结合,从而更高效的提取与生成目标关键词。模型同样在多个真实的数据集上进行了实验,并且实验结果表明本课题的模型较目前最好基线模型都有相对的提升。最后,本课题提出的模型被使用于实验室开发的北京邮电大学自适应个性化教育平台中。该平台目前已经包含许多功能,例如专项学习与个性化推荐、试卷测试、全资源检索、评论与回复等,并且该平台已经向学校学生开放试用了一段时间。本课题将模型与系统中的题目与评论等基础数据信息进行结合,提取出各个信息的关键词,方便用户更直观的检索与查询所需信息,有效证明了本课题研究的算法模型的实际应用价值。本课题提出的模型在多个公开数据集上进行了验证,结果表明模型的性能达到了目前最好,并且撰写的两篇论文也分别在国际会议中发表与收录。
其他文献
目的:探讨肺超声评分在新生儿呼吸窘迫综合征(NRDS)机械通气治疗中的应用价值,为临床治疗提供依据。方法:(1)肺超声评分在NRDS患儿机械通气治疗中的预测价值研究。选择2018年4月1日至2019年5月30日入住广东省第二人民医院新生儿科诊断为NRDS患儿580例作为研究对象,在首次胸片2小时内完成肺超声及血气分析检查,并根据病情的严重程度采取不同的辅助通气模式。采用spearman相关性分析肺
学位
A380铝合金具有导热性好、便于机械加工、成形性好等特点。该合金含一定量的Fe元素,这些Fe元素会在合金中形成长针状富铁相,从而产生应力集中,会降低合金的力学性能。为了降
学位
金属有机骨架(MOF)材料是一类颇有前景的多孔材料,其性能易于调控、结构变化丰富,在流体的收集和筛选,电子感应,光学和非均相催化等行业都具有发展的空间,特别是在光催化领域展现出了较好的前景。然而,MOF材料存在着光生电子-空穴对的容易复合及水稳定性不佳等缺陷,因此其光催化性能目前仍有待提升。一方面,目前已有通过搭载高活性的贵金属纳米颗粒来提升其性能的报道;另一方面,受到半导体光催化剂的启发,基于M
随着世界经济的迅速发展,各国对能源的需求也是越来越大。但近年来全球环境恶化污染加重,能源短缺,面对这些问题,人们已经认识到开发新能源的重要性。因此开发绿色、高效、低
在钢管混凝土工程中,采用外方内圆中空夹层的结构组合形式可以充分发挥外钢管对夹层混凝土的约束和内钢管对夹层混凝土的支撑作用,同时因去除了部分混凝土使重量大大减轻,而表现出优于传统钢管混凝土结构的力学性能。为了保证方中空夹层钢管混凝土结构在大跨度和超高层等受力复杂的建筑中的应用,提高结构的各项力学性能,发掘承载力潜能,需要开展方中空夹层钢管混凝土轴压力学性能研究工作。本文在充分研究国内、外相关文献的基
DNA不仅是生物体的遗传物质,还是一种新型生物功能高分子材料的重要合成元件。近年来,DNA水凝胶在生物医药、材料电子等多个领域展示出广泛的应用前景。相比于纯DNA水凝胶,DNA杂化水凝胶可有效降低合成成本,且可通过不同组分的结构融合实现材料的功能增强,因此受到广泛关注。本文围绕DNA/葡聚糖衍生物杂化水凝胶的合成、性能及生物应用进行一系列研究,主要研究工作归纳如下:第一章,我们概述了DNA材料的发
γ-聚谷氨酸Poly(y-glutamic acid),,y-PGA]作为微生物发酵代谢的天然食品添加剂,已广泛应用于谷物制品领域,多方面改善面制品品质。目前,大多数研究倾向于探索γ-PGA在面制品中的功能性,但相关机制研究较少,这样就无法为γ-PGA更好地应用于食品行业提供理论依据和技术指导。本文按γ-PGA与面粉的不同比例混合,制成面团,分别从面团流变学特性、面团组分变化及馒头和饼干的品质这三
当前,中国制造业是转型升级的关键时期,实现冲压生产自动化的需求十分紧迫,冲压生产升级改造的同时,要充分利用企业已有的冲压设备,最大程度避免企业购买新的冲压设备,以降低企业进行升级改造中的风险和成本。本文依据企业的生产工艺、生产方式和开式压力机的结构及控制特点,提出了开式压力机连线式自动上下料系统的实现方案,了解了设计要求,设计了连线式自动上下料系统的工艺流程和控制顺序,整个系统采用了模块化设计,分
NH_3选择性催化还原技术(NH_3-SCR)是柴油机尾气脱硝领域最有应用前景的技术之一,高效的催化剂是该系统的核心和关键。Cu-SSZ-13催化剂由于其宽的工作温度窗口,高的N_2选择性和稳定性而被广泛研究。然而由于柴油车实际应用工况复杂,冷启动阶段NO_x排放量大,尾气中C_3H_6含量较多,应用的催化剂必须具优良低温活性,高的抗水热老化能力、抗C_3H_6中毒能力等性能。而现有Cu-SSZ-