基于对抗学习的跨领域关键词提取方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:leovvex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今数据爆炸的时代,数据、信息与知识等概念已经关系到每个人与各个行业。但是现有经验告诉我们,任何形式的原始数据只能传达出很少的信息,除非使用一些智能的方法处理数据。对于最常见的文本数据而言,知道文本中最重要的关键词/短语可以提供浓缩的概念表示从而简化文档处理。文章的关键词对文章内容提供了高层次的描述,它总结了关键的主题,概念,想法或者文章的推断。这些描述性的关键短语使得其他相关算法可以快速有效地提取相关内容。因此关键词在很多文档处理领域扮演重要角色比如文档索引、分类、聚类还有摘要任务。然而,大多数文档缺乏作者提供的关键词并且人为地给大量文本标注关键词并不可行,这是因为手动地为大规模文档决定重要短语的集合是繁杂的,代价巨大的而且需要额外的专家知识。幸运的是,自然语言处理技术可以帮助从文档中自动提取关键词。目前,大多数关键词提取的方法主要依赖于手工选择的特征,比如关键词出现的频率和相对位置。这导致了相关方法依赖特定领域数据,在面对其他领域不同长度、不同语义模式和不同规则的文档时,它们通常需要做出针对性的修改,这也使得自动关键词提取方法的发展变得耗费时间和人力。在这些方法中,有监督的关键词提取方法表现较好,相关研究大都使用大量的有标签数据来训练,从而得到一个鲁棒的模型。然而,很多领域并没有足够的有标签数据,也无法承受人为标注的代价。其次,已有的方法大多局限在单领域关键词提取,并没有充分利用相关领域的关键词知识从而辅助只有有限样本的目标领域关键词提取。因此,针对以上研究问题,本文研究了跨领域关键词提取问题,主要研究内容和贡献有:1.我们研究了跨领域关键词提取问题。它可以有效地利用源领域丰富的有标签数据以及源领域和目标领域的无标签数据来提升有限数据的目标领域的关键词提取效果。2.我们提出了一个新颖的基于主题的对抗神经网络模型。它通过对抗训练来学习跨领域的可迁移的知识来辅助目标领域的关键词提取。3.我们设计了一个主题注意力层来将主题信息引入文档表示中。另外为了保留目标文档的私有信息我们从正反向重建目标文档序列。
其他文献
公安院校加强中华优秀传统文化教育是夯实中国文化自信力的本质要求,是落实立德树人根本任务的内在要求,是培育和践行警察核心价值观的必然要求。当前公安院校中华优秀传统文
拖拉机挂接农具在坡地作业时,由于坡道阻力的作用,拖拉机容易侧翻,而且方向不好控制。因此,机手在进行坡地作业时,应了解坡地作业特点。
西南山区受“5.12”汶川地震影响产生了大量松散堆积体。其在降雨、地下水位抬升等情况下常常孔压激增产生突发溃散性破坏继而流态化运动,最终形成平缓堆积体。其破坏突然、受灾范围广、运移距离远,一旦发生将会带来巨大生命财产损失,因此研究破坏前的孔压激增对理清溃散性滑坡启动机理有重要意义。目前已有学者通过微震信号与孔压、位移之间的同步分析发现孔压激增来源于坡体内部细颗粒运移侵蚀造成的孔隙通道渐进垮塌,但细
儿童的心理行为问题是儿童发展过程中的一种常见现象,在一定程度上可以预测青少年期甚至成人期的心理问题。为了解学龄前期及学龄期双生子心理行为问题的遗传与环境相对效应和多巴胺受体基因单核苷酸多态性、单倍型及基因与环境交互作用对心理行为问题的影响,本研究在内蒙古呼和浩特市和包头市募集4-12岁双生子儿童261对,采用Achenbach儿童行为量表测评其心理行为问题;使用口腔拭子对双生子口腔上皮细胞进行采集