论文部分内容阅读
在如今数据爆炸的时代,数据、信息与知识等概念已经关系到每个人与各个行业。但是现有经验告诉我们,任何形式的原始数据只能传达出很少的信息,除非使用一些智能的方法处理数据。对于最常见的文本数据而言,知道文本中最重要的关键词/短语可以提供浓缩的概念表示从而简化文档处理。文章的关键词对文章内容提供了高层次的描述,它总结了关键的主题,概念,想法或者文章的推断。这些描述性的关键短语使得其他相关算法可以快速有效地提取相关内容。因此关键词在很多文档处理领域扮演重要角色比如文档索引、分类、聚类还有摘要任务。然而,大多数文档缺乏作者提供的关键词并且人为地给大量文本标注关键词并不可行,这是因为手动地为大规模文档决定重要短语的集合是繁杂的,代价巨大的而且需要额外的专家知识。幸运的是,自然语言处理技术可以帮助从文档中自动提取关键词。目前,大多数关键词提取的方法主要依赖于手工选择的特征,比如关键词出现的频率和相对位置。这导致了相关方法依赖特定领域数据,在面对其他领域不同长度、不同语义模式和不同规则的文档时,它们通常需要做出针对性的修改,这也使得自动关键词提取方法的发展变得耗费时间和人力。在这些方法中,有监督的关键词提取方法表现较好,相关研究大都使用大量的有标签数据来训练,从而得到一个鲁棒的模型。然而,很多领域并没有足够的有标签数据,也无法承受人为标注的代价。其次,已有的方法大多局限在单领域关键词提取,并没有充分利用相关领域的关键词知识从而辅助只有有限样本的目标领域关键词提取。因此,针对以上研究问题,本文研究了跨领域关键词提取问题,主要研究内容和贡献有:1.我们研究了跨领域关键词提取问题。它可以有效地利用源领域丰富的有标签数据以及源领域和目标领域的无标签数据来提升有限数据的目标领域的关键词提取效果。2.我们提出了一个新颖的基于主题的对抗神经网络模型。它通过对抗训练来学习跨领域的可迁移的知识来辅助目标领域的关键词提取。3.我们设计了一个主题注意力层来将主题信息引入文档表示中。另外为了保留目标文档的私有信息我们从正反向重建目标文档序列。