【摘 要】
:
随着互联网的普及,来自新闻、博客、社交网络等媒体的文档爆炸增长,从中发现特定信息的需求因而日益强烈。对于大规模文本,主题模型可以自动地发现其中的关键主题,从而成为一种有效的组织、探索和理解信息的方式。近年来,神经网络的发展为主题建模提供了灵活的学习框架。因此,基于神经网络的主题模型(又称神经主题模型)引起了广泛的关注。然而,现有的神经主题模型依然面临许多挑战,如无法在主题推断过程中利用文档间关系、
论文部分内容阅读
随着互联网的普及,来自新闻、博客、社交网络等媒体的文档爆炸增长,从中发现特定信息的需求因而日益强烈。对于大规模文本,主题模型可以自动地发现其中的关键主题,从而成为一种有效的组织、探索和理解信息的方式。近年来,神经网络的发展为主题建模提供了灵活的学习框架。因此,基于神经网络的主题模型(又称神经主题模型)引起了广泛的关注。然而,现有的神经主题模型依然面临许多挑战,如无法在主题推断过程中利用文档间关系、不能有效利用大规模语料库蕴含的知识等。因此,围绕上述挑战,本文的主要工作包括:1.针对基于对抗训练的神经主题模型不能直接推断文档主题分布的不足,本文提出了基于循环一致对抗训练的神经主题模型ToMCAT。除了使用一个生成器捕捉主题相关的词语分布模式,ToMCAT还引入一个编码器实现对文档主题的推断。为了训练生成器和编码器,一方面将它们与各自的判别器对抗训练以生成逼真的样本;另一方面对它们施加了循环一致约束以建立两者间的联系,使两者学到一致的表示空间。此外,针对训练数据有标签的情况,本文提出了扩展版的ToMCAT,sToMACT。相对于ToMCAT,sToMCAT额外引入一个分类器。分类器和原有的模型组件共同训练,从而利用文档标签引导和正则化主题模型的训练。主题建模和文本分类实验的结果验证了ToMCAT和sToMCAT的有效性。2.针对现有的神经主题模型无法有效利用文档间关系的不足,本文提出了基于文档关系图的神经主题模型GTM。GTM的主题建模过程没有局限于单文档的词袋表示,而是通过建立语料库级别的文档关系图利用了更全局的信息。该文档关系图包含文档结点和词语结点,结点间的连通由文档和词语的共现关系确定。通过连通不同类型的结点,该图提供了在结点间传播信息的能力。GTM基于Wasserstein自编码器构建模型。在推断某个文档的主题时,为了有效利用构建出的文档关系图,GTM使用一个多层图卷积编码器从图中该文档对应结点的邻域文档和词语结点中聚合相关上下文。在三个数据集上的实验结果表明,GTM的主题建模性能优于当前几个比较先进的神经主题模型。3.针对现有的神经主题模型未充分且高效地利用外部大规模语料库蕴含知识的不足,本文提出了一种基于预训练和微调的神经主题模型训练策略。首先在外部大规模语料库上训练主题模型,这称为预训练;之后,在其他数据集上对主题模型进行微调。由于预训练和微调使用相同的模型架构,因此微调阶段不会像使用预训练语言模型一样引入额外的计算。本文在三个数据集上进行了实验。结果表明,所提出的方法不仅明显优于一些最新的神经主题模型,而且也优于使用预训练语言模型的主题建模方法。
其他文献
磁共振成像(MRI,Magnetic Resonance Imaging)是一种利用射频脉冲对磁场中的氢原子核进行激励,再利用感应线圈采集信号进行图像重建的方法。由于磁共振成像辐射小、对软组织有很好的分辨力,已经被广泛用于临床检查和疾病的诊断。对MRI图像进行准确的自动分割对临床诊断以及科学研究都有重要意义。近年来,深度学习技术在图像处理领域取得了非凡的成果,在医学图像的处理和分析中也得到了广泛的
计算机断层扫描(CT)是临床上最常用的肝脏肿瘤评估影像。由于CT检查实施快捷、无创伤性的特点,在临床诊断与复查中被广泛使用。医生手工对CT图像进行分析整理费时费力,因此在计算机辅助诊断领域对CT图像的自动分割研究是当前的研究热点。肝脏肿瘤由于在CT图像中像素值变化较大并且边缘模糊,自动分割的难度较大。随着深度学习的快速发展,基于全卷积网络框架的分割网络能够为医生提供像素级分类信息,精确定位各种器官
网络表示学习,又称网络嵌入,旨在将网络中的节点表示成低维稠密的实值向量。网络表示学习提供了一种高效的网络表示形式,学习到的表示向量可以灵活方便地运用到诸如节点分类、链接预测、社区发现等各种网络分析任务中。在现实生活中,网络中的节点往往还伴随着描述性的属性,这类网络称为属性网络。近些年基于深度学习的属性网络表示学习也逐渐引起了研究者们的关注。然而,社区结构信息和任务相关信息并没有被有效利用是大多数现
群智化软件的评审可以保证软件开发的进度与质量,因此实现群智化软件高效率高质量评审是一项重要的工作。目前大多数的群智化平台以手动方式分配评审者,这种方式不仅耗费大量时间,而且受限于个人的认知界限,评审者的选择范围变得很小,更重要的是某些评审者可能会被分配过多的评审任务,导致评审不及时、评审质量差等问题,进而影响软件开发质量与进度。为了解决上述问题,提出了一种软件评审者的混合推荐方法:首先基于评审者兴
在火电厂燃煤发电中,会产生氮氧化物等有害物质,这些污染物如得不到有效控制,将会对环境造成巨大威胁。所以本文以火电厂脱硝控制为研究对象,运用选择性催化还原技术(SCR)进行烟气脱硝处理。在SCR脱硝技术中喷氨量的控制最为关键,其控制效果的好坏直接影响着脱硝效率及生产成本。但由于现场干扰因素众多,采用传统的控制方式往往很难达到理想的喷氨效果。因此,面对越来越严格的环保政策,如何对NOx的排放采取更有效
随着我国平安城市、雪亮工程、社会综合治理体系的深入发展,目前各个城市都建设了大量的摄像头,这些摄像头所产生的海量监控视频存在着数据冗余、组织混乱等问题,而视频结构化技术可以对海量视频进行结构化组织和管理,可有效支撑当前智能监控信息化建设的需求。在视频结构化技术中,行人重识别和行人属性识别是两个重要的研究方向。当视频能够捕获到目标图像时,需要采用行人重识别通过图像特征对目标进行识别;当视频无法捕获到