论文部分内容阅读
随着深度学习技术的发展成熟,尽管以LDA(Latent Dirichlet Allocation,LDA)为代表的文本主题模型在文本挖掘领域中有着广泛的应用,但其使用词袋模型表示文本,词语之间的语义关系和语法顺序关系无法被表示,导致生成主题的可解释性差。嵌入式主题模型(Embedding Topic Model,ETM)虽然能够使用静态词向量体现词与词之间的关系,但其将不同语境下的多义词表示为同一向量,无法解决语义聚义问题;另外,ETM使用变分自编码器(Variational Auto-encoder,VAE)进行变分推断,通过近似模型中隐变量的后验分布来生成主题分布表示,但VAE在变分推断过程中存在忽视隐变量的问题,使得隐变量和输入之间没有较强相关性,导致模型学习出的文档主题分布表示不够全面。针对以上问题,本文提出了一种基于BERT的嵌入式文本主题模型,对现有主题模型的具体改进如下:1.针对传统主题模型生成主题可解释性差的问题,提出利用嵌入式主题模型进行主题挖掘,在LDA模型使用词袋表示的基础上附加词向量表示,解决其因词袋表示信息量较少而忽略文本其他特征的问题,补充了词在上下文中的语义关系,并能拟合出更具可解释性的主题。ETM在20Newsgroups英文数据集上的主题一致性为0.183,主题多样性为0.780;在微博中文数据集上主题一致性为0.125,主题多样性为0.824。2.针对嵌入式主题模型无法解决语义聚义的问题,提出基于BERT的嵌入式主题模型,既能获取到充分结合上下文特征的词嵌入,解决语义聚义问题,又能挖掘出高质量、细粒度的文档主题词表示。实验表明,BERT动态词向量能够有效表示多义词的含义,BERT-ETM在20Newsgroups英文数据集上的主题一致性为0.198,主题多样性为0.910;在微博中文数据集上的主题一致性为0.137,主题多样性为0.837,同ETM相比性能得到了提升;并且基于中文分词的Wo BERT-ETM在微博中文数据集上的主题一致性为0.172,主题多样性为0.908,同BERT-ETM相比主题一致性和主题多样性分别提高了0.035和0.071,表明结合中文分词的BERT模型在处理中文语料时能够得到更细粒度的主题词表示。3.针对变分自编码器忽视隐变量的问题,改进ETM的网络结构,使用信息最大化变分自编码器(Information Maximizing Variational Autoencoder,Info VAE)来改进主题模型,使隐变量在变分推断的训练过程中可以被充分利用,从而能够得到更全面的主题词表示。基于Info VAE的BERT-ETM在20Newsgroups英文数据集上的主题一致性为0.245,主题多样性为0.932,同BERT-ETM相比,主题一致性和主题多样性分别提高了0.047和0.022。4.本研究构建了一个专业领域教材《软件工程》数据集,并在此数据集上将本研究的实验模型同其他模型进行对比,实验结果同样表明本研究的模型在主题一致性和主题多样性上的性能均得到了提升;同时将《软件工程》专业教材作为主题分析研究的对象,希望发现学科重点难点,有助于教师和学生理解课程内容。