基于BERT的嵌入式主题模型构建与主题分析研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:artec1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的发展成熟,尽管以LDA(Latent Dirichlet Allocation,LDA)为代表的文本主题模型在文本挖掘领域中有着广泛的应用,但其使用词袋模型表示文本,词语之间的语义关系和语法顺序关系无法被表示,导致生成主题的可解释性差。嵌入式主题模型(Embedding Topic Model,ETM)虽然能够使用静态词向量体现词与词之间的关系,但其将不同语境下的多义词表示为同一向量,无法解决语义聚义问题;另外,ETM使用变分自编码器(Variational Auto-encoder,VAE)进行变分推断,通过近似模型中隐变量的后验分布来生成主题分布表示,但VAE在变分推断过程中存在忽视隐变量的问题,使得隐变量和输入之间没有较强相关性,导致模型学习出的文档主题分布表示不够全面。针对以上问题,本文提出了一种基于BERT的嵌入式文本主题模型,对现有主题模型的具体改进如下:1.针对传统主题模型生成主题可解释性差的问题,提出利用嵌入式主题模型进行主题挖掘,在LDA模型使用词袋表示的基础上附加词向量表示,解决其因词袋表示信息量较少而忽略文本其他特征的问题,补充了词在上下文中的语义关系,并能拟合出更具可解释性的主题。ETM在20Newsgroups英文数据集上的主题一致性为0.183,主题多样性为0.780;在微博中文数据集上主题一致性为0.125,主题多样性为0.824。2.针对嵌入式主题模型无法解决语义聚义的问题,提出基于BERT的嵌入式主题模型,既能获取到充分结合上下文特征的词嵌入,解决语义聚义问题,又能挖掘出高质量、细粒度的文档主题词表示。实验表明,BERT动态词向量能够有效表示多义词的含义,BERT-ETM在20Newsgroups英文数据集上的主题一致性为0.198,主题多样性为0.910;在微博中文数据集上的主题一致性为0.137,主题多样性为0.837,同ETM相比性能得到了提升;并且基于中文分词的Wo BERT-ETM在微博中文数据集上的主题一致性为0.172,主题多样性为0.908,同BERT-ETM相比主题一致性和主题多样性分别提高了0.035和0.071,表明结合中文分词的BERT模型在处理中文语料时能够得到更细粒度的主题词表示。3.针对变分自编码器忽视隐变量的问题,改进ETM的网络结构,使用信息最大化变分自编码器(Information Maximizing Variational Autoencoder,Info VAE)来改进主题模型,使隐变量在变分推断的训练过程中可以被充分利用,从而能够得到更全面的主题词表示。基于Info VAE的BERT-ETM在20Newsgroups英文数据集上的主题一致性为0.245,主题多样性为0.932,同BERT-ETM相比,主题一致性和主题多样性分别提高了0.047和0.022。4.本研究构建了一个专业领域教材《软件工程》数据集,并在此数据集上将本研究的实验模型同其他模型进行对比,实验结果同样表明本研究的模型在主题一致性和主题多样性上的性能均得到了提升;同时将《软件工程》专业教材作为主题分析研究的对象,希望发现学科重点难点,有助于教师和学生理解课程内容。
其他文献
教师通过多种形式和途径挖掘各种有益的思政资源,并采用多样的授课方式和灵活的评价方式,让学生在实践中体悟思政教育,从而让思政的“盐”更好地“溶”于课堂,使英语教学更有味、更有活力,更好地落实立德树人根本任务。
国际海底区域即将进入商业开采阶段,技术转让议题因其牵扯利益众多,始终争论不休。现存的技术转让活动既要符合人类共同继承财产原则,又要符合商业性技术转让规则,其内在冲突使国际海底区域技术转让难以推进,导致理论与实践的双重困境。借鉴其他国际条约成功的技术转让立法实践经验,国际海底管理局可以从强化当事国承诺的效力、构建技术转让与能力建设基金以及促进国际合作等方面,突破技术转让的困境,实现全人类共享国际海底
平等不仅是正义理论研究中最为重要的政治思想主题,而且也是最富争议的话题之一。从一般意义上来说,平等指向一种无差别的状态或结果。在既定的现实背景下,人与人之间可谓天差地别,不同的生理机能、出生环境、身份背景和机运等,造就了不同的生存处境、性格、思想和生活方式等。从政治哲学角度看,不应该把这些差别视为理所当然的事物,而是要对其保持道德敏感性,回答什么样的不平等现象应该加以纠正,什么程度的差别可以被接受
<正>目的 :探讨分析高血压患者应用饮食护理所取得的效果。方法 :选择2020年6月-2021年6月在本院接受治疗的高血压患者作为研究对象,纳选对象共计94例,选择应用随机数字表法将研究对象划分为两组,分别设定为对照组和观察组,对照组选择应用常规护理,观察组基于常规护理应用饮食护理,对比分析两组患者血压水平、机体营养状态。结果 :护理前,对照组、观察组血压指标对比无统计学差异P>0.05;
期刊
期刊
数学是一门与现实生活密切相关的学科,学生从进入学校就一直学习,其内容逻辑性,在考试中的比重也相当大。因此,数学教育通常要求教师经常使用系统、严格、有效的教学模式进行教学。而由于突然间从幼儿园进入小学,学生会对教师教育方式差异产生落差感。因此,论文简要分析了小学与幼儿园之间的数学教学模式的差别,从幼小衔接的视角提出小学数学教学模式优化的策略,希望对幼小过渡阶段的数学教师提供有益的参考。
<正>1提问生物学教学的育人价值应该如何体现?2 讨论胡莹[江苏省苏州市相城实验中学(215131)]生物科学是自然科学中的基础学科,也是许多应用学科的基础,其特殊的学科性质决定了在生物学教学中有许多德育闪光点可以挖掘。生物学科的育人价值应该渗透到每一堂课中以及丰富多样的课外活动中。
期刊
选取2008年3月—2020年6月月度数据,运用TVP-SVAR-SV模型和MS-VAR模型研究货币政策立场与大宗商品价格的非线性关系。结果显示:货币政策立场对大宗商品价格具有显著的时变影响,短期效应明显大于长期效应;当金融化程度高时,货币政策立场对大宗商品价格的影响更强、持续时间更久;相比于预期到的货币政策,未预期到的货币政策冲击对大宗商品价格的影响更显著,表明货币政策立场的重要性。