基于词向量信息的短文本主题模型研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:dabingjiajia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于单词共现模式,传统主题模型能够从长文本数据中提取高质量的主题信息。对于短文本数据,文档的长度较短,单词之间的共现性信息较少,导致传统主题模型并不能很好地工作,无法从短文本数据中提取高质量的主题。从大规模文本数据中训练得到的词向量蕴含着丰富的语义信息,所以词向量可以作为一种外部信息来指导主题建模的过程,弥补短文本数据中单词共现性不足的缺陷。然而,词向量一般是从大型外部文本数据中训练得到的,其中包含的语义信息可能并不适用于主题模型的训练数据,现有的模型往往忽视了这一点。基于GPU-DMM模型的思想,本文提出了ECTM模型。该模型利用词向量得到单词之间的语义相似度信息,并使用训练数据中单词之间的PMI信息对单词间的语义相似度信息进行过滤。在模型参数求解的过程中,单词间的语义相似度信息可以进一步被采样器利用,提高主题语义一致性。但是ECTM模型中需要调整的参数较多,限制了其易用性,而且该模型假设每篇短文档包含一个主题,该假设在某些情况下是比较受限的。基于ECTM模型,本文进一步提出了IECTM模型,该模型减少了ECTM模型中需要调整的参数数目,并对ECTM模型的假设进行了松弛。在IECTM模型中,一篇短文档可以包含不止一个主题。由于短文档长度的限制,每篇短文档可能不会包含所有主题,主题的个数由文档的内容决定。为实现该效果,IECTM模型引入了spike and slab稀疏先验。本文在真实短文本数据集上进行了一系列实验来验证本文提出的ECTM模型以及IECTM模型的有效性,实验结果表明ECTM模型以及IECTM模型能够在大多数情况下从短文本数据中提取到高质量的主题信息,具有较高的可用性。
其他文献
远缘杂交可以有效增加后代的遗传变异,通过该方法还能获得不同倍性的后代,包含同源四倍体和异源四倍体。我们通过远缘杂交的方式,利用红鲫(♀)与团头鲂(♂)进行亚科间杂交建立了
随着无线通信技术的日益发展,引入带内全双工(IBFD)通信模式以实现频谱效率倍增成为一个当前研究热点。IBFD能够实现同时同频传输信号,这得益于自干扰抵消技术。论文面向Ad H
工业控制系统主要用于工业生产过程中的各种监督和控制,被广泛应用于能源、电力、化工、污水处理等大型国家基础设施行业。近年来,由于远程管理控制的需求不断扩大,之前相对
随着机器人领域的迅速发展,许多计算机视觉系统也得到了发展。立体视觉作为一种计算机视觉技术,它能够实现通过使用两个对齐的相机从场景中提取深度信息。而深度图像可以通过
许多信息处理系统需要高分辨率的图像来进行有效的操作。而图形的分辨率受系统物理参数的要求,这在许多与图像采集相关的应用上都是需要解决的问题。因此,提出对图像序列的处
软件测试对于检测软件开发和维护过程中的软件故障至关重要。软件测试的有效性主要由测试用例集的质量决定,高质量的测试用例集可以有效发现被测软件(SUT)的故障。另一方面在
随着我国各行各业近年来的蓬勃发展,各种工业控制系统在生产过程中得到了广泛的应用,但由于各企业建设时期的不同及采用标准规范的不统一,致使不同形式的各种工业控制系统之
随着人类社会的迅速发展,信道传输环境越来越复杂,信号传输过程中由于时间选择性衰落和频率选择性衰落的影响导致信号失真,通信系统的传输性能受到较大影响。因此需要分析信
近些年来,随着计算机视觉的发展,运动目标检测与跟踪技术在军事、交通、环境监控等领域得到了广泛的应用。基于摄像机固定条件下的运动目标检测与跟踪技术已经逐渐成熟。然而
由于科技的高速发展,生物数据正处于爆炸式增长的时代。从复杂、高维的生物数据中挖掘出有价值的信息对于研究问题的本质具有重要意义。特征选择是处理高维生物数据的一种有