基于上下文的主题模型

来源 :苏州大学 | 被引量 : 2次 | 上传用户:fano
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主题模型是分析大规模文档集合最有效的工具,它能够有效的从大量的非结构化文本数据中提取出有用的语义信息。自从潜在狄利克雷分配(LDA)主题模型被提出来之后,就吸引了很多学者对它的研究,并提出来了很多不同的求解方法。这些模型通过不断改进已经应用在很多领域,并且有很好的实践效果。LDA是一个无监督模型,能够自动提取出文本中的语义信息,挖掘背后的语义关联。同时它也是一个基于“Bag-of-Word”假设的模型,这种方法假设文档是单词词频的组合,不考虑文档中单词之间的顺序关系,造成了单词之间的语义混淆,例如同一文档中前后相同的单词由于其上下文信息不同,可能具有不同的含义。这种方法虽然简化了模型的复杂度,但是造成了模型的预测能力较低,为模型的改进提供了契机。本文针对原有主题模型基于“Bag-of-Word”的假设造成预测能力较低等问题,提出了两种新的主题模型,这两种模型都不再单单是把文档看作词频的向量组合,而是把文档中单词之间的顺序关系也考虑了进去。(1)基于滑动窗口的主题模型(SWTM):这种模型根据窗口和滑动位移,把文档切割为粒度更小的片段,并对每个窗口内的所有单词计算主题概率分布。其基本思想是文档中一个单词的主题与其附近若干单词的主题关系更为紧密,受附近单词主题的影响最大。文档中的每个单词由于所在的窗口不同,因此也就具有不同的上下文信息。实验结果表明,基于滑动窗口的主题模型在混淆度(Perplexity)上平均减少了25%~54%,并且收敛速度也有提高。(2)基于中心词的上下文主题模型(CCTM):基于滑动窗口的主题模型并没有完全排除“词袋”的假设,因此提出了基于中心词的上下文主题模型。这种模型在计算每个单词的主题概率分布时,以这个词为中心,前后扩展若干个词作为其上下文信息,通过其上下文信息来计算主题概率分布。文档中相同的单词由于其上下文信息不同,所以其主题概率分布也不同。实验结果表明,基于中心词的上下文主题模型在混淆度(Perplexity)上相对于SWTM平均减少了9%。(3)上述两种模型都是针对离线数据的,特点是一次性把所有的数据都加载到内存中计算,当数据量大的时候,就会造成内存资源不足、训练时间长等情况。针对数据流,在基于滑动窗口主题模型和基于中心词的上下文主题模型的基础上提出了在线滑动窗口主题模型(OSWTM)和在线中心词上下文主题模型(OCCTM)。在四个数据集上的实验结果表明,OSWTM和OCCTM在混淆度(Perplexity)上相对其它在线主题模型平均减少24%~55%和37%~63%。
其他文献
随着无线通信技术的迅猛发展,未来层出不穷的无线接入技术将长期为用户提供泛在异构的无线网络环境。要充分发挥各个无线接入网络技术的优势,实现优势互补和真正的网络融合,
在无线通信领域,异构网络融合是下一代无线通信的必然趋势。为了实现通信的高速率传输、大系统容量、广业务覆盖、资源优化配置以及满足用户业务的宽带化、个性化、智能化等
雷达凝视成像一般是指实孔径雷达凝视成像,实孔径凝视成像相比传统的合成孔径成像具有无需长时间相干积累与运动补偿,瞬时成像的显著优势,但是实孔径雷达成像的分辨率受天线
在互联网飞速发展的今天,用户需求的数据量也呈指数式增长。面对需求爆发式的增长,数据中心光网络经历了光电混合组网、波分复用、弹性灵活光网络等发展阶段,现已经可以提供
本文研究的主题是平安财产保险股份有限公司机动车辆保险产品创新。机动车辆保险通常又称为“车险”,在我国非寿险业所有险种中市场份额长期位于第一,也是市场化程度最高的非
作为氧化性极强的强氧化剂,臭氧在污水治理领域应用广泛,可去除绝大多数的有机物与无机物。但受限于目前的臭氧生成技术,仍存在臭氧生产成本高、生成效率低等缺陷,因此定量化研究臭氧气泡在污水治理过程中的消耗表现对实际的工业过程具有十分重要的指导作用。本文以臭氧的利用率为研究目标,采用数值模拟的方法对臭氧气泡在气液接触设备中的上升及消耗过程进行了系统的分析。为考虑气泡运动、收缩及反应消耗间的即时影响,建立了
信息的传播问题以及由此引发的顶点被影响问题,是多年来一直被广泛研究的问题。信息扩散范围预测即预测发现信息传播后的受影响顶点,是信息传播研究中的一个基本问题。信息通
目前,医学影像技术在医疗诊断中起着不可低估的重要作用,然而医学图像由于受成像设备、局部体效应、患者的体位运动和检查床的匀速直线运动的影响,导致医学图像不可避免地出
为了进一步满足人们对高质量移动通信的迫切要求,大规模MIMO技术作为增加数据传输速率的关键性技术成为了 5G技术的研究热点。然而,随着天线数目的增长,信号处理的复杂度越来
随着电网的不断建设,电力的普及与发展给居民带来了极大的便利,然而在用电的过程中,出现了各种异常用电问题,比如随意搭接线路、窃电以及篡改电表等,给国家电网以及相关企业带来了不少损失。随着智能电网的普及以及机器学习的兴起,各种基于人工智能的电力大数据挖掘方法也层出不穷,但大都基于历史数据不能进行实时在线的处理,很多方法不仅不能及时杜绝这种行为,还会浪费大量的人力、物力、财力,得不偿失。在此形势下,本文