论文部分内容阅读
互联网的蓬勃发展带来了海量的文本内容,分析和归纳这些文本内容是常见的任务。其中,主题模型是一种分析文本内容的常用方法。这类方法通过构造一个关于文本、主题和词语作为随机变量的联合概率分布,并估计概率分布中参数,最终得到文本和主题以及主题和词语之间的概率关系。主题模型得到的联合概率分布,被广泛用于如搜索引擎、知识图谱、广告推送、舆情监控等应用领域。近些年来,微博、脸书等社交媒体的广泛使用,让短文本成为一种常见的文本类型。短文本比常规文本更短,平均长度只有不足二十个词。用于常规文本的主题模型并不能很有效地处理短文本,因为要估计联合概率分布的参数需要依赖文本中词语的共现信息,但短文本中词语的共现信息非常稀疏,导致主题模型效果不佳。已有的研究工作通过构建全局词语共现网络、自聚合等方法来增加短文本的词语共现信息,试图解决词语共现稀疏的问题。这些方法中只有自聚合方法是唯一能够增加充足共现信息的方法。此类方法通过在联合概率分布的短文本和主题随机变量之间增加一个长文本隐变量,让短文本根据多项分布聚合长文本以增加充足的词语共现信息。但此类方法容易把语义上不相关的短文本聚合在一起,让增加的词语共现信息不符合语义。因此,本文借鉴自聚合思想提出了一系列方法,在增加充足共现信息的情况下,逐步减少其中不符合语义的共现信息,最终用充足且符合语义的共现信息改善短文本词语共现稀疏的问题。1.已有的自聚合模型需要用户定义长文本的数量。我们通过实验发现,长文本的数量应该与短文本的规模相对应,设置不当会极大影响模型的性能,数量过小会使长文本过长,产生大量不符合语义的词语共现信息,过大则会使长文本过短,导致共现信息不足。因此,我们构造了一个狄利克雷过程,通过这个随机过程可以采样长文本的数量,从而让长文本数量随短文本集而改变。此外,本文还研究了社交媒体如Twitter短文本在语义上的关联性,通过短文本附属的标签辅助,我们将短文本按照标签进行聚合并分析短文本间的内在规律,首次发现在标签与同标签短文本的数量之间呈现幂律分布的概率关系。受该规律启发,本文提出了一种基于狄利克雷过程和幂律分布的模型(PYSTM)。模型在狄利克雷过程的基础上,用幂律分布对长文本变量进行采样,使短文本的聚合过程更符合短文本集语义上的内在规律,从而可以有效避免语义上不相关联的短文本聚合在一起。最后我们用中餐馆过程实现上述的联合概率分布。本文使用真实数据集,通过实验证明了 PYSTM方法较其它最新的方法效果都要好,在保证充分增加共现信息的情况下,可以有效减少其中不符合语义的共现信息。2.模型PYSTM根据幂率分布聚合短文本,但是在短文本集中,并不是每一个短文本都遵循幂率分布的规律。因此,依照幂律分布构造的联合概率分布依然可能将语义上不相关联的短文本聚合在一起。为了进一步提高联合概率分布的合理性,本文提出了一个基于嵌入式狄利克雷过程引入文本嵌入的模型(DESTM),根据文本嵌入信息代替幂律分布聚合短文,可以更好的匹配目标短文本集的内在规律。为了能够得到任何一个短文本集中短文本语义的内在规律,DESTM模型依照词语共现和词语上下文语义将每个短文本转化成嵌入信息,短文本内容上的相似性就可以用嵌入信息之间的向量距离来表示。不过,因为短文本的共现信息是稀疏的,这样计算得到的文本嵌入会包含错误信息,直接使用文本嵌入也会给模型带来噪声。为解决引入噪声的问题,DESTM模型把文本嵌入分解成两种语义信息:全局语义信息和局部语义信息。全局语义信息是一个概率分布,用来表示所有短文本语义相似度的整体状况。局部语义信息是短文本之间的向量距离,用来表示任意两个短文本之间的相似度。共现信息的稀疏性通常对全局语义信息影响很小。但是对于局部语义信息,会让短文本之间的相似度明显变低。因此,模型设置了一个阈值并只采用高于阈值的向量距离。最后,为了引入两种信息,DESTM模型用嵌入式狄利克雷过程构造了联合概率分布,并用嵌入式中餐馆过程实现。实验表明了 DESTM算法比其他最新的算法都要好,增加的词语共现信息比PYSTM方法更符合语义关系。3.虽然模型DESTM引入了文本嵌入,但是短文本中词语共现信息的稀疏也令文本嵌入信息包含了噪声,为了避免噪声的影响,DESTM模型抛弃了一部分文本嵌入信息,使得文本嵌入信息不再充分,最终必然产生不符合语义的词语共现。因此,为了提供更充分的嵌入信息,让增加的词语共现更符合语义,本文提出了一个基于局部和全局嵌入信息的混合模型(WDETM)。文本嵌入作为局部嵌入信息,可以让上下文语义相近的短文本聚合在一起。词嵌入信息作为全局嵌入信息,可以让短文本以增加更符合语义的词共现的方式聚合。这两种嵌入信息在排除噪声后都不充分,因此WDETM模型在联合概率分布中增加了一个选择器隐变量,让每个短文本都能根据选择器以概率混合两种聚合方式,有效减少不充足的嵌入信息对模型的影响。同时,为了减少不符合语义的词共现对主题一致性的影响,模型WDETM在由联合概率分布采样词语的过程中也引入词嵌入,让语义相近的词语以更大概率对应同一种主题。但在这个过程中,为了词嵌入中的噪声,WDETM模型设置了一个阈值,在计算词语之间的向量距离后只保留距离超过阈值的距离。之后,模型利用了波利亚缸方法构造了引入词嵌入的概率分布。实验证明了模型WDETM 比其他最新方法要好,相比DESTM方法,WDETM方法在聚合短文本的过程中,增加的不符合语义的共现信息更少。