论文部分内容阅读
随着互联网技术的飞速发展,各类社交网站成为用户发布、搜寻、获取信息的重要渠道。Stack Overflow是一个热门的国外编程问答网站,它给用户提供了一个发帖提问寻求解答的平台,深受国内外编程者的青睐。在StackOverflow数以万计的各类问题中,一些热点问题会引起广泛的关注,在一定程度上能反映该时期用户的关注热点与编程难点。因此,本文以Stack Overflow上的问题帖文本数据为研究对象,从数以万计的提问帖中挖掘出热点主题和热搜词汇,来获悉时下用户关注的信息需求和热点技术,给用户和研究者在对相关领域进行信息搜寻和热点研究时带来参考及便利。由于研究对象是该网站的海量短文本型提问帖,具有社交网络短文本的文本高维性特征,并且当前主流使用的主题模型——以概率化词汇抽取为基础的LDA(Latent dirichlet allocation)在对该类大容量数据进行主题挖掘时具有自身局限性,易导致文本难降维和主题分布不明等问题。因此本研究力求在当前主流主题建模算法的基础上做近一步的创新,针对目标数据特点采取一种更精准有效的主题建模方法来完成文本主题挖掘。本研究提出了一种基于CBOW-LDA的主题建模方法,先采用基于CBOW词向量的方法对目标语料进行相似词聚类,再以聚类结果为输入语料进行后续LDA主题模型文本表达和主题建模。以Stack Overflow网站上的编程问题帖的文本数据作为研究对象,采集2010-2015年的问题帖数据集POST进行实验,同等主题数下采用困惑度(perplexity)来度量算法性能,结果表明采用CBOW-LDA方法与现有的基于词频权重的词量化主题建模TF-LDA方法相比困惑度更低;同时在对StackOverflow的热点挖掘上,建立手工标注的标准评测集进行判定,结果表明CBOW-LDA评价指标优于TF-LDA,证实CBOW-LDA具有良好的算法性能和热点挖掘效果。研究成功挖掘出Stack Overflow上2010-2015年的热门主题和热搜词汇并进行相关数据分析,设计完成了基于CBOW-LDA热点主题发现的原型工具,运用该原型工具能快速便捷地实现对特定数据语料的热点主题发现和挖掘。本研究为文本主题建模和语义挖掘的相关研究提供了一种新思路和方式,研究提出的CBOW-LDA主题模型算法和实现的热点主题发现原型工具具有一定的研究意义和实际运用价值。