基于CBOW-LDA主题模型的Stack Overflow网站热点主题发现研究

来源 :武汉大学 | 被引量 : 3次 | 上传用户:dragoncon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,各类社交网站成为用户发布、搜寻、获取信息的重要渠道。Stack Overflow是一个热门的国外编程问答网站,它给用户提供了一个发帖提问寻求解答的平台,深受国内外编程者的青睐。在StackOverflow数以万计的各类问题中,一些热点问题会引起广泛的关注,在一定程度上能反映该时期用户的关注热点与编程难点。因此,本文以Stack Overflow上的问题帖文本数据为研究对象,从数以万计的提问帖中挖掘出热点主题和热搜词汇,来获悉时下用户关注的信息需求和热点技术,给用户和研究者在对相关领域进行信息搜寻和热点研究时带来参考及便利。由于研究对象是该网站的海量短文本型提问帖,具有社交网络短文本的文本高维性特征,并且当前主流使用的主题模型——以概率化词汇抽取为基础的LDA(Latent dirichlet allocation)在对该类大容量数据进行主题挖掘时具有自身局限性,易导致文本难降维和主题分布不明等问题。因此本研究力求在当前主流主题建模算法的基础上做近一步的创新,针对目标数据特点采取一种更精准有效的主题建模方法来完成文本主题挖掘。本研究提出了一种基于CBOW-LDA的主题建模方法,先采用基于CBOW词向量的方法对目标语料进行相似词聚类,再以聚类结果为输入语料进行后续LDA主题模型文本表达和主题建模。以Stack Overflow网站上的编程问题帖的文本数据作为研究对象,采集2010-2015年的问题帖数据集POST进行实验,同等主题数下采用困惑度(perplexity)来度量算法性能,结果表明采用CBOW-LDA方法与现有的基于词频权重的词量化主题建模TF-LDA方法相比困惑度更低;同时在对StackOverflow的热点挖掘上,建立手工标注的标准评测集进行判定,结果表明CBOW-LDA评价指标优于TF-LDA,证实CBOW-LDA具有良好的算法性能和热点挖掘效果。研究成功挖掘出Stack Overflow上2010-2015年的热门主题和热搜词汇并进行相关数据分析,设计完成了基于CBOW-LDA热点主题发现的原型工具,运用该原型工具能快速便捷地实现对特定数据语料的热点主题发现和挖掘。本研究为文本主题建模和语义挖掘的相关研究提供了一种新思路和方式,研究提出的CBOW-LDA主题模型算法和实现的热点主题发现原型工具具有一定的研究意义和实际运用价值。
其他文献
采用廉价易得的硝酸锌和磷酸二氢钠,通过微波辅助原位合成磷酸锌对棉织物进行抗紫外线整理。首先对制备磷酸锌的原料和干燥温度进行讨论,并采用XRD对其结构进行表征。结果表
专利代理人作为从事专利申请、企业专利战略和政策咨询、专利法律服务等相关业务的专业人员,是专利代理服务的具体执行者。专利代理人执业水平和职业道德素质的高低直接影响
现代企业所有权与经营权的分离导致了信息不对称,使得经理人有机会利用自身的信息优势和自由裁量权,有目的地干预盈余的产生和报告过程,进而实现自身利益的最大化。通过整理2
审题是动笔做题以前对题目的研究,高中物理审题做得好能够更快速,准确地解答题目,本文从审题的基础,审题的技巧,强化审题能力方面介绍了如何培养审题能力。
随着文化体制的改革和发展,高校话剧作为近年来风靡校园的文化活动之一,日渐成为提升学校文化品味的重要举措。南京大学09级学生自导自演的话剧《蒋公的面子》在全国公映之后
刚刚圆满结束的上合青岛峰会成果丰硕,成为迄今为止历届峰会成果最多的一次,也刷新了上合组织的纪录。其中,对“上海精神”的完善、丰富和升华是本次青岛峰会最大的亮点之一,不仅
报纸
目的探讨循证护理在脑梗死护理中的应用效果。方法选取2012年4月-2014年4月新疆医科大学第一附属医院神经内二科接收的脑梗死患者122例,根据护理模式分组,将在临床治疗期间行
智库是一种专门为公共政策和公共决策服务,开展公共政策和公共决策研究和咨询的社会组织,是国家软实力的重要组成部分,是影响政府决策和推动社会发展的重要力量。本研究从组
随着科学的发展,概率作为数学的一个重要部分,在众多领域内扮演着越来越重要的角色,取得了越来越广泛的应用。正如英国逻辑学家和经济学家杰文斯所说:"概率论是生活真正的领