基于Hadoop的HM-LDA生成模型研究

被引量 : 0次 | 上传用户:voidemort
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的蓬勃发展和互联网应用的日益普及,微博、贴吧在社交领域中占据着越来越重要的地位。各种话题及其言论和新兴事物借由微博和贴吧的平台迅速传播,随之而来的是越来越频发的各种网络事件。与互联网相关的舆情监控和追踪也受到各大科研机构或院校的重视,而如何从海量非结构化数据中挖掘热点话题,把握舆情的走向已经成为目前研究的重点问题。本论文以互联网中高校相关舆情信息为分析对象,通过对BBS、贴吧、微博等校园专题网络资源中的信息进行话题挖掘,及时掌握学生关注的焦点问题。针对语料库中各类噪音数据,使用正则表达式进行过滤,为模型的建立做好数据准备工作。针对微博短文本、海量数据的问题,本文对LDA模型算法进行了优化。采用结合了聚类算法的HM-LDA模型,并在模型建立阶段将用户的评论和转发信息用于建模,解决了短文本信息量少的问题,提高了话题挖掘的精度;并将算法运行在Hadoop平台上,利用MapReduce编程模型的分布式运算能力达到高效处理海量数据的目的。最后通过实验验证基于Hadoop平台的HM-LDA算法在话题检测上的精度以及分布式处理的效率。面对海量数据时,分布式HM-LDA算法比传统的LDA算法具有更好的话题检测准确度,同时也比单机环境下HM-LDA算法具有更高的效率。而实验结果也证明,分布式HM-LDA算法,在相同数据规模的前提下,集群中的计算节点越多,算法的效率越高。
其他文献
<正>非酒精性脂肪性肝病(NAFLD)是一种由各种原因引起的肝细胞内大量脂肪沉积,主要特征为肝细胞脂肪变性和脂质蓄积,同时必须排除过量饮酒史的临床综合征。其随着病程的不断
目的分析米力农联合多巴胺治疗老年顽固性心力衰竭的疗效。方法资料选取我院2013年10月~2014年10月收治的老年顽固性心力衰竭患者64例,对照组32例给予常规药物,研究组32例给
目的:探讨孟氏十二针刺法对椎动脉型颈椎病患者的椎基底动脉血流动力学的影响。方法:将60例椎动脉型颈椎病患者随机分为两组,治疗组30例,予孟氏十二针疗法(双侧风池、完骨、
目的分析影响幼儿营养状况的因素,探讨改善幼儿营养不良状况的对策。方法随机抽取遵义市三所幼儿园800名儿童,以问卷调查和体格测试的方法进行分析,采用单因素多元非条件Logi
岩土力学参数的概率分布推断是岩土工程可靠性分析的关键步骤之一,选择和建立输入参数的概率模型直接影响可靠性最终的计算结果和精度.介绍了不同情况下确定岩土参数概率分布
本文以层状锰酸锂为出发点,对材料进行了一系列的探究,结果如下:1、本文确定了采用共沉淀法以硝酸锰、硝酸镍、氢氧化锂为原料制备了前驱体,再与氢氧化锂混合后高温烧结得到
本论文采取问卷调查的形式,对英国爱丁堡大学和孔子学院的汉语学习者学习策略的使用情况进行了调查和对比研究。本论文以英国爱丁堡大学40名学生和孔子学院31名汉语学习者为
目的分析心血管临床用药的常见误区,从而促进临床合理用药。方法统计分析我院2010年1月~2014年1月使用的心血管治疗药物,并分析讨论药物使用的误区。结果我院在2010年1月~201
近年来,随着我国高等教育事业的迅猛发展,我国正在不断加大对高等学校的财政资金投入,高校财政支出项目资金的数额也因此不断增加。高校财政支出项目绩效评价是保证合理运用
在中国,微博作为一种媒介新技术,不仅改变了传统的传媒生态格局,即一元化垄断式自上而下的传播格局被打破,取而代之的是多元化、去中心的“人人都是麦克风”的高度参与式、协