基于向量空间模型和LDA模型相结合的微博客话题发现算法研究

被引量 : 0次 | 上传用户:woshishagua6
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的快速发展和广泛普及,网络信息的传播速度与数量都达到了空前的规模。微博客作为一种新兴的网络媒体,凭着极高的网民普及率,已经成为互联网上的主要信息源之一。由于微博客内容简单(一般少于140个字)且可以通过各种通讯手段(手机、QQ等)实时发布,容易在短时间内产生大量数据。在面对数量如此巨大且杂乱无序的微博客信息时,若采用人工手段去处理它,工作量巨大而且难以及时而准确的找到自己最关心的信息。话题发现技术能够将属于同一话题下的分散的信息归并,大大的减少了信息的重复率,便于用户从全局上了解话题中各个方面之间的关系以及话题之间的相互联系,帮助用户在海量信息中快速的找到自己最需要的信息。基于传统向量空间模型上话题检测算法虽得到了广泛的应用,且取得了不错的效果,但在处理大规模的微博客短文本时仍存在着明显的不足:一是降维能力的不足,过高维度的向量会导致文本相似度计算产生误差,影响话题发现精度;二是语义信息的丢失,传统向量空间模型中,文档中单词对应特征项,特征项的权重对应特征向量,文档的相似度取决于特征向量之间的距离,很显然文档之间重复的词语越多越可能相似,然而两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。在上述基础上,本文借鉴传统话题发现方法,针对微博客本身的特点,利用Latent Dirichlet Allocation(LDA)这种能够提取文本隐含主题的产生式模型,对微博客文本进行隐主题提取,通过吉布斯采样算法得到文本在隐主题空间上的向量分布,并将其与传统文本聚类的向量化模型向结合,最终通过多层聚类的方法实现话题发现。本文完成了微博客文本话题发现系统,整个系统由数据采集与预处理和话题结果描述两个子系统构成,在真实数据集上的实验结果表明,本文的方法能够降低错检率和漏检率,减少耗费函数。
其他文献
关于方言电视节目的讨论早已不是一个新鲜的话题,面对一系列方言节目创造的良好收视成绩和可观的经济效益,今天再来审视方言在大众传播媒介的运用似乎又有了新的现实针对性。
<正>1引言目前,轻型井点降水工艺在建筑物基坑支护中已得到广泛使用,但遇到渗透系数K<0.1md-1的弱透水层土壤,只能
石油被称之为工业的血液,在工农业生产和日常生活中最常见的油液有燃料油、液压油以及润滑油等。这些石油产品在生产、储运和使用过程中不可避免地会有水分等污染物的侵入,如果
目的水生生物是评价环境污染物毒性及其健康风险的重要手段,通常采用鱼、溞、藻和微生物作为指示生物,其中以发光细菌为代表的微生物方法相对简便、快速和经济。然而,发光细菌
【背景与目的】随着卫生保健事业的发展进步和人类对健康需求的提高,建设临床护理双师型教师队伍是医学院校的当务之急,是学校发展的战略性基础工程,双师型教师占教师队伍的
从古典艺术到现代艺术再到当代艺术,艺术的形式、功能、目的是一个不断演进的过程,每一个时代都需要适合其特征的艺术风格和材料媒介。陶瓷作为最为普及最容易被人认知的材料,它
21世纪,统计已成为人们认识客观世界不可或缺的重要工具。在地方高校应用转型和"双一流"建设背景下,本文以榆林学院应用统计学专业为例,按照"注重能力、强化实践、借助合作"
句法复杂性(syntactic complexity),或称句法成熟性(syntactic maturity),指语言产出形式的范围和形式复杂化的程度(鲍贵,2009:292; Ortega,2003:492),因此,产出单位长度、句
本论文通过实验研究建立了食品中酪蛋白的双抗体酶联免疫检测方法。首先,本论文选择酪蛋白标品作为半抗原,通过免疫新西兰大耳白兔获得了具有较高效价和特异性的酪蛋白抗血清
本论文是关于青少年滥用药物成瘾的社区介入方案研究。随着我国经济社会的发展,也逐渐产生了很多的社会问题,近年来,青少年滥用药物的问题愈加严重,滥用药物的年龄也越来越低