Web挖掘中的主题模型扩展

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:mabimabide
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博如今已经成为非常流行的信息交流平台,对于微博的短文本数据,传统使用词作为特征来表示文本的方法,会由于同一个词共现在两篇不同短文本中的概率较小,而无法度量它们之间的相似度。针对微博短文本高维稀疏的特点,主题模型被广泛研究用于微博文本聚类。潜在狄利克雷分配(Latent Dirichlet Allocation,简称LDA)模型是主题模型的经典代表,作者主题模型(Author Topic Model,简称ATM)作为用作者信息对热门主题模型LDA的有效拓展也用于微博文本挖掘。然而ATM模型具有两个缺点:首先文档的单词生成概率只能按照一个作者的主题多项分布,其次针对微博这种文本形式,没有考虑到其中所包含的结构信息。针对以上缺点,本论文的研究内容包括以下三个方面:1)对多种主题模型进行了深入研究和分析,并就其中的LDA、 ATM两种模型,利用自然语言处理与信息检索(Natural Language Processing and Information Retrieval,简称NLPIR)数据集实现了文本降维。2)结合微博的特点,提出用户与关联扩展LDA模型(User and Link Latent Dirichlet Allocation,简称ULLDA),在每篇文档的生成过程中,当由作者列表中选择了作者之后,之后生成文档每一个词的时候,作者所对应的主题分布不再只是由作者一人决定,而是根据微博的特点,使微博中的相关人员对应的主题分布也能影响该分布,从而克服了上述两个缺点。3)应用NLPIR数据集,对提出的改进算法进行了验证,并与传统的LDA, ATM模型得到的结果进行了比较,证明了改进模型的有效性。
其他文献
随着物联网概念的兴起,无线定位技术将在人们的日常生活和国防军事领域扮演日益重要的角色。需求的多样化和定位场景的复杂性给传统定位技术带来挑战的同时也推动着定位技术
目的:细辛为中医临床常用药物,其性辛温有小毒,归肺、肾、心经,功能祛风散寒,通窍止痛,温肺化饮;用于寒饮伏肺,气逆喘急证及风寒感冒、头痛、鼻渊、牙痛、痹痛等证的治疗。细辛品种很
无线中继是下一代网络中提供可靠传输、高吞吐量和广域覆盖的关键技术,特别是在直传链路状况较差的情况下更能发挥作用。由于传统无线单向中继(One-way relay)系统存在固有频
深部静脉血栓症在世界范围内是一种致死率和致残率都相当高的疾病,其及时诊断和治疗显得尤为重要。临床上,医生常依据症状和体征得出初步判断,然后选用一些辅助检查如D一二聚体
与高等脊推动物相比,鱼类的性腺在胚胎发育早期更明显地表现为双向分化潜能,各种外部环境因素都可能在不同程度上影响鱼类的性别分化。目前内源性类固醇激素在鱼类性腺分化中的
我国是世界上地质灾害最为严重的国家之一,而大多数地质灾害又以滑坡为主要表现形式。如果在滑坡发生之前,能够对可能发生滑坡的区域进行实时的监测,掌握其形变趋势,就可有效的预
学位
帕金森病是一种老年神经退行性疾病,以运动徐缓、肌肉强直、静止震颤以及运动失衡等运动系统功能障碍为主要临床症状。大部分帕金森病是散发性的,但是约5%-15%的病人表现出明显的
全氟辛烷磺酸(PFOS)是一种持久性有机污染物,因其化学结构的稳定性及其在生产生活中的广泛应用,虽已下令停止生产,但仍会在未来的长期内继续存在于环境中。现有的研究表明,PFOS是
摘要:课程改革最终的教育目标是培养学生要学会学习、终身学习。为了实现这最终目标,任务中心是必须关注学生的学习过程和方法,关注学生是通过什么途径获得知识。由于获得知识的过程和方法不同,所以带给学生真正意义上的收获也会不同,并且对学生终身发展的影响也就有会不同。随着现在科学技术的不断发展,学习条件的不断完善,学习者通过自身的不懈努力获得真才实学的途径大为拓宽,更加灵活、方便、自主的终身教育,将把成材的