基于LDA主题模型的用户兴趣发现方法

来源 :软件 | 被引量 : 0次 | 上传用户:cnunicomlxq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户兴趣是对微博用户研究的重要内容,本文使用聚类方法提取用户兴趣。由于微博短文本的特征稀疏和上下文依赖性,传统方法不能取得良好的效果。本文对微博短文本进行基于 LDA 主题模型的特征拓展处理。LDA主题模型引入隐含主题,通过主题相似性,在一定程度上拓展文本特征,弥补原文本特征稀疏的缺点。并且,在处理多义词时,主题相似性能明显区分不同词义,以解决上下文依赖问题。在此基础上,通过文本聚类方法提取用户兴趣。通过实验表明,在引入LDA模型下,聚类效果和用户兴趣抽取的到明显提升,有效解决的微博用户兴趣发现中文博短文
其他文献
目前,中国的经济发展已进入一个新的时代、新的阶段,由以往的要素驱动型向技术创新驱动型转变,由高速增长阶段向高质量发展阶段转变。立足新阶段、面对新形势,金融要充分发挥“金
<正> 浙江省地质遗迹基本概况 浙江地处东亚活动大陆边缘,是环太平洋西岸构造岩浆活动带的重要组成部分。在漫长的地质历史时期,由于各种内外动力地质作用,在我省形成、发展
导读:如今,边缘计算正在吸引大量投资,无论是电信和云计算行业,还是零售和制造业等垂直领域。如今,边缘计算正在吸引大量投资,无论是电信和云计算行业,还是零售和制造业等垂直领域。
在当前媒体深度融合发展的时代,电视媒体也迎来了新的发展机遇。在电视媒体节目传播中,新媒体所发挥的影响作用越来越大,而且逐渐被广泛应用与电视媒体中,从而改变了电视媒体
随着金融业数据大集中的推进,金融数据中心集中存放着海量的金融业务数据。为保障数据安全及满足当前业务连续性的要求,金融数据中心必须对其管理的数据进行全方位、多层次、
就股权激励的原理、方式、股权激励对上市公司的意义、上市公司实施股权激励的现状及存在的问题进行分析原因、如何构建科学有效的股权激励制度做了初步的探讨。
业务系统的整合使校园数据的统一共享成为了可能,而通过共享的数据平台,有所侧重的抽取我们需要的信息,也使我们能够更全面更客观的了解和评价学生在大学校园内的生活、学习情况
计算机程序设计语言是计算机专业学生必须掌握的一种技能。目前的计算机程序设计语言课通常都是以老师讲解理论为主,学生们阅读理解一些小程序,很多学生最后只是掌握了一些基
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
本文在分析现有网络拓扑感知方案的基础上,首先提出一种新型的路由架构,即"物理上分布,逻辑上集中"的新型路由架构。在此路由架构上增加了网络流量识别模块与业务类型感知模