基于微博短文本的用户兴趣建模方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:qingqing20090756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。
其他文献
<正>光现象在生活中非常普遍,在各类试题中的常考点有:理解光沿直线传播并能够列举实例,如日食、月食等;通过实验探究知道光的反射定律和平面镜成像规律,并能熟练运用;了解光
重载机车运输是现代世界铁路在大宗、散装货物运输领域所取得的最重要的技术成就,能节约能源和减少环境污染,对我国的可持续发展战略具有深远的意义。而作为机车牵引传动系统的
创新是推动区域经济发展和提升区域综合实力的核心力量。工业企业作为技术创新主体中的中坚力量,其技术创新能力是衡量区域创新水平及创新潜力的主要依据。基于此,在分析甘肃
详细地介绍了几种典型的电厂锅炉脱硫脱氮技术,并且比较了它们的技术和经济优劣势。相比而言,活性焦吸附法属于干法处理技术中最具有竞争力的技术。
语言中的词汇是一个民族的文化的集中体现。本文以汉语中的时间词语、空间词语为例,探讨蕴涵在时空词语中的汉民族文化。文章认为:汉语中的时空词语,从来就不是纯粹的刻度符
本文介绍一种应用于智能卡的真随机数发生器,并分析了以杂凑函数SM3作为后处理算法来提高其随机数的质量.真随机数发生器是智能卡中不可缺少的一部分,它用于智能卡中机密信息
采用Fluent软件模拟了两种装置中的流场及温度场,并与工程实测结果进行比较。结果表明,采用渐变断面设计方式,烟气在换热面上分布更均匀,更有利于强化换热,阻力更小,节省材料
基于协同进化的思想,提出了一种用于传感器优化布置的协同爬猴群算法。采用双重编码的方式,克服了原猴群算法只能解决连续变量优化问题的缺陷。在爬过程中引入采用猴群的整体
通过对钨合金杆侵彻半无限厚铝合金靶问题的数值模拟,研究了高速侵彻中动能杆材料属性与侵彻性能的影响关系。计算采用的弹塑性流体本构模型中,用来描述材料属性的主要参数有
高校德育生态化是立足于当前高校德育的现状提出来的,在理论上能够推动高校德育创新,在实践上可以促进高校德育实效的提升。高校德育生态化既是指高校德育达到的一种最优良的