基于微博短文本的用户兴趣建模研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:zshihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博以其便捷、及时的信息分享、传播和获取方式,迅速在互联网上流行,使用的用户数量与日俱增。随着网络用户个性化需求的质量不断提高,建立有效的用户兴趣模型便是为用户提供个性化服务的有利工具,同时也是商业广告投放等领域首要也是重要的研究内容。作为微博平台信息呈现和传递的载体——微博短文本,包含了用户最直观或潜在的兴趣偏好信息。因此,通过研究微博短文本挖掘用户兴趣信息,从而可以有效地建立微博用户兴趣模型。由于微博短文本内容信息含量少,所含特征不够明显,因此为了缓解短文本造成的数据稀疏性问题,本文在分析微博短文本结构和内容的基础上,提出了微博短文本重构思想,根据微博相关的其它微博短文本和文本中包含的三种特殊符号,进行扩展文本内容,从而扩充了原始微博的特征信息;在建立微博文本的表示模型时,采用了LDA模型挖掘出潜在的语义信息得出兴趣主题的概率矩阵,并在此基础上建立了基于向量空间的“主题-关键词”二级微博用户偏好的表示模型,从语义层面上挖掘用户的潜在兴趣主题;最后给出了建模步骤,在通过聚类微博文本确定用户兴趣类别阶段,提出了聚簇主题识别方法,将层次聚类的结果用具有代表性的兴趣主题和关键词表示,从而提高了模型的易理解性和应用性。实验表明构建的基于微博短文本的用户兴趣模型具有较好的性能。
其他文献
该文研究了CI系统中的三维图形实时绘制技术.在综述计算机图形学各种先进技术的基础上,深入论述了地形实时绘制、网格简化和三维模型轮廓线抽取技术的基本概念、原理和方法.
该课题主要完成在办公自动化系统中电子公文的流转技术及电子公文 流转过程的安全性策略的研究,围绕这些内容,该文分析了已有的几种计算机网络安全技术.根据电子公文流转应遵
该文介绍了遥科学概念的发展、定义,以及国内外对遥科学技术的应用研究情况.论文详细论述了基于CCSDS标准的格式化帧同步的基本原理和FPGA的实现,并给出帧同步有关参数计方法
该文旨在探讨和研究C/S结构下管理信息系统(MIS)与基于Internet的电子商务系统的信息集成问题.本课题以某个医疗器械销售公司为对象,设计并实现了企业内部局域网上对产品的进
该文介绍了WebGIS项目中的G/SQL空间语言的设计与实现.G/SQL是扩展SQL得到的查 询语言.G/SQL具有强大空间支持能力:支持空间型关系和点、线、面空间数据类型,支持 数据模型中
该文详细介绍了作者及相关课题组成员在Inferno操作系统上研究开发的移动代理系统:TELEKARON.该文的主要内容及作者在课题中的主要工作如下:在简单介绍Inferno操作系统之后,
该文首先回顾了WWW的起源和发展.面对极其大量的信息,人们通常依靠搜索引擎来 为他们在WWW上进行导航,这给搜索引擎技术带来了巨大的挑战.自1994年问世以来,搜索 引擎的发经
我们在研究了许多国外异构数据源的实验模型基础之上,创建了一个电子商务集成与搜索系统.该系统主要应用了商品对象交换模型(COEM),作为结构化数据源和半结构化数据源通用的
图像分割是图像处理与分析的关键环节,也是计算机视觉领域中一个经典的研究分支。图像分割按照在分割过程中有无人工参与可分为半自动分割和自动分割,自动分割按照分割过程中有
检查点技术与任务复制相结合的方法,是实现上述低成本容错计算机的途径之一.该文主要研究如何有效利用任务复制与检查点技术结合方法提同容错计算机的性能.该文的研究工作和