基于微博的知识词条推荐算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：ld2001

【摘要】

：

随着互联网的发展,人们的社交生活及信息获取方式发生了巨大的变化。微博的兴起让人们能够快速获取海量信息,如何从海量信息中自动发现有价值的内容并推荐给用户具有重要意义

【作者】

：

汤斌

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2014年期

【关键词】

：

知识词条发现知识词条推荐条件随机场词聚类微博

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展,人们的社交生活及信息获取方式发生了巨大的变化。微博的兴起让人们能够快速获取海量信息,如何从海量信息中自动发现有价值的内容并推荐给用户具有重要意义。利用知识发现的相关方法来挖掘海量数据中的有用信息,利用用户的社交关系解决传统推荐算法所面临的数据稀疏问题是当前研究的热点。基于微博的知识词条发现及推荐是在大数据和个性化时代的大背景下提出的。从海量微博数据中抽取知识词条,并将其推荐给感兴趣的微博用户是本课题研究的重点。在语料库构建任务上,知识词条发现语料库大多基于长文本构建,尚无利用微博构建的标准语料库。基于社交网络的推荐语料库,主要推荐音乐、好友等内容,没有推荐微博知识词条相关的公开语料库。针对语料库存在的问题,本文利用微博爬虫从新浪微博中获取大量微博数据及微博用户社交关系数据,并构造了微博知识词条发现语料库及微博知识词条推荐语料库。在微博知识词条发现任务上,本文利用基于条件随机场(Conditional Random Fields,简称CRFs)的方法从微博中识别知识词条。为了解决基于传统文本特征的CRFs模型在微博知识词条发现任务上召回率偏低的问题,本文从大规模非结构化数据中学习词聚类特征并从训练集中构造知识词条词典,最后将词聚类特征及知识词条词典融入CRFs模型。在评测集上,融合词聚类特征的微博知识词条发现算法比采用基本特征的微博知识词条发现算法的F1值提高了6.56%,引入训练集词典特征的微博知识词条发现算法相比基本算法提高了8.05%,结合两类特征的方法则提高了8.43%。此外,本文还研究了聚类类别数和语料库规模对词聚类特征的影响。在微博知识词条推荐任务上,本文利用微博中的社交关系及时间因子改进了传统的协同过滤算法,并将其与传统的协同过滤算法、基于内容的推荐算法作对比。实验结果表明,社交关系及时间因子能够显著提升推荐算法的性能,本文提出的利用社交关系和时间因子改进的协同过滤算法的F1值相比传统协同过滤算法提高了20.37%。最后,基于以上研究工作,本文实现了一个基于新浪微博平台的微博知识词条推荐系统。

其他文献

基于临床合理用药的数据挖掘技术和应用研究

近年来,随着医疗卫生事业的发展,在临床医疗活动中的药物使用问题逐步成为公众关注的焦点。据统计资料显示,中国每年五千多万住院人次中与药物不良反应有关的可达二百五十多

学位

数据挖掘数据预处理合理用药临床药物治疗改进的SCG算法

基于GPRS监控调度系统安全性实现

随着社会的发展,人们对通信尤其是无线通信的需求不再仅限于语音方面,无线数据传输方面的需求越来越多,要求也越来越高。包括数据传输速率,网络延时,安全性方面等。无线数据

学位

GPRS3DES加密认证无线监控调度系统

基于序列顺序信息的DNA结合蛋白识别与远程同源性检测

随着生物测序技术的研究不断深入,蛋白质序列数据呈爆炸性的增长,然而与之相比,蛋白质功能和结构数据增长缓慢。因此有必要利用蛋白质的一级结构预测蛋白质的功能和结构。本

学位

DNA结合蛋白识别蛋白质远程同源性检测支持向量机伪氨基酸组成距离对

带叶冠变截面扭曲叶片涡轮盘计算机辅助电火花整体加工

带叶冠变截面扭曲叶片涡轮盘能大大提高涡轮的整体结构强度和工作可靠性。但由于这种类型的涡轮盘结构复杂，叶片为变截面扭曲，叶片间距最小处为4mm，且形成了一种扭曲的小通道，选

学位

涡轮盘带叶冠变截面扭曲叶片电火花加工计算机辅助

基于小波分析和支持向量机的股票指数预测模型的研究及应用

证券市场变幻莫测,作者试图找出股票指数这一时变波动序列的运行规律,从而对股票指数进行预测、为股票投资行为做出有效指导。股票指数对许多因素的变化都非常敏感,其中有来

学位

小波变换混沌动力学关联维支持向量机

P2Cast视频点播系统的设计

学位

基于动态支持度的流数据关联规则挖掘

流数据存在于工业生产、生活活动、商业交易等领域,与人们的生活、生产等息息相关,因此对流数据的研究是十分有意义的。流数据挖掘的主要方向之一是在其上挖掘关联规则。流数

学位

流数据关联规则跨事务支持度阈值

基于内容的图像检索技术的研究与应用

随着多媒体技术、计算机技术、通信技术以及 Internet 网络的迅速发展，人们越来越多地接触到各种各样的图像信息。伴随着大规模图像数据库的产生，传统的信息管理方式已经不能满

学位

图像检索神经网络分类器特征提取

基于多维度特征的心电身份识别研究

近年来,随着科学技术、生物医学、互联网、安全认证以及金融等其他领域的快速发展,多维度特征的数据分析与处理技术倍受关注,然而多维度序列其特征的高维性,使得传统的数据分

学位

多维度特征心电图稀疏算法身份识别

Ad Hoc组播路由协议研究与分析

移动Ad hoc网络是一种新型的无线自组织网络，与常用的蜂窝网络和无线局域网不同，它不需要固定基站或控制中心，可以在任何时候，任何地点快速构建起来，因此近年来受到越来越多的关注

学位

移动Ad hoc网络路由协议MAODV无线自组织网络组播路由

基于微博的知识词条推荐算法研究

与本文相关的学术论文