基于微博的知识词条推荐算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ld2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人们的社交生活及信息获取方式发生了巨大的变化。微博的兴起让人们能够快速获取海量信息,如何从海量信息中自动发现有价值的内容并推荐给用户具有重要意义。利用知识发现的相关方法来挖掘海量数据中的有用信息,利用用户的社交关系解决传统推荐算法所面临的数据稀疏问题是当前研究的热点。基于微博的知识词条发现及推荐是在大数据和个性化时代的大背景下提出的。从海量微博数据中抽取知识词条,并将其推荐给感兴趣的微博用户是本课题研究的重点。在语料库构建任务上,知识词条发现语料库大多基于长文本构建,尚无利用微博构建的标准语料库。基于社交网络的推荐语料库,主要推荐音乐、好友等内容,没有推荐微博知识词条相关的公开语料库。针对语料库存在的问题,本文利用微博爬虫从新浪微博中获取大量微博数据及微博用户社交关系数据,并构造了微博知识词条发现语料库及微博知识词条推荐语料库。在微博知识词条发现任务上,本文利用基于条件随机场(Conditional Random Fields,简称CRFs)的方法从微博中识别知识词条。为了解决基于传统文本特征的CRFs模型在微博知识词条发现任务上召回率偏低的问题,本文从大规模非结构化数据中学习词聚类特征并从训练集中构造知识词条词典,最后将词聚类特征及知识词条词典融入CRFs模型。在评测集上,融合词聚类特征的微博知识词条发现算法比采用基本特征的微博知识词条发现算法的F1值提高了6.56%,引入训练集词典特征的微博知识词条发现算法相比基本算法提高了8.05%,结合两类特征的方法则提高了8.43%。此外,本文还研究了聚类类别数和语料库规模对词聚类特征的影响。在微博知识词条推荐任务上,本文利用微博中的社交关系及时间因子改进了传统的协同过滤算法,并将其与传统的协同过滤算法、基于内容的推荐算法作对比。实验结果表明,社交关系及时间因子能够显著提升推荐算法的性能,本文提出的利用社交关系和时间因子改进的协同过滤算法的F1值相比传统协同过滤算法提高了20.37%。最后,基于以上研究工作,本文实现了一个基于新浪微博平台的微博知识词条推荐系统。
其他文献
近年来,随着医疗卫生事业的发展,在临床医疗活动中的药物使用问题逐步成为公众关注的焦点。据统计资料显示,中国每年五千多万住院人次中与药物不良反应有关的可达二百五十多
随着社会的发展,人们对通信尤其是无线通信的需求不再仅限于语音方面,无线数据传输方面的需求越来越多,要求也越来越高。包括数据传输速率,网络延时,安全性方面等。无线数据
随着生物测序技术的研究不断深入,蛋白质序列数据呈爆炸性的增长,然而与之相比,蛋白质功能和结构数据增长缓慢。因此有必要利用蛋白质的一级结构预测蛋白质的功能和结构。本
带叶冠变截面扭曲叶片涡轮盘能大大提高涡轮的整体结构强度和工作可靠性。但由于这种类型的涡轮盘结构复杂,叶片为变截面扭曲,叶片间距最小处为4mm,且形成了一种扭曲的小通道,选
证券市场变幻莫测,作者试图找出股票指数这一时变波动序列的运行规律,从而对股票指数进行预测、为股票投资行为做出有效指导。股票指数对许多因素的变化都非常敏感,其中有来
学位
流数据存在于工业生产、生活活动、商业交易等领域,与人们的生活、生产等息息相关,因此对流数据的研究是十分有意义的。流数据挖掘的主要方向之一是在其上挖掘关联规则。流数
随着多媒体技术、计算机技术、通信技术以及 Internet 网络的迅速发展,人们越来越多地接触到各种各样的图像信息。伴随着大规模图像数据库的产生,传统的信息管理方式已经不能满
近年来,随着科学技术、生物医学、互联网、安全认证以及金融等其他领域的快速发展,多维度特征的数据分析与处理技术倍受关注,然而多维度序列其特征的高维性,使得传统的数据分
移动Ad hoc网络是一种新型的无线自组织网络,与常用的蜂窝网络和无线局域网不同,它不需要固定基站或控制中心,可以在任何时候,任何地点快速构建起来,因此近年来受到越来越多的关注