论文部分内容阅读
微博,一种强大有效的传播媒体和网络平台。随着微博用户的持续增加,产生大量的短文本,而针对短文本的信息处理也成为研究热点。如何在数以亿记的微博数据中信息中获取自己的所期待的内容成为一项严峻的研究。针对于微博用户发布的内容及操作行为进行研究,其中涉及到的信息扩展技术、个性化推荐技术等都成为研究重点。本文以微博短文本为主要研究对象,在深入了解微博特点的基础上,对微博内容的检索系统中的文档扩展子模块进行研究,对微博用户的行为进行挖掘,研究用户活跃度对个性化好友推荐的影响,主要的研究内容及工作包括如下:第一,调研现有阶段成熟的查询扩展的技术和个性化推荐技术。通过国内外查询扩展和推荐技术的发展,认识现有技术的发展现状,深入研究了多种经典算法,引出本文中涉及到的文档扩展算法和基于活跃度的用户推荐的算法。同时就算法的评价指标进行介绍,便于后续文中算法的衡量。第二,设计和实现了微博短文本的文档扩展模块。本章分析了因微博短小、关键词稀疏等原因导致的文档建模过程困难,提出基于微博文档扩展的检索算法,提升文档模型估计的精确度,将现有语料库作为文档信息增加的来源,根据文档的伪查询反馈获得相似近邻文档,并对现有语料库进行补充,提高语料关键词、热点词的概率分布,提升对于微博检索的潜在信息的发现,在已有的TREC微博数据上进行验证,表明对文档扩展能够改善检索的性能。第三,设计和实现了微博好友个性化推荐中的基于用户活跃度的子系统。研究用户活跃程度对推荐效果的影响,挖掘微博用户的行为特点以及操作行为,通过用户操作矩阵和活跃度矩阵的描述获得对于用户活跃度的描述,明确用户活跃度对于个性化推荐的影响因素,改善已有的微博推荐系统。这些技术的不断深入有效的改善检索和个性化推荐的效果,提高用户对于检索结果和个性化推荐命中率和满意率,提升微博检索效率,优化推荐的结果,提升用户体验。