论文部分内容阅读
目前社交网络媒体已逐渐取代传统新闻媒体,成为人们获取信息、交流观点、发表意见的主要平台。但是随着微博参与者数量的爆发式增长,用户面临“信息过载,知识缺乏”的窘境。微博过滤技术能够帮助用户过滤无关垃圾信息,并根据用户兴趣挖掘相关内容,因而得到研究者的广泛关注。已有的研究表明,将微博过滤建模成简单信息检索问题无助于提高微博过滤性能。这主要是因为微博作为典型的短文本,微博过滤面临极端的词稀疏问题,导致传统检索模型无法有效估计参数而失效。有鉴于此,本文通过引入了微博博文质量模型,将微博过滤问题建模成根据博文质量,对检索出的相关博文进行深化排序的问题,提出了一种新颖的微博信息过滤处理框架。本文的主要贡献包括:首先,本文给出了基于质量模型的微博过滤系统设计。在对研究涉及的相关知识进行综述的基础上,将微博过滤任务建模成依据博文质量进行的博文排序问题,提出了一种新颖的微博信息过滤处理框架,并详细介绍了微博过滤系统的结构设计、关键模块和功能描述。其次,本文研究了基于同质性约束的微博内容最优低秩表达方法。考虑到微博内容表达的不规范性,微博内容特征往往很高但特征极其稀疏,给微博的分析和研究带来了很大的不便。基于上述考虑,对微博“内容—文档”矩阵进行因子化分解,用分解得到的低秩矩阵和微博检索特征矩阵综合得到了微博内容特征表达,并通过引入同质性系数约束进一步优化表达矩阵。再次,本文研究了基于稀疏特征约束的博文质量评估模型方法。我们根据微博内容最优低秩表达,建立了微博博文质量评估模型,根据博文质量实现相关博文推荐和无关博文过滤。同时为了减少微博质量评估模型的复杂度、降低回归模型的分类风险,使用基于稀疏特征约束的广义线性回归模型,进一步降低微博博文质量评估模型函数的特征变量依赖性。最后,本文在公开数据集上验证了算法的有效性,在TREC Microblog Track2015实验数据集上的实验结果表明,和现有的微博过滤方法相比,本文提出的微博质量模型可以对微博过滤系统的排序性能进行优化,平均NDCG值有了一定提高。