论文部分内容阅读
随着互联网的快速发展,以为新浪微博、推特、脸书等为代表的社交媒体迅速崛起,成为人们自我表达和人际交往的重要平台,并逐渐取代传统信息媒介,成为人们获取新闻资讯最重要的信息源之一。在一个社交网络中,人们不仅是信息的消费者,更是信息的制造者和传播者,这使得数据传播迅猛,数据量空前巨大。社交媒体的大流量和短文本特性(如长度限制、特殊字符使用、表达口语化等),向高质量的微博检索发起了挑战。在社交媒体中存在大量图片,蕴含着十分丰富的信息有待挖掘。在众多的图片信息中,用户头像最能直观、概括的代表一个用户,是用户个性和偏好的集中体现。用户可以根据自己的喜好设置风格各异的图片作为个人头像,不同用户之间的头像也大都不同,某类型的用户头像往往与特定类型的话题相关,例如女人与美妆、男人与运动等。如何利用社交媒体中丰富的图片信息,帮助用户快速有效地检索相关话题成为人们关注的焦点。遗憾的是,虽然信息检索模型(如向量空间模型、概率模型、语言模型等)相关的研究已经非常成熟,但这些方法及其优化大都是基于文本的,即对微博本身和其他文本进行分类、聚类、检索等操作,忽略了用户头像与话题之间的联系。本文提出了一种基于用户头像分类的微博检索方法,探索用户头像信息在微博检索中的应用,通过加入微博用户的头像分类信息,调整检索结果的排序,提升微博检索的性能。本文的研究工作和主要贡献如下:1.本论文提出了微博用户头像的划分依据。根据用户头像的内容,将其分为男像、女像、多人像、动漫/卡通角色、动物、风景、物品、字母/Logo、默认头像,共9类,提取用户头像的90D、GIST、SIFT、HOG、LBP特征,采用Bayes、KNN、SVM和随机森林方法,训练用户头像分类器并检测分类的性能。2.本论文完成了对用户头像稀疏组约束的建模及求解。在传统的向量空间检索模型的基础上,利用组lasso对不同用户头像分组进行稀疏组约束,从用户头像分类的角度进行组特征选择,利用块坐标下降方法求解模型参数,并对复杂模型做等效处理。本论文通过实验验证了基于用户头像分类的微博检索方法的可行性。本论文从数据出发,通过随机重排、硬重排、相关性重排的对比实验,证明了用户头像分类信息对检索性能的提升;通过分析比较不同话题的检索性能,得到对用户头像比较敏感的话题类型。