用户头像信息在微博检索中的应用研究

来源 :北京工业大学 | 被引量 : 1次 | 上传用户:ji1ji2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,以为新浪微博、推特、脸书等为代表的社交媒体迅速崛起,成为人们自我表达和人际交往的重要平台,并逐渐取代传统信息媒介,成为人们获取新闻资讯最重要的信息源之一。在一个社交网络中,人们不仅是信息的消费者,更是信息的制造者和传播者,这使得数据传播迅猛,数据量空前巨大。社交媒体的大流量和短文本特性(如长度限制、特殊字符使用、表达口语化等),向高质量的微博检索发起了挑战。在社交媒体中存在大量图片,蕴含着十分丰富的信息有待挖掘。在众多的图片信息中,用户头像最能直观、概括的代表一个用户,是用户个性和偏好的集中体现。用户可以根据自己的喜好设置风格各异的图片作为个人头像,不同用户之间的头像也大都不同,某类型的用户头像往往与特定类型的话题相关,例如女人与美妆、男人与运动等。如何利用社交媒体中丰富的图片信息,帮助用户快速有效地检索相关话题成为人们关注的焦点。遗憾的是,虽然信息检索模型(如向量空间模型、概率模型、语言模型等)相关的研究已经非常成熟,但这些方法及其优化大都是基于文本的,即对微博本身和其他文本进行分类、聚类、检索等操作,忽略了用户头像与话题之间的联系。本文提出了一种基于用户头像分类的微博检索方法,探索用户头像信息在微博检索中的应用,通过加入微博用户的头像分类信息,调整检索结果的排序,提升微博检索的性能。本文的研究工作和主要贡献如下:1.本论文提出了微博用户头像的划分依据。根据用户头像的内容,将其分为男像、女像、多人像、动漫/卡通角色、动物、风景、物品、字母/Logo、默认头像,共9类,提取用户头像的90D、GIST、SIFT、HOG、LBP特征,采用Bayes、KNN、SVM和随机森林方法,训练用户头像分类器并检测分类的性能。2.本论文完成了对用户头像稀疏组约束的建模及求解。在传统的向量空间检索模型的基础上,利用组lasso对不同用户头像分组进行稀疏组约束,从用户头像分类的角度进行组特征选择,利用块坐标下降方法求解模型参数,并对复杂模型做等效处理。本论文通过实验验证了基于用户头像分类的微博检索方法的可行性。本论文从数据出发,通过随机重排、硬重排、相关性重排的对比实验,证明了用户头像分类信息对检索性能的提升;通过分析比较不同话题的检索性能,得到对用户头像比较敏感的话题类型。
其他文献
"虫",古代泛指动物,<大戴礼>谓:"禽为羽虫,兽为毛虫,龟为甲虫,鱼为鳞虫,人为倮虫".癫痫为儿科常见顽症之一,除了植物药外,动物药、矿物药在治疗时均属常用.兹就个人临床应用
本文简要介绍了Measurement Studio for Visual C++面向对象的开发环境及其使用方法,针对目前中小企业的单机监控软件的状况,从经济性和和实用性上提出了用Measurement Studi
1行业概述 AT-100PanelPC平板电脑,广泛应用于人机界面的平台,它扭转了人们对传统工控机“坚固而不美”的慨念,即是将IPC-IA化,它既拥有工控机的坚固耐用,又具有产品的美观。
本文介绍了基于VFD控制/驱动芯片HT16512的电磁灶显示面板电路的设计.介绍了HT16512的性能特点,组成结构以及对其编程时用到的各种指令.对HT16512在电磁灶的显示面板电路中的
本文介绍了大容量蒸汽锅炉汽包水位的控制策略,首先分析汽包水位变化的主要原因,再提出针对各种原因的控制方法,最后以一个实例介绍采用分布式过程控制计算机在软件上如何实
成立于1998年,专心致力于服务中国大陆市场的业界知名企业中国艾讯,日前发布公告,正式更名为“艾讯宏达”,同时启用新LOGO“Grantech”。中国上控网就相关问题采访了艾讯宏达科技
研究了模压温度、模压压力和模压时间对健身器械用碳纤维/聚碳酸酯复合材料宏观形貌、0&#176;和45&#176;方向拉伸性能和冲击性能的影响。结果表明,随着模压温度的升高,碳纤维
本文根据中铝山西企业生产现场微机控制系统的实际情况,结合作者的实际工作经验,就控制系统的信号优化问题进行了分析,并从硬件和软件方面提出优化方案.
"以学定教"模式,是新课改下的一个重要研究成果,同时也是教师对对教学效率进行提升的一个重要的通道和方法。本文展现了经过多年实践,在初中物理教学中如何有效得将"以学定教