微博短文本检索关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:songyinming
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是通过某个社会媒体分享的不超过140个字符的短文本消息,比如Twitter或者新浪微博。微博能够吸引上亿用户的使用,是因为用户通过关注自己感兴趣的人可以获得实时的消息。经过近五年的快速发展,微博已经成为社会媒体的典型代表,更是人们不可或缺的重要实时信息来源。在本文,微博特指通过Twitter分享的微博。微博数据剧烈增长,从大量的微博信息中帮助用户更加准确地找到他们感兴趣的微博就成了微博检索的重要任务。由于微博文本短小,书写随意,噪声大,而且实时性强的特点,传统信息检索技术在海量微博检索中遇到巨大挑战。为了解决这一问题,本文针对微博检索任务的几个关键技术进行了研究。本文主要分成以下四个方面进行研究:1.基于热点时间的文档语言模型建模。在本章中,首先我们调研了两类典型的基于时间的语言模型,其基本假设是文档越新鲜,文档越重要。然后对微博真实查询的相关文档的时间分布进行了分析,证实了传统的假设并不总是成立的。最后对查询的热点时间进行了定义,并建立了基于热点时间的语言模型方法用于微博检索,并和传统方法进行了实验性对比。2.融入时间信息的查询建模。在本章中我们利用时间特性(实时性,时间变化)对用户查询进行扩展,提高检索精度。具体的讲,探索了三种查询扩展方法。一种是基于实时性的查询扩展,能够对实时性的查询提供候选词。第二种是针对相关文档时间分布波峰离查询时间点较远或者出现多波峰的情况,此方法获取原始查询和扩展查询的时间属性,基于这两个分布的最小KL-分散度选择好的扩展词。第三种方法利用对文档年龄进行高斯分布建模巧妙的将前两种查询扩展方法进行了融合,是一种自适应权重的有效方法。3.基于参考文档模型的微博文本检索。在本章中我们通过对微博短文本模型建模遇到的潜在困难进行分析的基础上,引入参考文档模型对微博文本进行扩展,提高微博文本的模型估计精度,探究了文档信息增益对检索性能的影响。进一步利用参考文档同时对查询和文档进行伪反馈。实验结果表明,对查询和文档同时进行伪反馈的性能是最好的,远远好于传统反馈方法。本文还发现利用微博文本中的URL链向的网页内容对提高微博的检索性能有很大贡献作用。4.基于排序学习模型的微博检索。在本章中我们采用了一种新的排序策略,在排序中不仅考虑了文本相似度,而且同时考虑了微博用户和微博独有的一些特征信息。因此采用了排序学习方法,融合多个特征,来产生更好的排序函数。进行了一系列实验,通过对单个特征的分析和尝试不同的特征子集选择方案,来获取能达最佳微博检索性能的特征子集。
其他文献
1月12日,我校“深化综合改革,推动创新发展”教育教学研讨活动总结表彰大会在办公楼六楼会议室举行。校领导、各教学单位和职能部门负责人及全体教师参加了会议。会议由陈铁山
为了实现大批量快速无损检测鱼糜及其制品中磷酸盐和山梨酸钾的含量。本研究以带鱼糜和鳕鱼糜及其制品(带鱼鱼糕和鳕鱼丸)为研究对象,探讨了将指纹图谱技术(近红外光谱技术和电子
中国电视体育频道已进入“第二现代”,媒介环境发生了质的改变,面临数字化、个性化、差异化和分众化的实践与挑战。数字电视体育频道始终缺乏具体有效的营销策略,扩大收视群
[目的]分析同伴健康教育模式对维持性血液透析病人干体质量、自我管理能力及生活质量的影响。[方法]选择2017年1月—2019年3月行维持性血液透析病人80例,采用随机数字表法分
随着经济的全球化,现有的外贸统计规则在客观反映外贸数据方面有所欠缺,很多学者对此进行了大量的研究,如对外贸统计中的“跨境交易”、“原产地规则”、数据加工和统计口径等问
中国新疆与哈萨克斯坦在资源状况、生产结构和经济发展水平上具有较强的相似性和同构性,而中国与哈萨克斯坦区域经济合作近年来显示出很强的互补性,合作潜力巨大。次区域经济
大学精神是高等学校的办学理念和价值追求,是大学文化的精髓,是大学赖以生存的支柱和动力。通常学术界对大学精神的理解为:学术自由、学校自治、教授治校、教学与科研相统一等等
[目的]探讨综合护理干预在急性重症胰腺炎(SAP)病人连续性静脉-静脉血液滤过(CVVH)治疗中应用效果。[方法]选取2017年1月—2019年1月在某院采用CVVH治疗的60例SAP病人,根据病
[目的]探讨多层防御管理体系在急诊病人安全管理中的应用效果。[方法]2018年7月—2018年12月通过建立急诊科护理安全多层防御管理体系对急诊病人实施管理,比较实施前(2018年1
[目的]探讨标准化操作流程在介入术后拔除股动脉压迫止血器的应用效果。[方法]选择2017年1月—2018年12月行介入治疗后自愿使用压迫器的病人428例作为研究对象,将2017年1月—