论文部分内容阅读
随着互联网的进一步的发展和普及,微博作为一种强大有力的网络平台和社交传播媒体日益流行起来。目前风靡全世界的Twitter和国内的一些热门微博如新浪微博、腾讯微博等有着庞大的用户群体,同时每天产生数以亿计的内容。由于微博消息不超过140字符的长度限制,以及书写随意和夹杂很多网络用语和表情符号。随着微博数据的剧烈增长,如何从杂乱无章的微博短文本信息中检索到用户需要的有价值的实时信息变得尤为重要。传统的信息检索技术在解决这些问题的方面还存在许多的不足。为了解决上述问题,本文在前人研究的基础之上,以微博为研究对象,对微博短文本检索的相关技术进行了深入的研究。本文从相关性和实时性出发,尽可能使检索结果与用户查询相关度高且相对较新。首先介绍了针对短文本检索的查询扩展技术,包括全局查询扩展方式和基于查询的查询扩展方式。详细介绍了基于词激活力的全局查询扩展方式,结合上下文和语义,模拟人脑,增加查询扩展词的选取的广度。介绍了伪相关反馈中改进的相关模型的查询扩展技术,相关模型共需两次检索,在首次检索的结果中取前TOP K个文档(默认是相关的文档)中,计算与原始查询词相关性,找出最相关的查询扩展词,提高查询扩展词选取的深度。本文介绍了在语言模型下采用词激活力全局方式结合局部的改进相关模型的查询扩展方式(WAF-IRM)提取查询扩展词语,在整体和局部、广度和深度俩方面提高查询扩展特征词的选取精度。在提取查询扩展词语后,需进行第二次检索,检索结果作为最终结果展示给用户。在进行第二次检索时,本文采用将原始查询词和扩展词加权的方式,计算与文档的相关度,并融合了微博的实时性特征对二次检索的结果进行改进排序。最后本文设计了一系列对比实验,来表明本文对检索模型的改进在查询扩展词的选取和检索结果精准度都有了提升。本文提出的相关技术可以有效地改善检索效率,提高用户满意度。