微博的短文本检索查询扩展与排序方法研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:sven321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的进一步的发展和普及,微博作为一种强大有力的网络平台和社交传播媒体日益流行起来。目前风靡全世界的Twitter和国内的一些热门微博如新浪微博、腾讯微博等有着庞大的用户群体,同时每天产生数以亿计的内容。由于微博消息不超过140字符的长度限制,以及书写随意和夹杂很多网络用语和表情符号。随着微博数据的剧烈增长,如何从杂乱无章的微博短文本信息中检索到用户需要的有价值的实时信息变得尤为重要。传统的信息检索技术在解决这些问题的方面还存在许多的不足。为了解决上述问题,本文在前人研究的基础之上,以微博为研究对象,对微博短文本检索的相关技术进行了深入的研究。本文从相关性和实时性出发,尽可能使检索结果与用户查询相关度高且相对较新。首先介绍了针对短文本检索的查询扩展技术,包括全局查询扩展方式和基于查询的查询扩展方式。详细介绍了基于词激活力的全局查询扩展方式,结合上下文和语义,模拟人脑,增加查询扩展词的选取的广度。介绍了伪相关反馈中改进的相关模型的查询扩展技术,相关模型共需两次检索,在首次检索的结果中取前TOP K个文档(默认是相关的文档)中,计算与原始查询词相关性,找出最相关的查询扩展词,提高查询扩展词选取的深度。本文介绍了在语言模型下采用词激活力全局方式结合局部的改进相关模型的查询扩展方式(WAF-IRM)提取查询扩展词语,在整体和局部、广度和深度俩方面提高查询扩展特征词的选取精度。在提取查询扩展词语后,需进行第二次检索,检索结果作为最终结果展示给用户。在进行第二次检索时,本文采用将原始查询词和扩展词加权的方式,计算与文档的相关度,并融合了微博的实时性特征对二次检索的结果进行改进排序。最后本文设计了一系列对比实验,来表明本文对检索模型的改进在查询扩展词的选取和检索结果精准度都有了提升。本文提出的相关技术可以有效地改善检索效率,提高用户满意度。
其他文献
在信息化战争条件下,战时财务保障要求快速反应,实施高效精确的保障。我军财务保障应在单一的后勤保障模式下打造精确化保障建设平台,实现"模糊保障"向"精确化保障"的转变。
《西厢记》与《牡丹亭》中的两梦——"草桥惊梦"和"游园惊梦"分别借剧中人物张生和丽娘之梦表达出创作者强烈的主观情感和思想境界。"草桥惊梦",张生之情起于梦而止于梦;"游
土壤墒情是反映旱情最直接的重要指标,土壤水分是植物水分的直接来源,决定着植物的生长状况的好坏,因此测量土壤水分有着重要的实际意义。近年来,随着抗旱工作的全面深入开展
新疆是四大文明和三大语系的交汇之地。自古以来,各民族之间频繁的政治、经济和文化交流极大地促进了语言的接触,为语言接触研究留下了丰富翔实的语料。文章以时间为主线,对
网络文学的存在方式源于"比特赋型"的技术功能。从原子到比特的媒介转换催生了文学本体的媒介置换,创生了全新的文学家园。比特复制、比特变形和比特速递让文学生产、作品存
论述了国内外钾资源分布的不同特点,对比分析了国内外钾资源开采、加工和综合利用的技术水平,并提出了提高我国钾资源综合利用水平和保障能力的建议。
本文从我国加入WTO后所面临的实际问题着手,强调我国农产品在走向国际市场中应用关税和非关税壁垒的出发点.在此基础上,提出我国应用关税和非关税壁垒的对策建议.
<正> 同志们:这次全省政务工作会议是省政府决定召开的一次重要会议。会议的主要议题是:贯彻省政府全体会议精神,研究和探讨如何加强政府系统办公厅(室)之间的联系,改进和加
股东尤其是小股东权益的保护是公司法的核心问题。本文首先分析了小股东权益受侵害的表现及其保护的必要性;然后着重从完善小股东权利、扩大其股东权实现途径,建立对大股东的
理论上来说,认定上市公司内幕交易的实质,关键在于确定开始和结束的时点,即内幕信息敏感期。其中结束时点较易确定,通常表现为上市公司于证券交易所披露公告或者在指定媒体报