时间感知的微博检索技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hunterring1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0设计理念的普及和技术的不断成熟,“以人为本”的网络模式逐渐成为当今互联网的主流,微博是其中具有代表性的应用之一。面对着海量的微博数据,微博检索已经成为用户在微博平台中提取个人所需信息的重要手段,针对微博检索的研究已经是近年来信息检索领域的热点之一。  微博检索属于文本检索的范畴,但是作为网络中的新型数据,它又表现出不同于传统文本检索的特点。一方面,微博文档相对于传统文本具有很多新特征,例如微博文本具有字数限制(通常不超过140个字);内容中包含有特殊意义的标签#和@等。另一方面,多数微博查询具有时间敏感性。时间敏感查询是指当用户查找的话题具有时效性时,用户输入的与当时实时背景相关的查询,比如对热点事件的搜索等。传统的信息检索方法仅考虑了查询与文档的语义相似度,不足以很好的处理这类型查询。在相关技术中融入时间因素是目前典型的解决手段之一,统称为时间感知的检索技术。综上所述,与传统检索相比,微博文档和微博查询具有不同的特点,给微博检索研究提出了新的问题和难点。  本文将从微博检索与传统信息检索的不同点出发,以信息检索过程为主线,分别对文档先验、文本表示、查询扩展三方面进行深入研究,并提出了新的检索模型,主要的贡献和创新点如下所示:  1.MTLM-一个基于高频时刻的混合语言模型。在统计语言模型的背景下,融入时间因素的代表性工作是定义文档的时间先验,主要分为与查询无关和与查询有关两种做法。这两类方法都基于“时间越新文档越重要”这个简单假设。然而,通过统计观察发现,多数微博查询的大部分相关文档并没有分布在最新时刻,也就是说提高最新时刻的文档重要度可能会对微博查询带来反作用,由此表明这一假设并不适合所有查询。因此本文定义相关文档分布突出的时刻为查询高频时刻(High-Frequency Time),并提出HTLM(High-Frequency Time LanguageModel)系列模型。在此基础上,通过JM平滑方法融合文档的背景时间先验和查询时间先验,提出混合时间语言模型(Mix Timed Language Model,简称MTLM)。实验表明,HTLM模型的效果优于已有模型,混合模型相比单一模型进一步提升了微博检索的效果。  2.CTLM-一个融合聚类和时间的微博排序模型。通过对比微博检索和传统信息检索可知,微博文档属于短文本,不够丰富的信息量不利于构造准确的语言模型;同时微博文本中含有主题概括词(#标签,称为Hashtag),有利于确定微博与查询的相关程度;微博查询大都是时间敏感查询,在计算查询与文档的语义相似度的同时应该考虑时间信息。这三个特点对于微博搜索都非常重要,因此,本文针对微博文档的特征和微博查询的时间性提出了融合多因素的检索方法(Cluster& Time Language Model,简称CTLM)。具体地,本文使用聚类方法达到融合微博的Hashtag信息和对微博文本进行扩充的目的,通过定义文档的时间先验在排序模型中引入时间因素。实验结果表明,与原始检索模型相比,本文提出的方法具有更优的微博检索性能。  3.TSRM-一个利用时间序列信息的查询扩展方法。微博查询大都是时间敏感查询,在考虑时间属性的查询扩展研究中,大多数工作是以时刻为单位在扩展过程中引入时间信息的,并假设时刻之间完全独立。但是很显然时刻和时刻之间并非完全独立而是相互影响的。本文对微博查询进行分析发现,当扩展词与查询词相关时,二者在时间分布上具有一定的相似性,同时当扩展词与查询词不相关时,二者的时间分布具有较大的差异性。因此,本文基于词项的时间分布信息定义其时间序列概率,然后以相关模型为基础模型,提出三个利用时间序列信息的查询扩展方法(Time Series Relevance Model,简称TSRM)。实验结果表明,TSRM可以显著提高微博检索的性能。
其他文献
命名实体识别技术对机器自动翻译、问答系统、搜索引擎、信息抽取和文本分类等有重要作用。由于中文内在的特殊性质,识别难度大于英文。本文从数据源的角度出发,针对各种不同数
社会化问答网站随着Web2.0时代的兴起不断涌现,人们对社会化问答网站的关注也逐步提升。社会化问答网站融合了社交网站、百科类网站和传统问答网站的优点,它通过三大功能(关注话
学位
学位
学位
学位
如何进行合理高效的任务调度是云计算研究的重要问题。本文结合新疆电子政务云系统,针对如何提高云计算任务调度的效率和负载均衡的问题,做前期的研究和探索。本文在对云计算环
客户端缓存技术是优化各种分布式或集中式存储系统的重要技术手段,它具有降低客户端访问延迟、降低服务器负载、以及平滑数据访问行为的优点。SSD技术的迅猛发展进一步增加了
电子断层(Electron Tomography,ET)三维重构技术能够在纳米尺度下重构出不具有全同性的细胞或大分子的三维结构,已成为一种公认的研究复杂生物大分子结构的强有力手段。虽然电
现代高性能片上网络(Network on Chip,NoC)互连芯片设计日益复杂,面临性能、功耗、面积、开发时间、成本等诸多因素制约,往往设计需经过从体系结构层到物理实现层的多层迭代与优