推特数据信息的查询扩展方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ahaulxg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,在全球各地每时每刻都在产生大量的推特数据信息。如何在这大量数据中去筛选满足用户需求的信息变得尤为重要,查询扩展方法在推文检索中广泛应用,可以有效的解决这一问题。查询扩展主要包含两个部分:一是筛选与原始查询词相关的推文作为语料库;二是筛选语料库中与原始查询最相关的词语作为待扩展词。传统查询扩展方法主要使用BM25算法,VSM算法以及TF-IDF算法等对原始查询和推文进行相关性比较,筛选出满足用户需求的推文作为语料库。这种方法存在两个不足:一是含有较少查询词的推文被漏选,二是含有较多查询词的不相关推文被错误的筛选。针对此问题本文在以下几个方面进行研究和创新:(1)提出基于推文聚类的查询扩展方法,并对其进行设计和完成。该方法对筛选推文作为语料库这一过程进行改进,并将传统的逐条推文与原始查询词进行相关性比较的推文筛选方法进行优化。该方法先对推文进行聚类,根据与原始查询词的相关性对聚好类的推文进行筛选,得到的推文集合包含了相同语义的所有推文。再比较推文类与原始查询的相关性,筛选出最满足用户需求的推文类。这一方法很好的解决了含有较少查询词的相关推文被漏选的问题。该方法对比BM25算法对两种不同的查询扩展方法在平均准确率(mAP)上分别提升了11.4%和12.0%,比VSM算法分别提升了14.9%和15.3%,比TF-IDF算法分别提升了15.8%和13.7%。(2)提出基于主题划分的查询扩展方法。通过对不相关推文中含有较多查询词而被筛选这一主题偏移问题进行改进,使得含有查询词的不相关推文被有效的过滤。该方法将推文进行主题划分,筛选出满足用户查询的主题下的推文集合作为语料库,有效的去除了含有查询词但并不属于该主题的推文。该方法对比BM25算法对两种不同的查询扩展方法在平均准确率(mAP)上分别提升了13.2%和13.9%,比VSM算法分别提升了16.7%和17.3%,比TF-IDF算法分别提升了17.7%和15.6%。(3)经过分别对主题划分方法和推文聚类方法在查询扩展中的应用进行测试。本文对两种查询扩展方法的优缺点进行分析,发现结合使用两种方法对检索指标有着更高的提升。
其他文献
随着经济的高速发展,人们的生活水平也得到大幅度地提高。由于我国正处在一个社会转型期,竞争压力加大、工作节奏加速,使得亚健康人群数量急剧增加,人们也更加重视自己的身体健康
学位
网络中拥有决策权的实体各自通过改变策略优化自己的目标,并影响其他个体的策略选择。为研究该场景下的资源分配问题,一种研究方式是将其建模为博弈模型并研究其均衡点。本文
自2010年起,立体显示技术再一次受到人类的关注,并在几年内得到迅速发展。但与此同时,其显示质量、立体感以及观看舒适度始终不尽人意。其中阻碍立体显示技术普遍应用的一个重要
学位
随着智能终端的广泛使用与移动互联网业务在各行业中的渗透发展,移动通信业务流量快速增长,从而导致了频谱资源的极度紧张和通信系统能耗的大幅增加。为此,5G技术提出将绿色通信
物体检测是计算机视觉研究领域里一个非常基础但极富挑战性的课题,与计算机视觉中的许多研究内容联系紧密。物体检测拥有广阔的应用背景,是基于内容的图像检索、视频监控、物体
实际工程应用和科学研究中,许多问题具有约束性、复杂性、多局部极值、非线性和建模困难等特点,寻找适用于各种不同需求的新型智能优化方法一直以来是很多专家学者的一个重要研
学位
设置在海岛,山区,偏远乡村等地的通信基站市电供应不便或供电状况不稳定,一般采用大容量蓄电池为其供电。但是,由于蓄电池供电持续时间短,放电过深会导致蓄电池寿命减少,故需用一台