网络搜索中用户搜索意图发掘的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:jingkewang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对互联网上呈爆炸式增长的海量数据,搜索功能已成为网络应用中不可或缺的一环。用户在进行网络搜索时,会向搜索引擎提交一个“查询”来表达他们的信息需求,搜索引擎通过计算,把那些与查询相关度高的结果返回给用户。查询通常是文字形式的,由一些关键词组成,由于每个关键词都可能包含多重含义,查询本身可能存在歧义。另一方面,用户趋向于提交简短的查询,而不是用较多的词来详细、清楚地描述他们的需求,这又扩大了查询涵盖的内容范围。因此,即使是用户自己提交的查询,有时也不能准确地表达他们心里真正想要的内容,这进一步提高了搜索引擎返回符合用户需求结果的难度。为了解决这一问题,我们需要发掘用户对于一个模棱两可的查询不同的搜索意图。在获取用户意图后,搜索引擎就能据此调整搜索结果的先后位置或整体布局,提高搜索性能,改善用户体验。   本文的研究内容为发掘文本检索与图像检索中的用户搜索意图。主要创新点在于提出挖掘用户搜索时的两种点击信息(即点击内容信息和点击序列信息)来发掘用户搜索意图,并提出两种策略(即重采样策略和半监督策略)将这两种信息有效地结合起来。具体的创新性研究成果包括以下三个方面:   首先,本文提出一种文本检索中的用户搜索意图发掘新方法。用户在搜索时的点击信息代表了用户的反馈,如何对其中的有用信息进行充分挖掘成为了首要问题。本文提出同时挖掘利用两种点击信息来发掘用户的搜索意图,即用户的点击内容信息和点击序列信息。点击内容信息为用户点击过的文档自身的文本信息,点击序列信息指包含在同一点击序列中的文档相互间的相关性信息。然后,在如何描述点击序列信息这个问题上,本文提出“反馈序列”的概念,不但考虑了用户点击过的文档,还考虑了部分未点击的文档,从而更准确地把握住用户需求什么和不需求什么。接着,为了将点击内容信息和点击序列信息有效地结合起来,本文提出“目标文档”的概念和一个优化算法,将用户的反馈序列映射为目标文档(重采样策略),表达了单个用户的信息需求。最后,用户意图个数的确定也是难点之一。本文提出了“分类平均准确率”的评估方法来评价用户意图发掘的好坏,从而确定每个查询最优的用户意图个数。基于雅虎数据的实验结果证明了我们的方法能有效地发掘出文本检索中的用户意图。   其次,本文提出一种图像检索中的用户搜索意图发掘新方法。现有的图像搜索意图发掘方法主要是基于图像外部文本信息的,考虑到这些外部文本不一定可靠且不一定可获取,本文提出基于图像视觉信息来发掘用户的图像搜索意图,即把用户点击过的图像的视觉信息作为点击内容信息。然而图像的视觉信息与语义内容间存在语义鸿沟,要跨越这一语义鸿沟是一大难题。本文提出利用用户的点击序列信息来弥补这一鸿沟。为了将图像视觉信息与点击序列信息这两种完全不同的信息有效地结合起来,本文提出“目标图像”的概念和新的图像特征融合方法,把用户的点击序列映射为目标图像,表达了单个用户视觉上的信息需求。最后,在确定图像检索中用户意图个数的问题上,本文提出基于“用户不同意”的评估方法来评价图像搜索意图发掘的好坏,以此确定最优的用户意图个数。实验结果证明了我们的方法能有效地发掘出图像检索中的用户意图。   最后,本文提出半监督策略来结合图像的视觉信息和用户的点击序列信息,从而发掘图像检索中的用户意图。通过以上两种信息,我们可以得到两种图像间的相似度描述,这两种相似度不能简单地相加,如何实现多相似度下的聚类成为了难点之一。本文提出将用户的点击序列信息作为一种半监督信息来指导我们对用户点击过的图像进行聚类,从而很好地解决了这一问题。代表不同用户意图的类在图像视觉特征空间上的形状是任意的,而很多传统的聚类方法如K均值聚类只适用于球型簇,这给聚类方法的选择带来了很大的限制。本文提出采用谱聚类方法来对图像进行聚类,既解决了任意簇形状的问题,又使得在利用不同相似度描述时更为灵活。基于百度数据的实验结果证明了我们的这一方法同样能发掘出准确的用户搜索意图。
其他文献
人脸识别技术是模式识别和计算机视觉领域的一个重要研究课题,在信息安全、刑事侦破、出入口控制等领域具有广泛的应用前景。但是,在现实视频环境中,由于成像条件的限制、光照变
车联网能够增强交通安全、提高城市交通效率以及提供各种与位置相关的信息服务,是一个具有巨大发展潜力的新兴领域。由于车联网中节点的移动受道路限制,加之移动速度快导致网
分布式系统,是指以分散的方式用分布的资源完成同一功能(包括对等计算、文件共享等)的系统。网络需求的多元化、应用和服务的复杂化要求越来越多的业务在分布式系统上进行。
子网移动(Network Mobility, NEMO)是为了管理一组节点同时移动而提出的概念。随着车载网络、个域网等应用的快速增长,NEMO技术备受关注。本文以国家重大科技专项“移动互联
调制信号识别在多种民用和军用领域中扮演关键角色,如认知无线电、频谱监测等。在实际无线通信中,多径信道会引起信号的失真,信号识别变得更有挑战性。正交频分复用(OFDM)在
全光可调时延线是光信息处理领域的热点技术之一。本文提出了一种新颖的oc型全光时延线结构。此时延线主要由高非线性光纤、色散补偿光纤和滤波器组成,利用高非线性光纤中的
随着移动通信技术的快速发展,人们对移动通信业务的需求也呈现出爆炸式的增长,移动通信也逐渐成为人们首选的通信手段。MIMO技术作为新一代无线通信的主流技术之一,已经在标准化
随着我国高速铁路的飞速发展,目前国内高铁运营里程已经跃居世界第一位。在列车速度的提升给人们的出行带来了极大的方便的同时,对高速环境下列车上通信服务的种类和质量要求也
眼底图像的血管分割对糖尿病的分析和诊断至关重要,其结构特征的变化可以直接反应糖尿病的病变程度和治疗情况。眼底图像血管是眼底图像中可见的最稳定和最主要的结构,当眼底发
低密度格码(Low-Density Lattice Code),简称为LDLC,是一种基于欧几里德空间的连续信道下的差错控制编码方法。与LDPC码相同的是,其同样具有稀疏的校验矩阵,可以利用迭代译码