基于文本理解的伪相关反馈

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:Jiang0596
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息资源的海量增长,提升了用户获取资源的可能性。但信息的过载,同时也降低了用户获取有用资源的可能性。随着时代的变迁,用户在整个检索行为过程中,其潜在信息需求呈现出从单一性演变为具有多变性、多层面性和多义性的特征,并且对于信息资源的品质要求不断提升。但是与此同时,用户对于其信息需求的构造方式却保持不变,仍以短查询为主。另外,待检索文本内容却是相对稳定和固定的,使得这种用户信息需求强调的高质量和用户查询构造结果的低质量之间的矛盾越来越尖锐,给文本检索中的相关性研究带来极大的挑战。就文本检索中的伪相关反馈(PseudoRelevance Feedback,PRF)技术而言,如何分析和提高反馈源质量,即伪相关文档(pseudo relevant document)中与用户查询更相关的信息尤为重要,是提升PRF鲁棒性的核心问题。其中,对文本的分析和理解,即文本的表示或建模方式是实现文本间相关性研究的关键。本文工作将以文本理解为基础,围绕提高反馈源质量方法、减轻“查询偏移”现象为主旨,研究PRF中的若干问题。具体工作内容如下:  1.针对PRF中,由于伪相关文档内容(或主题)冗余及语义相对单一,加剧了“查询偏移”现象。为了缓解这一问题,本文利用复杂网络实现文本理解,研究在文本网络关键节点评价过程中,考虑网络中节点之间信息缺失和不确定性的影响,提出强度熵概念评估、量化和识别文本网络中的关键节点,通过文本内容词项之间特定的关联关系实现文本关键词的抽取,识别伪相关文档中的关键词。进一步地,通过融入隐式查询结果多样化的思想,从用户多层面信息需求角度出发,抽取和构建伪相关文档集,提出一种基于文本关键词质量的PRF方法。不仅提高了文本的标引能力,还达到了改善反馈源质量的目标。  2.针对传统PRF将文档作为反馈源最小单元提取扩展词,提取粒度简单粗糙,使得反馈源质量下降,检索结果鲁棒性差,存在查询性能过度依赖于伪相关文档质量的问题。研究利用文本内容分析技术,尝试将文本语义内容看作待区分单元,将抽象的文档内容表征文档,即用伪文档来表示文档内容作为反馈源,缓解反馈源质量不高的问题。在伪文档中寻找与用户信息需求更加符合的语义层面的体现,实现了从更细微的粒度来提取扩展词,提出了一种基于伪文档的PRF方法。  3.针对主题内容分析中,存在词项词频对主题建模影响的问题,使得主题建模结果不能很好地体现建模数据集的本质,即高频词对低频词在主题建模中的负面影响,使得低频词无法完成表达文本语义的能力。提出利用特定的新闻语料中富含的标题信息对主题模型进行优化的方法,以提升低频词的表达能力,增强主题建模结果对文本语义表达的区别性和特征性能力。
其他文献
随着中国电信业改革的深入和信息技术的飞速发展,电信企业的管理理念已逐渐由传统的“以信息为中心”转化为以“以客户为中心”。因此,有效利用数据挖掘技术对电信企业海量的
视频镜头分割及关键帧提取技术是基于内容视频检索的核心问题之一,可有效地用于对互联网上海量无序的视频数据进行管理,具有非常重要的理论意义和应用价值。   本文对视频镜
现代农业是精准化的、信息化的农业,将无线传感器网络(WSN)、机器视觉、图像处理和数据挖掘等应用于作物长势的监测及生长环境与作物长势的相关性分析上具有重要的研究价值。
目前,由于传统的基于文本的搜索引擎如百度、google无法准确的搜索出满足用户需求的图像,因此基于图像内容(常用的图像的内容特征有颜色,纹理,形状)的检索就由此发展起来,并
视频中的人脸识别技术以及运动目标分割技术作为计算机视觉和模式识别中的重要研究领域,具有重要的理论研究价值和实际应用价值。利用视频中人脸的时间和空间信息是一种能够
随着智能交通系统的蓬勃发展,车牌识别作为其中的核心技术,其重要性日益攀升。尽管已经有一些商用车牌识别系统投入使用,但多数都是受于某种限制条件下的,例如限定的场景、光
在机会网络中,现有的路由协议都是假设节点积极地参与消息的投递,但是在真实场景中节点可能采取不合作的方式,即表现出自私行为。节点的自私行为对消息的投递造成较大影响,使
行为感知在健康看护、智能家居以及健身训练等应用中扮演着重要角色。其中,每年室内跌倒会造成世界上将近40万的死亡人数,因而室内活动识别逐渐受到学术界和工业界的密切关注
决策是人类的基本行为,它和人们的日常生活息息相关。从生活中自然人的各种抉择,到工作中企业的商业战略、发展规划,乃至国家的安防措施、外交、经济等,都存在着决策。区间直觉模糊多属性决策是决策理论中的一种。它使用区间直觉模糊数中的隶属度、非隶属度和犹豫度(三维一体数据)来描述模糊信息,具有强大的表示能力,而决策问题和决策者自身的模糊性也决定了该类决策能够更贴近人们的思维习惯。因此,该类决策方法在学术界和
由于无线传感器网络中节点通信信道共享、能源有限等特点,干扰现象普遍存在,节点失效时有发生,干扰和节点失效对网络性能产生严重影响。拓扑控制技术是一种协调网络中节点间