基于Tag-LDA语义分析的全文检索方法研究

被引量 : 0次 | 上传用户:zhuyanhua421
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是一个以信息化、数字化和网络化为主要特点的时代,网络上的文本数据正在以一种前所未有的方式增长,如何在这信息海洋中查找到用户需要的信息,成为了信息检索技术亟待解决的难题。传统的信息检索系统根据用户提交的关键词对文档进行简单的匹配,这类方法获得的检索结果已经不能满足用户的要求了,原因有两点:第一,没有挖掘出文本深层次的语义信息;第二,查询关键词过少,无法表达出用户的真正意图。本文基于以上两点不足,提出了改进策略,利用标签主题模型挖掘文本语义和对查询语句进行扩展,具体如下:本文第三章提出一种基于向量空间特征转换的文本检索方法。由于基于知识库的语义指纹信息和通过标签主题模型挖掘出的标签语义知识是两种不同的表征方式,前者是显式的语义知识,后者是潜在的语义知识,虽然都是对文本语义特征的描述,但是它们表征方式不一样,不能直接融合,在这里我们引入向量空间作为桥梁,将语义指纹知识通过向量空间转换到标签主题模型空间中,然后获得能够兼容于标签主题空间的语义指纹信息,同时也用相关定理证明转换过程的合理性。将这个可兼容的语义指纹信息融入到标签主题模型中,得到新的主题模型语义标签主题模型。融合了语义指纹信息的语义标签主题模型对标签的语义信息具有一定的消歧作用,因此能够更有效地挖掘文本更准确的语义信息,从而提高检索效率。本文第四章提出一种基于初次检索结果查询扩展的文档重排方法,该方法利用标签主题模型来抽取目标文档的概念语义标签,利用初始检索文档的相关标签分布来表征查询主题。第一,对初始检索结果进行标签主题建模,得到“文档—标签”概率矩阵;第二,将前k篇文档视为与用户查询相关,将这k篇文档的标签分布作为一个初始标签分布集合;第三,利用维基百科上生成的概念关系图,过滤掉与查询主题无关的标签,得到一个新的标签分布集合来表征查询主题;最后,基于标签分布来计算查询主题与文档之间一个新的相关度值,再融合初次检索结果,得到最终的文档排序结果。该方法抽取了初次检索出与用户查询相关文档中的相关成分,过滤掉了噪音,更能表征查询主题的语义信息,从而提高检索效率。本文实验所采用的语料库是NTCIR-5,实验后利用TREC信息检索评测工具进行相关指标的测评。实验结果表明本文提出的这两种方法都提高了检索的查准率和召回率,也问接证明了挖掘文本语义信息和弄清查询意图对提高信息检索效率是非常重要。
其他文献
时光荏苒,岁月如歌。承载着丰硕的果实,胸怀着美好的愿望,《中国药物警戒》迎来了充满希望与挑战的第7个年头。在2010年新年之际,编辑部全体人员深深感谢各级领导的关心、各
期刊
隋丽战争是高句丽史的重要组成部分,而隋之首征高句丽自然更是重中之重。就引发此次东征的原因展开探讨,揭示"寇辽西"并非东征原因。东征实为隋丽关系发展之必然结果,其中既有
根据目的驱动原理,在目的驱动下的课堂教学更具有专业性、实践应用性和短板知识针对性。以茶包装外观设计课堂教学为例,在目的驱动下的包装设计课堂,与传统设计课堂有许多差
合理的联合用药能发挥药物的协同作用,减少不良反应及病原体耐药性的产生.不合理的联合用药不良反应增多,延误正确治疗.笔者在实践中发现阿乐欣与米力农配伍产生沉淀物,现报
目的:研究生活事件、应对方式、社会支持等应激有关因素与神经症患者压力反应的关系.方法:使用生活事件量表、特质应对方式问卷、领悟社会支持量表和压力反应问卷对88例神经
为了研究气隙缺陷导致电缆终端绝缘失效的机理,基于电场分析探讨了终端气隙的局部放电发展过程。建立了终端气隙缺陷的有限元模型并进行了电场理论计算,阐述了气隙对终端电场
水听器作为声呐设备的核心器件,能接收水下超声波信号。该超声波信号主要用来为船舶定位、测距和导航等。水听器一般安装于船舶等航海设备的底部,因此在进行水听器信号采集的
仄韵律诗既不是入律的古风,亦不能简单判定为古风式的律诗,它是近体诗歌体裁系统中特殊的一员。仄韵五律是仄韵近体诗中最早成熟的一体,其生成于六朝,定型于初唐,发展于盛唐,
随着现代科学技术的发展与网络的普及,互联网在给人们生活带来极大便利的同时,也暴露出负面的效应。近年来频繁发生的网络暴力事件给人们的网络活动和现实生活蒙上了一层阴影
交联聚乙烯(XLPE)电缆的半导电层缺陷诱发机理尚无定论。为此,在加速水树老化实验的基础上,观测了水树老化后电缆的内、外半导电层中的缺陷,并对这些缺陷的形成原因进行了讨