论文部分内容阅读
21世纪以来,互联网技术日新月异,蓬勃发展,网络信息丰富多彩,人们在互联网上准确的查找所需信息显得越来越重要,检索系统需要快速准确的将相关度最高的文档返回到结果列表前列,但是目前的文本排序方法更多的是通过词频、逆文档频率等指标从词的角度进行相关度排序,这样就忽略了文档的内在结构和潜在信息。潜在的狄利克雷分布模型是一种完全生成式的主题模型,利用该模型对文档集进行建模能降低文档维度,从主题的角度挖掘文档信息。本文首先分析了近年来通用的信息检索模型,比较各个模型计算查询词和文档的相关度的方法,并着重研究了概率主题模型的数学思想,通过对其参数设置的分析,比较各个主题模型的应用区别,同时分析了当前中文信息处理领域经典的语义相关度计算方法。本文提出了一种基于LDA模型的文档排序方法,该方法利用“文档—主题”概率分布矩阵和“主题—词项"概率分布矩阵获取词项对文档的表征能力,从主题角度研究信息检索技术,解决了影响文本检索效果的数据稀疏和词语歧义性等问题,有效提高文本检索的准确性。本文提出了一种基于双重扩展的文档排序方法,该方法首先将查询词在语义指纹库中映射得到扩展词,再利用LDA模型对查询词和扩展词的网络百科信息进行建模得到主题下的相关词集合,最后对查询词和扩展词的相关词集合进行线性加权计算得到语义相关度。该方法解决了对单一关键词扩展容易出现的信息不足问题。最后将扩展词群的语义相关度作为查询权重,应用于扩展检索实验中,验证方法的有效性。通过在NTCIR5语料上进行实验,利用TREC评测工具得到准确率和召回率的指标,实验结果表明基于双重扩展的文档排序方法ELDA获得了更高的MAP和P@N指标,证明了本文通过LDA模型挖掘内部文档信息,同时引入语义指纹知识获取语义相关度的方法的合理性和有效性。