论文部分内容阅读
随着互联网、数字图书馆以及其它信息资源的快速发展,异构形式的数据项正快速遍布于全球范围的特定的节点中,这些节点相互连接形成分布式处理系统。如何从信息的海洋中以较低的时间开销、较高的精准率和召回率提供给检索用户所需要的信息是一个极富有挑战性的问题。在信息检索(Information Retrieval,简称IR)领域,从空间上分布的数据服务器中检索数据就是分布式信息检索(Distributed Information Retrieval,简称为DIR)。DIR需要解决两个主要问题是资源选择和结果融合。文本相似度计算技术研究的是如何计算或比较两个文本的相似性,是在语言学、心理学和信息理论等领域内被广泛研究的一个重要课题,也是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题,是自然语言处理的一项基础技术,也是复制检测、新颖检测和信息过滤研究的重要内容。提高计算的精准率和召回率是文本相似度计算方法研究的出发点和目标。如何在分布式环境下尽可能快速、准确、全面地检索到相似的文本,是本文研究的主要内容,主要研究工作包括:(1)分布式信息检索的资源选择研究。资源选择又叫服务器选择、集合选择、数据集选择或数据库选择,是分布式信息检索中的一个基本问题。本文考虑到不同的数据资源(数据集)之间存在的覆盖问题,基于集合覆盖理论,针对提问Q的检索结果在融合排序后位置的不同,对其赋以不同的权值,用来计算该项检索结果对其所在的数据集的贡献。若检索结果在先选的数据集中出现过,,则不再计入后选的数据集得分内。通过加权求和得到待选数据集的得分,从而确定资源选择的先后顺序。由此优选出的资源集合可用于检索与问题Q同类或类似的提问Q’,缩短由于数据库之间的覆盖而重复检索的时间。(2)构造适于文本相似计算的混合核函数,并将其应用在DIR结果融合。基于改进的潜在语义核(LSK)和复合方差核(ANOVA)构建了新的复合核(CLA核)用于计算文本相似度。此外提出一种新DIR融合方法,通过直接计算检索结果和提问之间相关度来对检索结果进行融合研究。将构造的新复合核用于DIR结果融合,实验结果表明:CLA核的融合精度和召回率分别仅略次于LSK和ANOVA核,但其综合评价指标F1优于其它核;其融合精度比经典的算法Round-robin、ComMNZ、Bayesian、Borda、 SDM、MEM和regression SVM等分别提高了16.79%、30.73%、20.37%、24.17%、14.25%、13.50%和7.53%。CLA核具有较好的融合表现,适用于DIR结果融合。(3)构造全新的文本相似度计算核函数,并将其应用于DIR结果融合中。为了进一步提高文本相似计算的表现,构造了全新的核函数S_Wang核函数。结合文本相似计算过程中的具体实际,将待比对的文本表示成向量,考虑通过两向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新的核函数。并根据Mercer定理证明了所构造的函数可以作为核函数。实验验证了新造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核,潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。(4)分布式信息检索评价方法研究。资源选择和结果融合是DIR研究的两个主要步骤。检索的时间开销、精准率和召回率是IR也是DIR检索的三个主要指标。本文提出一种基于多变量的偏微分方程模型,从拉普拉斯方程出发,提出针对DIR的资源选择和结果融合的时间开销、精准率和召回率三指标的评价方法。实验评价了多种现有的资源选择和结果融合方法,验证了模型的有效性。基于50个主题的TREC实验结果表明该多变量偏微分方程模型在DIR评价方面有很好的表现和实际的应用。