文本相似度计算核函数的构造及其在分布式信息检索中的应用研究

被引量 : 4次 | 上传用户:zhexiu1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、数字图书馆以及其它信息资源的快速发展,异构形式的数据项正快速遍布于全球范围的特定的节点中,这些节点相互连接形成分布式处理系统。如何从信息的海洋中以较低的时间开销、较高的精准率和召回率提供给检索用户所需要的信息是一个极富有挑战性的问题。在信息检索(Information Retrieval,简称IR)领域,从空间上分布的数据服务器中检索数据就是分布式信息检索(Distributed Information Retrieval,简称为DIR)。DIR需要解决两个主要问题是资源选择和结果融合。文本相似度计算技术研究的是如何计算或比较两个文本的相似性,是在语言学、心理学和信息理论等领域内被广泛研究的一个重要课题,也是信息检索、数据挖掘、知识管理、人工智能等领域的基本问题,是自然语言处理的一项基础技术,也是复制检测、新颖检测和信息过滤研究的重要内容。提高计算的精准率和召回率是文本相似度计算方法研究的出发点和目标。如何在分布式环境下尽可能快速、准确、全面地检索到相似的文本,是本文研究的主要内容,主要研究工作包括:(1)分布式信息检索的资源选择研究。资源选择又叫服务器选择、集合选择、数据集选择或数据库选择,是分布式信息检索中的一个基本问题。本文考虑到不同的数据资源(数据集)之间存在的覆盖问题,基于集合覆盖理论,针对提问Q的检索结果在融合排序后位置的不同,对其赋以不同的权值,用来计算该项检索结果对其所在的数据集的贡献。若检索结果在先选的数据集中出现过,,则不再计入后选的数据集得分内。通过加权求和得到待选数据集的得分,从而确定资源选择的先后顺序。由此优选出的资源集合可用于检索与问题Q同类或类似的提问Q’,缩短由于数据库之间的覆盖而重复检索的时间。(2)构造适于文本相似计算的混合核函数,并将其应用在DIR结果融合。基于改进的潜在语义核(LSK)和复合方差核(ANOVA)构建了新的复合核(CLA核)用于计算文本相似度。此外提出一种新DIR融合方法,通过直接计算检索结果和提问之间相关度来对检索结果进行融合研究。将构造的新复合核用于DIR结果融合,实验结果表明:CLA核的融合精度和召回率分别仅略次于LSK和ANOVA核,但其综合评价指标F1优于其它核;其融合精度比经典的算法Round-robin、ComMNZ、Bayesian、Borda、 SDM、MEM和regression SVM等分别提高了16.79%、30.73%、20.37%、24.17%、14.25%、13.50%和7.53%。CLA核具有较好的融合表现,适用于DIR结果融合。(3)构造全新的文本相似度计算核函数,并将其应用于DIR结果融合中。为了进一步提高文本相似计算的表现,构造了全新的核函数S_Wang核函数。结合文本相似计算过程中的具体实际,将待比对的文本表示成向量,考虑通过两向量间的乘积和欧氏距离来描述向量之间的相似程度,从而构造了适合文本相似度计算的新的核函数。并根据Mercer定理证明了所构造的函数可以作为核函数。实验验证了新造的核函数在文本文档相似度计算中的表现,实验结果表明S_Wang核其相似度计算精度和综合指标均分别优于Cauchy核,潜在语义核(LSK)以及CLA复合核。S_Wang核适用于文本相似度计算。(4)分布式信息检索评价方法研究。资源选择和结果融合是DIR研究的两个主要步骤。检索的时间开销、精准率和召回率是IR也是DIR检索的三个主要指标。本文提出一种基于多变量的偏微分方程模型,从拉普拉斯方程出发,提出针对DIR的资源选择和结果融合的时间开销、精准率和召回率三指标的评价方法。实验评价了多种现有的资源选择和结果融合方法,验证了模型的有效性。基于50个主题的TREC实验结果表明该多变量偏微分方程模型在DIR评价方面有很好的表现和实际的应用。
其他文献
市场经济下的政府有效干预研究以运行市场经济的社会为研究背景,以政府干预理论为基础,在肯定政府干预的前提下,提出政府有效干预的命题。这一命题强调“有效”二字,是对政府
叶小纲的音乐人生跌宕起伏,在未来的岁月中,相信他还会继续践行把"中国故事"远播到世界各个角落的历史使命。
营销渠道是企业对外的窗口,企业通过渠道与客户建立交易关系,在激烈的市场竞争中,营销渠道已变得越来越重要。随着顾客需求逐步趋向个性化、多样化,营销渠道也随着顾客需求的
应收账款作为现代企业的一项重要流动资产,在我国一直以来都没有被很好的利用,其中的原因除了应收账款本身难以管理的特性之外,另一原因就是有关应收账款担保融资的法律制度
俄罗斯社会转型以来就深受腐败的困扰,尽管政府反腐力度不断加大,但反腐形势依然不容乐观。腐败成为制约俄罗斯经济和社会发展的一大顽疾,不仅在国内产生巨大反响,也在国际上
本选题是对两宋翰林图画院的制度研究,以此出发点分四部分展开讨论,第一部分主要论述宋以前的宫廷绘画机构、宫廷画家制度的存在情况,并由此进一步阐明宋代翰林图画院制度发展和
<正>她16岁走上讲台,绰号"小老师",先教语文再教数学,做了多年的班主任。她爱读哲学和儿童心理学类的书籍,她的数学课充满智慧和笑声,流淌着浓浓的人文情怀。她是受孩子们喜
<正> 山西太原西南四十餘里的古城營一带是晉中的名勝古蹟區,風景優美,歷代遺留下來的建築文物很多。古城營的西面靠山,東面臨水,右距晉祠十餘里,著名的、有北齊時代石刻的天
期刊
<正> 媒介帝国主义(Media Imperialism)用于表述大众传媒特殊角色的术语,来源于"媒介帝国主义"理论。 "媒介帝国主义"理论衍生于"传播与国家发展"理论的演变和发展过程中,是
<正>海绵城市的提出,源于突出的城市洪涝灾害。它是指城市能够像海绵一样,在适应环境变化和应对自然灾害等方面具有良好的"弹性",下雨时吸水、蓄水、渗水、净水,需要时将蓄存