文档去重和信息检索评价方法的研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:hankeycncn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究表明,互联网中大约有30%的网页是冗余信息,即这些网页和其余70%的网页文档互为近似重复或完全重复。由于数字文档易拷贝,使得各种信息资源以飞快的速度在增长。信息检索的目的是从海量的文档集合中根据用户的需求检索出相关的文档,大量的冗余文档的存在,给检索系统带来了很大的挑战,降低了检索的性能。因此,文档去重逐渐地成为信息检索领域的一个热点课题。  传统的重复文档检测方法大都数是以单词或n-grams为单位提取特征,造成特征集合过于庞大。针对这个缺点,本文提出了以一个句子块作为文档特征的提取方法——SL+ST算法。把每个文档表示成句子长度序列,使用后缀树快速匹配公共子串。实验使用了两个TREC提供的标准英文文档集,并与三种经典的方法在有效性和效率两方面进行比较,实验结果表明SL+ST算法有着较高的效率和准确率。另外,SL+ST算法可以定位两个文档的重复内容,给出具体的位置信息,这点是其它使用单词或n-grams为单位特征的方法所不能及的,如向量空间模型和它的变体方法。  本文还针对具体的应用场景:发现问题和搜索问题,分别分析了SL+ST算法的运行机制。为了提高文档去重算法在处理大规模文档集的运行效率,提出了两种优化策略:减少计算次数和并行处理。通过对Jaccard相似度的分析,给出了文档相似的必要条件。另外,通过把文档集划分成多个子集,使得每个子集能够单独处理,使用并行处理的方法提高效率。实验分别分析了SL+ST算法在单机和并行处理时的运行效率。单机处理百万内的文档集时效率较高;并行处理时,实验发现随着计算结点的增加,运行效率提高的幅度越来越小。  此外本文还研究了信息检索中的一种特殊的评价方法。不同于传统的评价方法,主要是探讨如何采用较小的数据集合评价一检索系统的性能,然后据此估计其在更大的数据集上的性能。该项研究具有较强的现实意义。研究结果表明回归技术对此问题有一定的作用。
其他文献
随着网络技术的快速发展和普及,Web已经成为一个巨大的信息源集合,拥有着海量信息。Deep Web是由Web中可在线访问的数据库构成,具有信息量大、结构化程度高、领域覆盖全面等特点
随着Internet的深入发展,互联网上的用户数量和应用规模都急剧膨胀,这种爆炸性的增长所带来的一个严重问题就是网络拥塞。现今,拥塞已经成为一个十分敏感而重要的话题,而其控
随着2006年底保险业入世过渡期的结束,国内保险主体的增多,中国保险业面临着国外保险同行的激烈竞争。虽然保险业至2001年以来作为我国发展最迅速的行业之一,但是其保险密度和深
学位
随着Internet的发展,电子邮件以其经济快捷的特点,成为网络时代人们最基本最常用的信息交换手段之一。但电子邮件给用户带来便利的同时,也遭到了一些人的滥用,结果就是有大量
Agent技术是近年来飞速发展和广泛应用的一项技术,Agent是具有自主决策能力、相互协作能力和一定的智能性的自治实体,利用Agent可以解决Web服务等技术存在的功能单一,无法主
无线局域网(WLAN)的普及以及流媒体日益广泛的应用,特别是实时业务的迅猛发展,使得在WLAN上实现服务质量(QoS)有着迫切的需求。然而,由于信道接入机制的缺陷,WLAN一直难以提
本文从空天信息网的特点进行分析,分析论证了网络管理对空天信息网建设的重要性,从而在现有网络管理技术的基础上得出了空天信息网网络管理的功能需求,根据这些功能需求对网络管
随着硬件技术和计算机图形学技术的迅猛发展,越来越多的专家学者都致力于虚拟现实领域的研究。目前对于陆地场景中的植物仿真建模已经有了比较深入的研究,而虚拟水底环境中的动
本文选题来自江苏科技大学“船舶工业集团军贸基金”重点科研项目---舰船综合后勤保障系统研究。综合后勤保障(Integrated Logistics Support,ILS)在美、英等西方发达国家的军队