两种适用于中文信息搜集的URL散列函数的研究

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:ajimide001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了适应Internet信息量的快速增长,搜索引擎采用分布式技术搜集信息.采用分布式搜集技术的具体应用中主要存在两个关键问题:URL匹配和系统负载平衡.针对现有的几种分布式信息搜集系统的设计中存在的一些不足,提出了利用URL分级散列进行定位和匹配的方法.根据中文网络信息的特点,分析了几个对字符串散列较好的函数,设计了两种URL散列函数,应用于分布式中文信息搜集系统中.实验表明,系统在减少URL匹配的资源消耗和提高系统负载的均衡性方面有很好的效果.
其他文献
软件构件库作为构件复用的基础物质仓库,扮演了极为重要的角色,而可复用构件的表示、分类、检索是构件库的关键。本文在构件库系统的构件分类与描述方案的选择设计中,分析了构件
介绍了SQL Server 2005数据挖掘平台及其功能,较详细地给出了SQL Server 2005数据挖掘过程,论述了基于SQL Server 2005的数据挖掘技术在石油储运信息中的实现。通过对石油储运
二叉查找树是数学建模、算法分析中常用的数据结构。函数式语义具有无副作用特性与类型高度抽象能力,用其表达数学模型简练明了。本文采用属于函数式语义的类haskell伪码实现
无论在自然语言处理还是在机器翻译中,中文自动分词都是一个重要的环节。歧义字段切分是中文自动分词研究中的一个“拦路虎”。在分析基于规则和基于上下文的歧义字段切分策略
垃圾邮件是Internet上面临急待解决的问题。Naive Bayesian算法由于其简单高效性在文本分类中应用较广,重点阐述了Naive Bayesian算法在基于内容的垃圾邮件过滤中的应用,并在Li
概念模型是在信息系统需求分析过程中,对论域现象的形式化表示结果。概念模型的质量状况对信息系统开发项目的质量保证工作具有重要的作用。本文在总结现有研究成果的基础上,从
本文用电阻法对Fe3Al使合金在连续加热过程中的有序转变进行了研究。并探讨了合金化元素Cr、Mn及合金加热次数的影响。结果表明,Cr、Mn对Fe3Al合金的有序化转变有延缓作用,并且这种作用与合金元素
统一过程是目前主流的软件过程方法,它强调用例驱动、架构优先和迭代式开发,但它的缺点也很明显:文档庞大。对UML的要求,各种建模对开发速度的降低。极限编程是新出现的最著名的
本文介绍了镍氢二次电池的特性以及锆基AB2型Laves相合金的晶体结构,多元合金化对锆基贮氢材料的热力学性能和充放电容量以及电极循环寿命等电化学性能的影响,同时指出表面预处理和多元
本文提出了一种新的基于资源抽象的角色访问控制模型(PARBAC):它在对角色授权以及实现系统安全策略的过程中,通过对资源的二次抽象,有效的减少冗余角色,降低管理复杂度;并在高校管理