【摘 要】
:
本文讨论了搜索引擎的组成及工作原理,针对目前搜索引擎不能适应多粒度查询要求及查询准确率较低的现状,提出了一种基于网页自动分类的搜索引擎设计方案,针对网页自动分类、网页
论文部分内容阅读
本文讨论了搜索引擎的组成及工作原理,针对目前搜索引擎不能适应多粒度查询要求及查询准确率较低的现状,提出了一种基于网页自动分类的搜索引擎设计方案,针对网页自动分类、网页排序系统、适应用户不同的查询粒度要求几方面进行了讨论。 网页是一种超文本文档,其中含有文本信息和很多超文本标记等结构信息。本丈设计了一种综合利用网页文本信息和结构信息进行分类的网页分类器,作为搜索引擎中网页分类的模块。这种分类器的算法既考虑了分类的准确性又兼顾了运算效率。 如何把最有价值的信息显示在搜索结果的前列的网页排序算法是搜索引擎研究的重要方面。为了适应用户不同的查询粒度要求,本文改进了PageRank算法的计算方法,通过建立一个对所有网页的分类框架,在不同的分类中分别计算对类别偏置的PageRank值,使查询可以在不同大小的类别中进行,并使结果在类别内排序,最后对结果根据用户指定的查询粒度进行处理和显示。 最后,本文提出搜索引擎的返回结果应该去除网容重复网页,即通过对比,把搜索结果中内容完全相同的网页排除掉。
其他文献
本文研究的主要内容是如何利用Full Proxy解决方案实现NGN业务流的NAT/FIREWALL穿越。文章首先分析了Full Proxy穿越方案相对于其它穿越方案的优势和不足,然后深入研究了Full
获得理想的生产技术指标对于高炉炼铁的意义不言而喻。它意味着高产、节能、成本低、炉龄长等;同时它也是评价煤气流分布状况好坏的重要标准。因此探讨如何通过对高炉操作制
国家基础设施(National Knowledge Infrastructure) 不仅集成了各学科的公共知识,而且还融入了各学科专家的知识,其目标是建立一个大型的可共享和可操作的知识群体,为科研、教学
事务是健壮的应用程序开发所必需的一种关键性服务,是一种编写健壮代码的高级规范。运用事务处理,可以让关键性任务安全稳定地运行于企业级环境中。事务具有原子性,一致性,隔
伴随着Internet 的普及,电子邮件以其快捷、方便、低成本的特点日益得到了广泛的使用,成为了最流行使用的沟通工具之一。然而,作为其发展的副产品――垃圾邮件,却给Internet
数字水印技术作为信息隐藏理论的一个重要分支,是目前信息安全领域一个新的研究方向,在数字作品版权保护领域将会发挥重要的作用。作为数字水印技术的基础,数字水印算法一直
目前网络正朝着业务融合、网络融合与技术融合的方向发展,其中IP网络和电信网络的融合已经成为不可阻挡的趋势。 本文对软交换系统中媒体控制的研究与实现进行了研究。文章
随着软件形态从基于实体驱动向基于协同驱动的转变,研究城市交通指挥系统中软件实体间的协同模型,提取面向城市交通领域、支持协同工作的可复用软件构件和框架,正是本文的研
参与诸多种类有机体生命过程的蛋白质相互作用(Protein-protein interactions, PPIs)是解开生命奥秘的关键。随着科技的发展,生物实验所证实的PPIs数据不断积累且PPIs预测方
为了缓解交通压力,目前我国各大城市轨道交通建设正在以惊人的速度迅猛发展中。 城市轨道交通路网的建设过程中会涉及到不同的投资方、建设方和运营方,而且,随着路网规模