【摘 要】
:
随着互联网技术的迅速发展,web信息爆炸性地增长,互联网已成为海量信息空间,搜索引擎解决了海量互联网资源的快速定位和检索问题,在网络时代发挥了巨大作用,成为人们在信息时代不
论文部分内容阅读
随着互联网技术的迅速发展,web信息爆炸性地增长,互联网已成为海量信息空间,搜索引擎解决了海量互联网资源的快速定位和检索问题,在网络时代发挥了巨大作用,成为人们在信息时代不可缺少的工具。
但通用搜索引擎的结构越来越复杂,通用搜索引擎拥有庞大的索引数据和宽泛的主题,搜索结果越来越无法满足对信息精确查找的需求。在这种情况下,垂直搜索引擎应运而生。垂直搜索引擎是针对特定领域和问题,通过专题网络爬虫自动抓取相关信息并建立索引,为用户提供有效信息和相关服务。
本文从理论和实践两个方面对垂直搜索引擎关键技术和算法进行了研究。
论文阐述了垂直搜索引擎的研究背景,进行垂直搜索引擎研究的必要性。全文以垂直搜索引擎的设计为主线依次对垂直搜索引擎的基本原理和体系结构进行了分析,深入探讨了垂直搜索引擎的关键技术。对垂直搜索引擎的基于内容和基于链接的相关性分析算法进行了深入剖析,指出了各自的优点和不足。为充分利用其优点,根据两者相结合的设计思想,设计了基于内容和基于链接相关性分析相结合的专题网络爬虫搜索策略。针对垂直搜索引擎的特点,论文论述了系统的设计思想并对系统框架进行了设计,并详细讨论了专题信息抓取模块、预处理与索引模块和查询模块等的实现方法,最终实现了一个面向能源的垂直搜索引擎系统,并对其功能和性能进行了测试和分析。
其他文献
在大数据时代,我们正步入一个由数据驱动的经济社会,是否能够高效地、及时地分析海量数据变成了一个产业成功与否的重要前提。在海量数据处理环境中有很多需要在流式数据上进
三维计算机模型在逆向工程、计算机辅助设计以及计算机图形学等领域得到了广泛的应用,为产品的快速开发创造了条件。近年来,数字测量设备的快速发展使得我们能够直接得到物体
现有的医学技术对于一些特殊疾病比如帕金森的诊断还不是十分准确。尝试找到一种新的行之有效的辅助医疗诊断的方法应用于具体医学病例,确保现有诊断的准确性,进而推广这种思
近年来,随着移动设备计算能力增强,无线通信技术,无线定位技术以及微型传感器普及,如何为移动用户提供最适合的个性化的信息服务(已经成为新兴的研究热点。传统的信息服务是
分类是机器学习的重要任务之一,传统的分类方法有一个默认的假设,就是数据集中各类别所包含的样本是均衡的,故传统的分类方法都是以提高数据集的总体准确率为目标的。但是在
随着城市化进程的加快,许多城市开始修建地铁。地铁中需要配置监控系统,用来监控地铁的运行环境。由于监控系统集成越来越多的子系统,其依赖的网络规模逐渐增大,网络管理也逐
在计算机领域中,软件的发展相对滞后于硬件的更新是一个长期存在的问题。而当人们迈入多处理器、多核心时代时,该问题变得更加严峻。特别是在多核的模拟器方面,虽然各大厂家
本研究课题来源于国家自然科学基金资助项目“典型事件过程建模的研究”。事件时序关系的研究目的是建立事件之间在时间上的先后顺序关系,事件时序关系的研究在文本分类、问
随着计算机和网络Internet的迅猛发展,从海量的信息资源中精确地获取信息变得越来越困难。海量信息中有很大一部分是以短文本的形式存在,同时短文本也是人们在日常生活中所必
近年来网页恶意代码由于其隐蔽性和危害性,逐渐成为网络安全热点。传统的恶意代码检测技术主要有特征码检测法、启发式检测法等,这些技术对于检测已出现的病毒非常有效,但是