面向技术信息领域垂直搜索引擎的设计与实现

来源 :天津大学 | 被引量 : 0次 | 上传用户:leunggz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息资源呈几何级数增长,使用搜索引擎准确、快速的查找所需信息也变得越来越困难。主要原因有两个,一是传统的搜索引擎很难将所有的网络资源全都覆盖,做到面面俱到;二是查询结果通常都是成千上万条,真正有用的少量信息隐藏其中,让用户难以发现。垂直搜索引擎的应运而生,成为搜索引擎发展史上的一块里程碑。本文旨在研究垂直搜索引擎基本原理和架构,并实现一个面向技术信息领域的垂直搜索引擎,包括用于垂直搜索的网络爬行器技术,基于超链接的半结构化网页的挖掘,倒排索引及全文检索的实现等。主要分为四大方面的工作:1.桌面元搜索程序的实现,用于采集领域相关的网站网址;2.垂直搜索引擎爬行器的设计和实现。该爬行器和通用爬行器不同,首先它是领域相关的,只爬行领域相关的网页。另外,通过对超链接的分析,该爬行器选择爬行具有一定规范结构的网页,并进行自动分类,便于后续步骤的处理;3.网页的过滤及结构化信息的抽取。将爬行器所抓取的网页进行进一步的过滤,按字段提取其有效信息,将所有这些信息以XML形式存储在本地硬盘;4.倒排索引的建立以及检索接口的实现。寻找高效的数据结构建立倒排索引,以缩短索引建立时间和查询所需时间,系统支持各检索词之间的与或非等基本逻辑关系的组合查询以满足用户的高级检索需求,实现了实时反馈机制以使用户更快速的找到所需信息。技术信息所涵盖范围甚广,涉及到各个行业,有着很大的用户需求。本课题所开发的垂直搜索引擎将为用户提供全面而确切的相关信息,帮助用户不断迎接新挑战,抢占发展先机,做出正确决策。
其他文献
将无线局域网(Wireless local area network:WLAN)和网络语音技术(Voice over Internet Protocol:VoIP)结合起来的技术(Voice over WLAN:VoWLAN),是近几年来非常热门的研究课
随着Internet的发展,拥塞己经不仅仅是在传输链路上发生了。事实上,由于Internet的服务质量是端到端的,从用户到服务器的整个路径上,任何一点都可能成为瓶颈,包括网络、服务器端,甚
学位
随着数据库与计算机网络技术的结合,越来越多的政府、商业、金融等机构和部门将自己的数据库连接到Internet上,数据库受到的攻击越来越多,而传统的数据库防护技术已经不能适
随着计算机和互联网的普及,对软件的安全性和可靠性要求越来越高。安全软件工程通过在软件开发生命周期的各个阶段增加一系列的针对安全的关注和改进,以利于在开发过程中尽可
超分辨率是通过硬件或软件的方法提高原有图像的分辨率。利用一系列低分辨率的图像来得到一幅高分辨率的图像过程就是超分辨率重建。超分辨率重建的核心思想就是用时间带宽(获
ASON(Automatically Switched Optical Network自动交换光网络)赋予了传统光网络前所未有的灵活性和可扩展性,代表了下一代光网络的发展方向。对多种恢复机制的支持是ASON的一
移动电信市场中用户的争夺战愈演愈烈。特别是4G时代的到来,移动电信运营商们更是竭尽所能,可以说是无所不用其极。移动电信用户中集团客户作为具有强烈社会影响力,能够为运营商带来丰厚利润的大客户,更是这场战斗中的焦点。同时移动电信运营商的运营系统保留了大量的用户信息资料。这些资料含有丰富的客户信息,通过数据挖掘手段能够有效地分析出用户的需求和对于服务的满意程度。运营商可以运用这些信息制定出有效的营销策略
伴随移动互联网与IP多媒体子系统等业务的蓬勃发展,大量的视频和数据IP化业务不断涌现,通信网络已经从以语音业务为主的SDH网络逐步转变为以IP业务为主的PTN(Packet Transport N
由于无线传输本身的局限性,使得Ad Hoc网络中的通信能够很容易地被截获和分析,因此,匿名机制在Ad Hoc网络当中成为了一个非常重要的安全手段,通过向恶意攻击者隐藏与身份有关