垂直搜索关键技术研究与设计

来源 :郑州轻工业学院 | 被引量 : 0次 | 上传用户:akuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的迅猛发展,网络成为人们获取信息的主要手段。为了帮助人们在浩如烟海的互联网中得到有用的信息,基于 Internet的各类信息检索服务应运而生并得到了迅速发展。目前,人们在互联网上搜索信息主要是通过Google、百度等通用搜索引擎,这类搜索引擎的功能已十分强大,在一般情况下可以满足用户的需求。然而,当用户只想查询具体某专业、某行业或某种主题的相关信息时,这类搜索引擎就会显得有些力不从心,垂直搜索引擎的出现就是为了解决这类问题。因为它服务于特定领域,注重于专业化与结构化 Web信息的整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。  本文针对垂直搜索研究热点,主要研究内容有以下四个方面:  (1)结合国内外研究现状、关键技术及存在问题,针对垂直搜索进行了理论性的分析,介绍了垂直搜索概念、优势、关键技术及其发展方向。  (2)主题爬虫必须解决的三个主要问题:一是对各异构Web数据源的抓取目标的描述或定义;二是对网页或数据的分析与过滤;三是对URL的搜索策略。针对以上三个问题,本文提出了基于Heritrix开源爬虫的聚焦网络爬虫设计。通过抓取过程策略与算法分析、抓取过程数据流图设计及扩展与定制Heritrix完成了特定网页的抓取。  (3)“结构化”是垂直搜索的特征之一,即垂直搜索要利用信息抽取技术把网页打碎,从中提取出精细化、条目化的信息,存放到数据库中。为了完成网页结构化数据抽取,本文结合现在的网页结构化信息抽取技术,提出了Web实体提取方法。并在文中阐述了Web实体提取的定义、原理、方法及实现。并通过实验验证了该方法的可行性,满足了垂直搜索对网页结构化数据抽取的需求。  (4)在现有的研究基础上,设计了一个实际的新书信息垂直搜索系统。该系统根据垂直搜索的架构和运行原理而设计,容纳了垂直搜索引擎的关键技术,满足了实际的应用需求。并且具备良好的可扩展性和可修改性,有较好的实际应用价值。  本文的贡献主要在于合理地整合运用了开源项目,提出了Web实体提取方法,采用目前流行的B/S开发架构与技术,给出了一个实用的面向垂直搜索的解决方案。该方案具有一定的扩展性及参考性。
其他文献
粒子群优化算法(Particle Swarm Optimization,PSO)经过十多年的研究与发展,已经成为科学研究和工程实践中重要的全局优化和复杂问题求解技术,PSO的应用几乎渗透到了任何领域,
孤立词语音识别实现简单、技术成熟,有着广泛的应用领域,是深入进行语音识别研究的基础。隐马尔可夫模型(HMM)是目前最流行的语音识别技术,许多成功的语音识别系统都是基于该技
独立分量分析(Independent Component Analysis,ICA)是一种从多元混合信号中分离出独立分量的算法,其通过运用统计学原理,揭示出混合信号中的隐藏成分和内在因子,在生物医学、声音
混淆是一种用来增加逆向分析难度的软件保护技术。开展面向逆向分析的程序关键属性混淆技术研究,对优化混淆技术的理论模型,拓展混淆技术的应用领域,以及促进软件反逆向分析技术
近年来,社交网络呈现爆炸性增长,用户活跃程度越发提高,产生的信息量也越来越大,有着对传统互联网取而代之的趋势。在这种情形下,学术界和产业界也纷纷开始研究社交网络中用户和信
互联网的发展推动了全世界的交流,需要开发出满足不同地区语言、文化、生活习惯要求的WEB应用,因此,软件的国际化已成为必须要考虑并解决的问题。然而,传统软件多使用本地化
SIMD扩展部件以其实现成本低、部件功耗少、计算效率高等特点,逐渐成为高性能计算机的必备计算加速部件,其应用领域也从最初的多媒体处理,扩展到科学计算、信号处理、密码分析等
入侵检测技术(IDS)是一种主动保护自己免受攻击的网络安全技术。作为防火墙的合理补充,入侵检测技术能够帮助系统应对网络攻击,扩展了系统管理员的安全管理能力(包括安全审计
P2P的关键技术之一是在物理网络之上构建一层覆盖网络,根据覆盖网的拓扑结构,分为结构化(Structured)和非结构化(Unstructured)。结构化系统对象定位需要知道确切的名字或关
随着人类基因组计划的完成,生命科学研究进入后基因组时代,研究基因所表达的蛋白质成为研究的热点。蛋白质的功能往往体现在与其它蛋白质或其它的生物大分子之间的相互作用之