主题爬虫相关论文
现阶段,公众对于食品营养缺乏应有重视,营养宣传教育必不可少。近几年政府对于食品营养科普这方面关注也越来越多,而且随着互联网......
文章根据目前网络视听节目监管系统中视听节目数据采集技术的现状,通过分析归纳出目标Web页面编码元素的共有特征,提出一种基于视听......
互联网中信息过载对人们从网络中获取感兴趣的内容形成了巨大挑战,传统搜索引擎在一定程度上能满足人们对网络内容的检索需求,但也......
在网络舆情监测中,面对大量的网络信息,须借助先进的信息技术来实现网络舆情监测的自动化和智能化。对舆情监测系统中的主题爬虫技术......
随着信息时代的到来,规模庞大的信息不断在网络环境下产生。这样大规模、跨领域的信息包含在新产生的文本、图像、视频当中。面对......
随着互联网的快速发展,人类的活动得以进一步扩展,各行各业累积的数据规模急剧膨胀,数据量越来越大,如何从海量的网络资源中快速准......
主题爬虫是主题搜索引擎的核心技术,已有的主题爬虫大多采用离线训练方式,需要大量已标记的训练样本,且不能使爬虫在爬行过程中增量学......
随着互联网规模的不断发展扩大,网络数据呈现出了爆发式的增长,改变了人们的生活,逐渐影响各行各业原有的生产经营模式。网络信息资源......
随着网络在世界范围内的飞速发展,互联网作为最具潜力与活力的新兴媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,成为反......
随着互联网的快速发展,网络信息量不断增加,如何从这海量的信息中得到需要的信息就显得尤为困难。通用搜索引擎试图检索更多的网页......
微博,作为一种新兴的互联网交流与分享平台,已经获得巨大数量用户的亲睐,Twitter、FaceBook、Sina、Tencent等微博网站已成为海量......
万维网信息的爆炸性增长使Web已经成为世界上最大的信息库.面对这个海量、异构、半结构化的信息库,Web用户经常发现要查找到所需的......
搜索引擎技术的研究已成为当今互联网研究领域的大热点。它以网络技术、并行系统、机器学习、数据挖掘、模式识别、图像技术、......
近年来,随着互联网信息的快速几何增长,如何及时准确地从互联网上获取有用信息显得十分重要。主题爬虫是一种基于主题的信息采集系......
近年来,随着Internet应用的普及和飞速增长,网络提供的服务呈现多样化的趋势。很多用户要求可以在线欣赏音视频文件,使得提供音视频文......
随着网络信息的指数级增长以及行业分工的不断加大,专业领域应用中网络信息在精度和深度方面的缺陷日益明显,专业领域主题Web信息的......
Internet的出现和快速发展,现已成为目前世界上最大的信息资源库。然而面对巨大的Web资源库,用户若想获得所需要信息已不再是一件简......
随着科技的不断进步,人类已经进入了一个全新的“信息时代”。互联网已经成为了当前主流的信息载体之一。面对互联网上的大量舆情......
这些年来,由于互联网上的网页数量呈指数增长,爬虫要爬取的信息量过大,它的负荷太过承重导致搜索引擎更新自己的网页数据库速度过慢,不......
学位
通用搜索引擎,在很大程度上解决了人们在Web上查找信息的困难,但是随着信息多元化的增长,也存在着种种不足。如:查准率查全率低、内......
随着信息技术的迅猛发展,网络成为人们获取信息的主要手段。为了帮助人们在浩如烟海的互联网中得到有用的信息,基于 Internet的各类......
随着互联网的迅猛发展,Web网上的信息资源正在以多元化的形式迅速增长,人们越来越不满足于大型通用型搜索引擎所提供的服务,开始关......
学位
随着互联网中信息的爆炸式增长,搜索引擎在人们生活中的作用越来越重要,人们对于搜索结果精度要求的提高,使得面向特定领域的垂直......
主题搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合。其中的关键技......
万维网已经和我们生活的各个方面紧密联系在一起了。我们使用它获取信息,与人们进行交流,使用万维网更加高效地工作,进行各项社会......
主题网络爬虫是主题搜索引擎的关键技术。主题爬虫能够智能地采集与特定主题相关的网页,而避免不相关网页的访问;主题爬虫的提出与......
随着互联网的迅速发展,面对这样一个全球最大的信息资源宝库,搜索引擎为人们提供了获取信息的入口,得到了极大的流行。但由于Web多......
随着信息多元化的增长,通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要,用户对信息的需求更多的是针对受限领域和......
本文针对Web信息采集领域存在的问题,围绕面向垂直搜索的定题信息采集技术这一中心,主要完成的工作内容如下:第一,全面回顾了信息......
当今社会已进入信息爆炸时代,如何通过搜索引擎精准获取有用的信息是摆在面前的一个重要课题。虽然用户采用通用搜索引擎可以检索出......
随着互联网信息以指数级别增长,目前数字信息已呈现数量庞大、类型繁多、更新迅速等发展趋势。根据Forrester Research的统计资料,......
互联网自诞生以来得到了迅猛的发展,Web信息更是呈现出指数形式地增长。传统的单机多线程主题爬虫已经不适合用来完成海量信息的抓......
随着因特网信息量的爆炸式增长,搜索引擎已经是有效获取信息的一种必要手段。为了满足专门学科领域和特定主题的搜索用户要求,主题......
面对海量的互联网信息,传统搜索引擎在查找主题信息方面日益无法满足人们的要求,如何帮助人们及时准确地获取主题信息变得越来越重要......
随着互联网的高速发展,通用爬虫在浩瀚如海的网络世界里,对高效提取有效网页信息显得越来越力不从心。而主题爬虫是解决通用搜索引......
本文主要研究了垂直搜索引擎实现的关键技术,从细节上对两个核心模块,即主题爬虫技术和索引技术进行了深入地研究分析。在主题爬虫......
学位
近年来,随着web信息资源的快速增长,通用搜索引擎存在无法检索所有页面的问题,也不能满足人们日益增长的个性化服务需要,因此各类......
随着互联网资源的迅速增长和信息环境的日益复杂,追求高网络覆盖率的通用搜索引擎己无法满足用户更专业更精确的查询需求,因此,面向主......
学位
自Internet诞生,搜索引擎逐渐成为人们获取信息的主要方式。然而,随着互联网的高速发展和网络用户需求的不断提高,传统搜索引擎如A......
多Agent系统是一种运用Agent的自主、灵活、交互等特性来实现某个系统目标或求解某个大规模问题的技术。在多Agent系统中,通信是实......
近年来,随着Internet / Web技术的快速普及和迅猛发展,互联网上的网页每天都以指数级别增长,目前数字信息已呈现数量庞大、类型繁......
传统的搜索引擎需要对互联网上的信息进行广泛的收集和分析处理,随着互联网的急剧膨胀,传统的搜索引擎需要处理的网络信息也越来越......
学位
档案是一种十分重要的文件,任何国家、任何公民都跟它密切相关。时至今日,我国档案的信息化建设已经初步取得了一定成果,然而依然......
随着Internet的迅速发展,网络上的资源日趋丰富,通用搜索引擎已经不能满足人们对个性化信息检索服务日益增长的需要,面向主题的搜......
伴随着互联网及应用和服务的普及,网上信息量以带宽的指数级增长,互联网用户信息检索的难度和复杂度也不断提高。因此,搜索引擎越......
随着互联网的飞速发展,网络上的信息数量激增。面对着数量庞大、纷繁复杂的互联网信息,用户如何可以快速、准确并且全面地查找到自......
随着Web上的信息猛速增长,基于关键词全文匹配的传统搜索引擎,已不能满足用户在查全率、查准率方面的需求。同时随着科技的发展,人......