主题相关度相关论文
随着互联网的快速发展,人类的活动得以进一步扩展,各行各业累积的数据规模急剧膨胀,数据量越来越大,如何从海量的网络资源中快速准......
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越......
随着互联网信息的日益增长,如何迅速准确地在互联网中找到所需要的信息显得日益重要,传统的通过搜索引擎系统解决了大范围领域内的搜......
随着信息技术的飞速发展,信息的产生速度达到前所未有的水平。如此一来,如何有效的处理海量信息成为一个重要的问题。为了应对海量的......
随着计算机网络技术的飞速发展,互联网已成为海量信息的主要载体,如何有效的利用这些信息,对人们来说是一个巨大的挑战。搜索引擎作为......
随着互联网技术的飞跃,电子商务的蓬勃发展,论坛,博客等的兴起,越来越多的人们喜欢针对商品的各种属性发表自己的评论,表达自己对某款商......
搜索引擎技术的研究已成为当今互联网研究领域的大热点。它以网络技术、并行系统、机器学习、数据挖掘、模式识别、图像技术、......
随着互联网中的信息不断快速增长,在庞大的互联网中搜索自己所需要的信息,已经成为大部分用户经常性的操作。由于网络上的资源缺乏......
本文针对Web信息采集领域存在的问题,围绕面向垂直搜索的定题信息采集技术这一中心,主要完成的工作内容如下:第一,全面回顾了信息......
随着语义Web的发展,本体技术受到了越来越广泛的关注。如何帮助用户有效地获得相关本体,提高本体重用度和开发效率成为一项重要的......
面对海量的互联网信息,传统搜索引擎在查找主题信息方面日益无法满足人们的要求,如何帮助人们及时准确地获取主题信息变得越来越重要......
PageRank算法是搜索引擎用于标识网页的等级/重要性的一种方法,但是在实际的应用中,发现它还是存在一定的缺陷.本文提出一种在网页......
在对现有多种主题爬虫学习和研究的基础上,针对大多数主题爬虫抓取策略单一这个缺陷,提出了一种基于概率预测的主题爬虫,它综合多......
PageRank算法是网页排序的经典算法,在链接网络领域已得到广泛的应用。主题是文献网络中不可忽略的重要元素,于是在对文献评价算法的......
移动互联网的迅速增长使得搜索引擎面临巨大的挑战,搜索引擎如何适应这种变化以及如何提供更优质的检索服务成为了一个备受关注的......
最好优先搜索算法在主题页面附近搜索时能够表现出良好的性能,但算法只关注能“立即回报”的链接而容易遗失那些有远期价值的链接,......
主题相关度算法是搜索引擎的重要组成部分,影响搜索引擎的用户体验.本文将语义网技术同传统的信息检索技术相结合,并参考知识本体,......
主题信息搜索的关键是对于主题相关信息的检索。本文提出了基于遗传算法的主题信息搜索策略,即利用通用搜索引擎获取网页URL,再根......
提出一种新的基于概念树的主题网络爬行方法。与传统基于关键词描述主题的方法不同,本文提出基于叙词表来构建一种称为概念树的表......
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基......
针对单一价值评价的聚焦爬虫搜索策略存在主题漂移等问题进行了研究,充分利用量子进化算法所具有的智能性,提出一种新的聚焦爬虫爬......
由于通用搜索引擎具有搜索信息量大、查询不准确、深度不够等缺点,本文在通用搜索引擎技术的基础上,依据专业领域搜索策略,设计并......
互联网上的海量信息,至今还在快速发展,面向主题的信息检索已成为当前的研究热点之一。在提高信息检索的精度方面,一般认为本体技术是......
随着网络信息资源的爆发式增长,现有的搜索引擎已经无法满足迅速获取准确信息的需要,为搜索引擎引入搜索内容更为精确的主题爬虫显得......
针对目前主题网络爬虫搜索策略难以在全局范围内找到最优解,通过对遗传算法的分析与研究,文中设计了一个基于遗传算法的主题爬虫方案......
在信息化爆炸的时代,一般搜索引擎的搜索结果已经满足不了人们的需要,能获得更准确全面信息的垂直搜索引擎越来越受到关注。其中,主题......
为解决军事交通运输民用运力数据获取难的问题,采用主题网络爬虫的方法获取相关数据,在Shark-Search算法基础上,考虑URL结构对主题......
互联网上信息是海量的,并且还在快速的发展.面向主题的Web信息检索已成为当前研究的热点之一.将语义网技术同传统的信息检索技术相......
提出一种基于张量分解的有影响力用户识别算法.该算法首先构建基于查询主题的用户交互关系张量,接着利用张量分解算法对用户行为进......
分析了4种智能主题搜索算法,对基本遗传算法进行了改进,并将改进的遗传算法应用到主题搜索中,通过改进遗传算子来提高搜索的主题相......
本文在基于元数据的判定方法和基于网页内容的语义判定方法的基础上,借鉴哈弗曼编码的思想,提出了一种基于动态匹配的主题相关度算......
如何确定搜索的方向和深度是聚焦爬行的核心问题。为此,提出了链接的预期剩余能量概念及其计算方法。该方法利用当前页面的信息计......
主题网络爬虫技术是获取特定主题的有效手段,其搜索算法的性能直接决定着搜索结果的优劣.文章综合分析了现有的网络信息搜索算法,......
首先,给出了主题爬虫的概念;然后介绍了主题相关度计算的两种模型:布尔模型和空间向量模型;通过对两种模型进行分析,提出了一种基于网页......
针对目前主题搜索策略的不足,通过改进遗传算子提出了一种新的主题爬虫策略,即通过变异操作引入新的URL扩大搜索范围;通过交叉操作......
本文介绍的主题爬虫技术注重对某个专业领域数据信息的深度搜集,摒弃传统爬虫技术的广泛搜索,针对某个具体行业或者领域挖掘更加准......
通过对主题网络爬虫的研究,设计一个对网络中的矿山设备资源进行收集的主题网络爬虫。设计内容主要包括主题网络爬虫的各个功能模......
在传统检索模型的基础上,结合本体的概念,提出一种基于本体语义树的主题空间向量模型。该模型能够用语义概念树描述一个主题,与传统基......
基于关键词的向量空间模型是传统的专业搜索引擎中主题信息采集常用的方法,它通过考虑关键词的权重以及关键词在网页中出现的频率......
根据校园舆情和信息安全管理的需要,结合垂直搜索的特点,提出了一种面向主题的域内垂直搜索引擎模型.给出了模型在信息采集、分词处理......
本文提出以爬行控制器和页面分析过滤器为核心的聚焦爬虫设计方法。从待检索主题出发,在以改进的遗传算法为基础并结合内容评价和链......
聚焦爬虫是主题搜索引擎的核心部件。针对目前聚焦爬虫搜索策略的不足,提出基于主题相关度和页面重要性相结合的综合相关度来判别......
最好优先搜索算法在主题页面附近搜索时能够表现出良好的性能,但算法只关注能"立即回报"的链接而容易遗失那些有远期价值的链接,导......
当今时代,互联网拥有着世界上最大的信息体量,构建领域搜索引擎、领域知识库以及文本分析时,都需要从互联网中获取领域、主题相关......
随着近几年经济飞速发展和人民生活水平的提高,健康问题也越来越受人们重视。而在使用当前传统搜索引擎搜索健康领域信息时,搜索结......
给出了垂直搜索引擎的体系结构,然后分别设计了垂直搜索引擎的三大核心模块:主题词库、网络机器人和中文分词。在主题词库模块中设计......
以相关度较高的主题网站构成的群落,其分布呈现出显著的生态学特性为理论依据,采用链接分析方法,对主题网站的评价指标以及主题网......
农业专业搜索引擎对特定主题的农业信息进行检索,其信息量多、精确度低。针对此现状,以开源搜索引擎Nutch为技术框架,对大豆主题网页......