基于锚文本上下文和链接分析的主题抓取算法研究与应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yjfu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的爆炸性增长,传统的搜索引擎已经不能满足人们获取精确信息的需要,主题搜索应运而生,主题爬虫是其基础和关键性部分,直接决定了主题搜索的深度和广度。很多学者对主题爬虫这一领域进行了大量的研究,然而在一些方面仍存在不足:如网页质量难以评估,抓取的准确率召回率不高等等。  本文在对之前的算法的研究过程中,意识到爬虫抓取中会自然的对主机进行多次循环访问,指出完全可以在不用额外开销的情况下迭代计算主机的质量。然后在调查网页结构和人们制作网页的习惯时发现,人们往往是根据语义内容来组织网页,并且在内容距离的表示下很容易能找到规律,获取链接上下文。在此基础上,本文提出了一种层次化网页质量计算方法,首先迭代计算主机质量获取网页的全局质量优先级评分,然后综合链接结构及链接上下文的内容来对网页的局部质量优先级评分,二者的加权和作为网页的最终评分。实验表明算法不仅能快速的算出网页的重要度,还具有比较高的准确率、召回率和抓取速度。此外本文还实现了一个完整的主题爬虫及医疗搜索的原型系统对算法进行检验,而在这些实际应用中发现的问题正是本文将来改进的方向:网页更新的自动判断和语义信息的综合应用。
其他文献
在线识别网络流量的业务类型是互联网流量控制,网络资源管理等工作的基础。目前互联网中各种业务流量随着用户需求的快速增长而不断发生变化,包括业务特征值集合的变化,新的业务
大自然中,云、烟、雾等参入介质(Participating Media)视觉效果无处不在。当光子在介质中传播时,会发生散射或被吸收等事件,从而产生各种丰富的视觉效果。尽管这些效果让绘制出
3D图像分割技术是医学图像处理的关键步骤,它是沟通图像处理和图像分析的桥梁。现有的3D图像分割算法中,交互式分割算法由于其兼顾了效率和准确率而被广泛地应用在实践当中。但
压延玻璃在生产中极易产生气泡、结石等缺陷,有些缺陷会破坏生产过程,甚至危及生命安全。传统的人工检测方式效率低下,容易出现漏检和误检的现象,而自动化机器视觉因具有效率
三维人脸重建是一项重要而较复杂的工作,往往需要专业设备和技术,要生成个性化、细节丰富的人脸模型则要求更高。随着计算机图形学的发展和计算设备、移动终端的普及,我们希望能
准确而可靠的三维动态几何数字化在影视制作、计算机动画等图形学相关领域中是一个重要的组成部分。不同于静态几何的重建,动态几何帧与帧之间缺少准确的对应信息,此外几何体的
多核体系结构为多线程程序提供了高效的运行平台,程序内部依靠类似于锁和栅栏的机制(例如:临界区、互斥量、信号量和事件等)来实现多线程之间的同步,灵活方便,但同时也存在一定的
在当今这个信息技术无处不在的时代,数据每时每刻会由各种源头产生,日积月累,几百TB甚至PB级别的数据量是一种很常见的现象。因此如何以较小的代价存储这些海量数据,并从中快速查
随着计算机技术的发展,对各种数据的处理需求不断增加,空间信息也是如此。数字技术的发展以及空间信息的大量获取使得我们获取的数据量和维度不断提高,数据的类型也更加复杂。因
运用视频图像处理技术进行体育运动分析是计算机视觉领域的一个重要研究方向,它从图像序列中检测出运动目标,提取运动员关键部位并得到有效运动信息,达到对运动姿态、相关技