利用网页区域分割的聚焦爬虫算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:marinehope
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上数据的增长,通用的搜索引擎无法满足不同背景用户对于不同主题查全率的需求,垂直搜索引擎能够聚焦于特定的主题,更全面地抓取和检索与主题相关的网页。垂直搜索引擎在各个领域都得到了广泛的应用,聚焦爬虫是垂直搜索引擎的核心,成为近年来一个热门的研究课题。聚焦爬虫需要抓取与主题相关的网页,计算和预测网页与主题的相关度是它的核心,主要包含三个方面:网页解析、网页相关度计算和链接优先度计算。在网页解析方面,提出了基于网页区域分割的正文抽取算法,该方法利用网页中重复的标签格式将网页划分为多个区域,利用区域的结构特征过滤噪声区域,基于网页正文标题的位置和区域文本特征确定正文区域。在计算网页的主题相关度时,使用分类算法,分别基于URL和标签文本训练分类器,利用投票法将分类器的分类结果结合起来。在计算链接的优先度时,按照网页分类的结果将与主题无关的网页过滤,针对主题相关的网页,对该网页中的区域继续进行分类,过滤掉主题无关的区域,结合网页的链接结构信息和区域分类的结果计算链接的优先度。实验结果表明,提出的基于网页区域分割的正文抽取算法能够准确地识别出网页正文区域,具有较高的准确率和召回率,;结合URL特征和网页标签特征能够提高网页的主题相关度计算的准确性;结合区域的相关度和网页的链接结构信息,提高了爬虫的性能。要进一步提高聚焦爬虫的性能,下一步的研究是考虑对分类器进行增量训练并加快分类的速度。
其他文献
物联网的目标是在计算机互联网的基础上,利用RFID、无线数据通信等技术,构造一个覆盖世界上万事万物的网络,目前在国内外科学界与工业界都属于研究的热门领域。物联网技术的
在互联网时代,个性化推荐系统得到广泛应用。在推荐系统中,推荐算法起着决定性的作用,而协同过滤算法为最为常用的一种推荐算法,采用基于用户的协同过滤对稀疏评分矩阵进行预
随着我国道路的发展以及汽车保有量的增加,交通需求不断增长,道路压力日趋严重。在影响道路交通运行的重要因素中,除了人、车、路因素,环境因素也是影响交通的重要因素。近几
对等网络(Peer-to-Peer,P2P)是Internet网上的覆盖网络,网络中节点彼此处于对等地位,既可作为客户机也可作为服务器,节点间借助一定搜索机制搜索资源并建立直接连接,交换共享
作为一种社会网络,科研合作网络中的实体关系就是两个作者之间合作发表一篇论文。科研合作网络的一个重要问题就是预测两个作者之间的合作发表论文的情况,在数据挖掘中,这一
网络附属存储(Network Attached Storage)和存储区域网络(Storage Area Network)是当前网络存储设备使用的主流技术。NAS主要基于以太网技术,使用TCP/IP协议簇,提供文件级数
移动代理技术在分布式系统,无线网络,电子商务等领域已经得到应用,其优点是可以让智能Agent在Internet上自主移动和执行,并完成用户指定的任务。移动代理所具有的移动性、自
在数据量以指数级增长的互联网时代,数字视频作为人们获取信息的重要途径,呈现多元化和实时性的特点。高效视频编码作为新一代编码标准,对编码结构和环路滤波等进行了改进和
NVD(Next-generation Versatile Disc)是具有自主知识产权的红光高清光盘技术,具有成本低、不受国外专利制约的优点,有很大的市场需求。NVD节目光盘的制作由NVD编著系统完成
随着经济的急速发展和通信技术的快速进步,无线视频监控系统由于其便利和高效的优点,已经成为应用和研究的热点。   本课题来源于学院与国家海洋局东海信息中心联合开发的东
学位