基于热点网站内容分析的超链接提取研究

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:ganlu0416
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的信息十分广泛,而这里面有许多是人们关心的热点信息,这些热点网站上的内容,代表了互联网信息最受关注的部分,本文的目的就是对NBA热点网站内容进行分析,解析其中的超链接以及对应的正文信息,然后再通过URL与正文反馈网站的热度。本文首先介绍了网页信息提取技术概述及发展历史和现状,分析了网页信息提取技术分类和常用算法,对网页信息提取技术进行了相关阐述。其次,对热点网站页面内容特点进行了分析,主要包括热点网站及热点网站体育NBA特点、搜狐与网易NBA页面特点及比较、从网页语言特点分析热点网站、热点内容分析与内部关系等。通过对比,总结出NBA类热点网站内容的特点,而这些特点非常适合通过一些HTML解析器来分析处理。通过对比主流HTML解析器的特点,阐述了HTML Parser在解析热点网页上的优势,通过对热点网页采集的实现,进一步验证了网页的内部组成结构及其构成特点等,提出了一种基于HTML Parser的热点双反馈URL及正文提取策略:首先通过HTML Parser提取网页的URL,然后从URL中提取正文,通过提取的正文反馈URL的热度,再通过URL反馈整个网页的热度。最后,本文实现了基于HTML Parser的网站超链接信息提取。论文中主要介绍了利用两种算法实现热点网站超链接及正文文本信息的提取。系统运行结果及有效性评价主要通过查询搜狐体育NBA和网易体育NBA提取的结果,测试准确率和召回率两个性能指标,比较两个热点网站的链接提取效果,并通过URL与正文信息反馈网站的热度。本文正在研究的基于热点网站内容分析的超链接提取已经实现了对简单网页的解析,能够过滤掉一些垃圾信息、去除噪音,但对于是否能真正满足用户要求,提高解析出的有用信息的可操作性,还需要进一步去研究。
其他文献
互联网已经进入多媒体时代,越来越多的服务商介入流媒体行业,其中尤以网络电视和网络视频分享占主流位置,著名的公司企业我们早就耳熟能详。网络电视服务商使用P2P技术优化服
随着网络技术在当今世界的繁荣发展,网络上所承载的信息量也越来越多。在各种形式的网页所展示的数据中,包含结构化形式的数据的网页占有重要的地位,如何从这些结构化数据的
人脸检测是人脸识别系统中一个重要的步骤,是一门复杂的交叉学科,涉及到模式识别,图像处理,算法设计,计算机图形学等相关学科,人脸检测结果为人脸识别提供直接处理数据,所以
学位
在基于IEEE 802.11标准的无线局域网络中,节点的无线收发器可以使用免执照的ISM无线频段(Industrial, Scientific, and Medical Bands)进行通信。因而,便携电脑和PDAs(Person
随着现代生物识别技术的不断发展,说话人识别技术受到了越来越多的专家学者的关注。通过分析说话人的语音信息,从而有效的识别说话人的身份,说话人识别技术因其简便高效的特
随着计算机技术、数字图象处理技术的不断发展,智能视频监控已经成为计算机视觉领域的一个重要研究课题。运动目标分类是智能视频监控的重要组成部分,是目标行为分析与理解的
无线传感器网络是由低成本、低功耗、具备感知、数据处理、存储和无线通信能力的微型传感器节点通过自组织方式形成的网络。能量消耗和网络覆盖是无线传感器网络的两个核心问
近年来,移动商务市场竞争异常激烈,用户体验质量越来越受到网络运营商、终端设备商和开发者的重视。目前移动商务的研究大多聚焦在商业模式、情景感知、用户交互等方面,尤其缺乏
传统的基于内容的图像检索技术使用的是顺序检索,对于海量、高维的图像数据来说,这种检索方法在效率上显然已经不能满足需要。对图像数据库进行必要的预处理并且建立索引以提