HTMLParser提取网页超链接研究

来源 :电脑编程技巧与维护 | 被引量 : 0次 | 上传用户:dengzk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
每个网页中都存在许多超链接,很多网页的有用信息都存在于超链接中,如何有效地获取这些超链接成为Web挖掘的一个重要步骤。提出了利用HTMLParser开源工具实现Web页面解析,提取网页的超链接,从而获取有用信息,为下一步开发搜索引擎做准备。
其他文献
本文在相对论基础上以力变换的公式,揭示出运动电荷周围存在着电场和磁场,从而深入理解电场和磁场的相对性。
根据官方统计数据,目前我国居民财产性收入较低,但是,依据相关研究成果,我国隐性经济规模较大,而隐性经济又大部分以财产形式存在,并将衍生出新的隐性财产性收入。据此,应理
给出气体分子的频率分布律,据此给出几个特定频率,并分析了其物理意义,讨论了频率分布的特点及其变化规律。
近些年来,居民收入分配差距目益扩大的问题逐渐成为全社会关注的焦点问题,缩小居民收入分配差距被提上议事El程,收入分配改革方案呼之欲出。将收入分配主要的改革方向指向再分配
利用淮河流域河南、安徽、山东、江苏4省170个站1961—2010年逐日气温、降水以及土壤墒情和干旱灾情资料,从干旱年际变化、季节演变、空间分布、典型干旱过程诊断、不合理跳
文章试图从上行"管户.理事"权概念出发(而不仅仅从传统的"专业化管理"这一视角出发),突破传统思维,去研究大企业管理的改革(乃至对整个管户制度的改革),从而营造一个开放型的大企业税
可持续发展是本世纪各国所面临的主要问题之一。可持续发展理论下的“绿色增长”理论作为人类生产活动长期实践的深刻反思与认识飞跃,已被国际社会和多国政府所认同。目前,无