面向分层结构的网页分类与抓取

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户：jsrlzxd111

【摘要】

：

传统网络爬虫为基于关键字检索的通用搜索引擎服务，无法抓取网页类别信息，给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取，通过构建

【作者】

：

王振宇唐远华郭力

【机构】

：

华南理工大学软件学院,华南理工大学计算机科学与工程学院

【出处】

：

计算机工程与科学

【发表日期】

：

2012年11期

【关键词】

：

网络爬虫网页分类领域知识库知网 web crawler page categorization domain knowledge base Hown

【基金项目】

：

广东省科技计划基金资助项目（20108010600017）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统网络爬虫为基于关键字检索的通用搜索引擎服务，无法抓取网页类别信息，给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取，通过构建虚拟站点层次分类树并抽取真实站点分层结构，设计并实现了面向分层结构的网页抓取；对于无分类信息的站点，给出了基于标题的网页分类技术，包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明，该方法具有良好的分类效果。

其他文献

洞穴完井煤层中渗流场的数值研究

提出了煤层气井洞穴完井的物理模型,将完井洞穴看成一个在煤层气井井底附近渗透率远大于外区煤层的高渗区域,并假定该区域中的流体流动仍然符合Darcy流动。在此基础上建立了

期刊

煤层气洞穴完井模型渗流场有限元CBMmodelseepageseepage fieldfinite element

一种开放网络环境下的分布式信任证明算法

目前大多数信任证搜集技术采用传统的信任协商方法收集信任证,这给信任服务器带来很大负载且存在信任证盲目搜索问题。本文介绍了一个信任分布式证明协商算法DPN。基于RTP策

期刊

信任协商分布式证明启发规则trust negotiation distributed proving proof hint

Agent和多Agent系统的研究综述

Minsky在1986年出版的“思雉的社会”中提出了Agent，认为社会中某些个体经过商可求得问题的解，这些个体就是Agent，还认为Agent是具有技能的个体，Agent应具有社会交互性和智能性。

期刊

多AGENT系统社会个体智能性交互

前外侧有限切开结合内侧微创锁定板接骨术治疗Pilon骨折

目的探讨前外侧有限切开结合内侧微创锁定板接骨术治疗Pilon骨折的手术技巧及临床疗效。方法2007年3月至2012年9月采用前外侧有限切开复位结合内侧经皮微创锁定板接骨术治疗

期刊

PILON骨折前外侧切开复位锁定板经皮微创接骨术pilon fracture anterolateralopen reduction locki

浪潮新英政M100

新英政M100是浪潮新近推出面向教育领域及办公群体的PC产品，该机采用了最新酷睿2双核处理器，拥有512MDDR2内存、128M高性能独立显卡、80GSATA硬盘及17英寸宽屏液晶显示器等主流

期刊

SATA硬盘双核处理器液晶显示器PC产品教育领域17英寸性能群体

高更想要的原始艺术——塔西提岛上的喜与悲

现代人对现代生活大多追求的是一种安逸而健康的优越生活,却有这样一位伟大的艺术家——保罗.高更,1848年6月生,他放弃了一切的优裕生活,通过放归自己在原始返璞归真的热带海

期刊

高更原始艺术塔西提岛超自然

PICC在中晚期食管癌化疗中的应用分析

目的：研究PICC置管在中晚期食管癌化疗中的应用和分析。方法：收治中晚期食管癌患者52例，随机分为观察组和对照组组进行治疗，所有患者均获随访，观察治疗效果。结果：52例患者全部穿刺

期刊

PICC置管穿刺食管癌化疗

金山冲击Q版网游市场第二波

9月18日，金山旗下2007年Q版网络游戏大作《春秋Q传》公测新闻发布会召开，正式宣布《春秋Q传》于20日开始正式公测，从而结束了这款号称Q版三部曲第二部大作的长达两年的内测时代

期刊

网游市场金山新闻发布会网络游戏游戏玩法三部曲春秋

一种新的因特网拓扑的序列分析方法：dM序列分析方法

网络拓扑研究的一项重要内容是分析网络拓扑的特征并生成满足这些特征的拓扑图。拓扑图特征的dK序列分析技术是一种系统化的拓扑分析技术，它能够以不同的精度描述拓扑图的特征

期刊

因特网网络拓扑网络特征序列分析技术Internet network topology network metrics series anal

基层医疗非基药限制放宽新版目录或将扩编

卫生部、工信部、商务部4月10日召开新医改研讨会,讨论基本药物制度完善方向,制药领域各行业协会和龙头企业亦参会。记者了解到,会上各方达成共识,表示未来药品招标应该取消＂

期刊

基层医疗目录基本药物制度行业协会制药领域卫生部新医改商务部

面向分层结构的网页分类与抓取

与本文相关的学术论文