面向分层结构的网页分类与抓取

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:jsrlzxd111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。
其他文献
提出了煤层气井洞穴完井的物理模型,将完井洞穴看成一个在煤层气井井底附近渗透率远大于外区煤层的高渗区域,并假定该区域中的流体流动仍然符合Darcy流动。在此基础上建立了
目前大多数信任证搜集技术采用传统的信任协商方法收集信任证,这给信任服务器带来很大负载且存在信任证盲目搜索问题。本文介绍了一个信任分布式证明协商算法DPN。基于RTP策
Minsky在1986年出版的“思雉的社会”中提出了Agent,认为社会中某些个体经过商可求得问题的解,这些个体就是Agent,还认为Agent是具有技能的个体,Agent应具有社会交互性和智能性。
目的探讨前外侧有限切开结合内侧微创锁定板接骨术治疗Pilon骨折的手术技巧及临床疗效。方法2007年3月至2012年9月采用前外侧有限切开复位结合内侧经皮微创锁定板接骨术治疗
新英政M100是浪潮新近推出面向教育领域及办公群体的PC产品,该机采用了最新酷睿2双核处理器,拥有512MDDR2内存、128M高性能独立显卡、80GSATA硬盘及17英寸宽屏液晶显示器等主流
现代人对现代生活大多追求的是一种安逸而健康的优越生活,却有这样一位伟大的艺术家——保罗.高更,1848年6月生,他放弃了一切的优裕生活,通过放归自己在原始返璞归真的热带海
目的:研究PICC置管在中晚期食管癌化疗中的应用和分析。方法:收治中晚期食管癌患者52例,随机分为观察组和对照组组进行治疗,所有患者均获随访,观察治疗效果。结果:52例患者全部穿刺
9月18日,金山旗下2007年Q版网络游戏大作《春秋Q传》公测新闻发布会召开,正式宣布《春秋Q传》于20日开始正式公测,从而结束了这款号称Q版三部曲第二部大作的长达两年的内测时代
网络拓扑研究的一项重要内容是分析网络拓扑的特征并生成满足这些特征的拓扑图。拓扑图特征的dK序列分析技术是一种系统化的拓扑分析技术,它能够以不同的精度描述拓扑图的特征
卫生部、工信部、商务部4月10日召开新医改研讨会,讨论基本药物制度完善方向,制药领域各行业协会和龙头企业亦参会。记者了解到,会上各方达成共识,表示未来药品招标应该取消"