Na(i)ve Bayes分类器制导的专业网页爬取算法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:wwwman
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术.在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件.该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Naive Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法.以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Naive Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率.
其他文献
从2002年1月1日起,公安部计算机信息系统安全产品质检中心已经按照国际标准对网络安全产品进行评估和检测。此举将更有效地监控网络安全产品的质量;保护消费者的权益。在首
期刊
据外电报导,美国著名的“智囊库”--兰德(RAND)公司于2000年11月18日发表了一篇题为《可怕的海峡--两岸对峙的军事问题与美国的政策选择》的研究报告。在这篇研究报告里面,参与研
作为宏观调控最主要的手段,财政政策与货币政策的搭配效果直接影响着经济的运行状况。2005年7月21日,我国进行了汇率制度改革,由原来单一盯住美元的固定汇率制度改为参考一篮子
期刊
本文通过对荣华二采区10
期刊
期刊
期刊
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
技术创新是推动经济发展的核心动力,是产业结构调整和升级的关键。基于技术创新的视角,明晰不同产业在产业群体技术创新中的地位与作用,是制定科学合理的产业政策,促进产业升级的关键。本文首先分析了浙江省经济发展与技术创新现状,得出浙江在近些年的经济发展,无论在总量还是人均上都增长较为迅速,已经满足进入自主创新阶段的条件。浙江省近些年在技术创新上的投入加大,科技活动产出也较为显著,但在自主创新方面还存在不足