面向Blog的网络爬行器设计与实现

来源 :中国中文信息学会二十五周年学术会议 | 被引量 : 0次 | 上传用户:xingxing7978
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着一种新的信息管理和发布工具逐渐被大家认识和使用,互联网的"个人门户"时代已经迎面走来,这种新的信息组织和传播方式,就是B1og.本文针对Blog领域,设计并实现了一个面向Blog的网络爬行器.与通用爬行器相比,具有面向专业,速度快和搜索信息准确度高的特点.
其他文献
本文主要探讨基于一系列国际标准的西双版纳傣文"贝叶经"资源库的关键技术,如基于ISO/IEC10646的新、老傣文信息处理技术、基于Dublin Core和XML的电子编目、置标和发布技术
目的 系统评价去甲文拉法辛治疗重性抑郁障碍的疗效和安全性.方法 计算机检索Medline、Embase、CENTRAL、PsycNET、中国生物医学文献数据库、中国知网、维普、万方等数据库,
富氧燃烧不仅能节约燃料,提高产品质量和品位,减少窑炉侵蚀、延长窑炉寿命,而且能够大大降低粉尘和NOx的排放,减少环境污染.本文对其在玻璃窑炉上的应用进行了简单的介绍和探
从中国证券市场诞生以来,违规行为就层出不穷。有人甚至认为:中国证券业的发展史,就是一部违规史!警钟一次又一次响起,令人震耳欲聋,宣告中国证券立法已刻不容缓!如狼似虎的
匹杉醇为一新型蒽环类药物,已由欧盟批准单独用于治疗成人复发难治侵袭性B细胞非霍奇金淋巴瘤.Ⅲ期临床试验结果提示,作为复发难治侵袭性非霍奇金淋巴瘤的单一替换疗法,匹杉
本文首先介绍了朴素贝叶斯方法的基本原理,分析了决定基于贝叶斯的中文垃圾邮件过滤器的性能的几个因素,然后比较了几种基于该方法的过滤器,最后总结了制约中文垃圾邮件过滤
Blog(博客)作为一种全新的网络发布模式,在很大程度上增强了网络信息的开放性,也使得Blog空间里的信息量成倍增长.利用话题检测技术将Blog文本信息按照所表达的话题进行归类
特征选择是解决文本分类中特征空间高维性的难题的有效方法.在文本分类中经常用到的自动特征选择方法都将词条在文档中出现一次和出现多次的情况同等对待,因而忽略了词条频率
构建代际和谐的养老保险新机制,是在与社会生产力发展水平相适应的前提下,兼顾当期和长远,建立全面协调可持续发展的养老保险新机制。 To build a new inter-generational p
多文档文摘的句子排序问题受到的关注一直较少,然而文摘句的顺序对用户正确理解原文意思却起到重要的作用,因此有必要对多文档文摘的句子排序进行研究.本文针对中文新闻摘要