面向主题的Web信息收集系统的设计与实现

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:steve0309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的持续爆炸性增长 ,通用搜索引擎的信息覆盖率和检索精度都在不断下降 ,发展面向主题信息的专用网络信息检索工具已经成为趋势 .文中提出的面向主题的Web信息收集系统是这类工具的核心部件 .该系统采用文档矢量模型进行文档相关度计算 ,并结合页面链接的上下文信息过滤页面 ;借鉴并修改了Shark启发式查找算法来查找相关页面 ;可采用多机并行下载提高收集效率 ;并依据站点的重要程度进行动态更新 .在一个面向Internet的计算机教学资源检索的搜索引擎中具体实现了这个Web信息收集系统 ,整个系统在低性能的台式机上就能运行 ,并可获得较高的属于指定主题的页面的收集精度和收集效率 .
其他文献
目的:探讨补肾解郁清心方对围绝经期抑郁症模型大鼠行为学的影响和对下丘脑-垂体-肾上腺轴(HPA轴)的调节作用。方法:采用雌性SD大鼠双侧卵巢摘除,孤养与慢性轻度不可预见应激
<正> 我们学习了苏联的先进经验——马铃薯春化处理后,1954年经张北县农场试验结果,证实坝上地区马铃薯春化处理增产效果显著之后,1955年分别在各个国营农场及重点农业合作社
<正> 马铃薯是察哈尔省人民生活中最主要食物的一种,分布全省出产很多,但是每年察南、雁北和察北的崇礼受二十八星瓢虫为害都很严重,对于农民的损失极大,尤以一九五○年在浑
目的:观察三七总皂苷对大鼠海马神经细胞缺氧缺糖再给氧损伤的保护作用。方法:建立缺氧/缺糖再给氧模型,模拟缺血再灌注损伤。流式细胞术检测凋亡细胞百分率,荧光显微镜观察
2011年,公立医院改革试点进入第三年。全社会都在关注公立医院改革。体制改革是公立医院改革的重点和难点。全国17个公立医院改革试点城市都对体制改革有所涉及,我们把各种体制
采用粉煤灰作原料制备聚硅酸铝(PSAA)混凝剂,并通过化学沉淀、络合、凝聚和絮凝等反应将其用来处理热电厂含氟废水。结果表明,本法处理成本低廉、过程简单,实用,排渣少,实现了资源的
直接分析-飞行时间质谱新技术是质谱分析技术的衍生物,该项技术在法庭科学领域,可运用于爆炸残留物、印章残印、消字笔等物证鉴定。较传统质谱分析仪相比,该技术能完成常温常
<正> 一、社会主义教养体系的作用和任务 恩格斯在《共产主义原理》一文中写道,“教育可使年轻人很快就能够熟悉整个生产系统,它可使他们根据社会的需要或他们自己的爱好,轮
目的:制定血塞通滴丸的质量标准。方法:以薄层色谱(TLC)法进行定性鉴别,以高效液相色谱(HPLC)法测定人参皂苷Rg1、人参皂苷Rb1和三七皂苷R1,采用C18柱,流动相为乙腈-水系统梯
一个看上去无限美好,无限热闹的产业,让人无比遐想,但是,笔者却不看好现在这种模式的互联网电视,或者说,这样的互联电视至少无法让我产生购买的冲动。在一个开放的网络上,干