综合风险主题爬虫的研究与实现

来源 :北京师范大学 | 被引量 : 0次 | 上传用户:yjxff520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于互联网上的信息量呈几何级数增长,用户对于网络信息的应用需求也不断提高,传统的搜索引擎也不能保证综合风险信息的全面性和精准性。因此,必须构建综合风险的信息检索平台,利用现代信息技术对网络上的综合风险灾害信息予以分析,从而进行控制和引导。面对高速增长的巨大的网页数量,面向特定领域的垂直搜索引擎将更为实用,并会成为综合搜索引擎的互补形式。主题爬虫是垂直搜索引擎系统中最为关键也最为复杂的组件之一,它的性能直接决定了搜索引擎的最终效果。面向主题的网络爬虫的研究已经成为下一代搜索引擎和网络爬虫技术的研究热点。   本论文的研究工作主要包含以下四个方面:   (1)文章首先分析了当前的主题爬虫研究进展,提出了综合风险主题爬虫模型与主题信息发现策略,构建了主题检测引擎和主题域,对超链接的主题相关性进行判定。   (2)根据主题论坛爬行的特点,提出了一种基于论坛软件探测算法(WFSD)的论坛爬行策略,该策略的收获率和召回率都明显优于广度优先算法。   (3)分析了多种多模式匹配算法,并在Modified Wu-Manber算法的基础上,针对中文文本和主题检测引擎的实际需求进行了改进,提出并实现了一种快速多字节字符串匹配算法(FMBWM),该算法可以加快中文字符串的处理速度。   (4)在上述理论和技术基础上,设计并实现了一个综合风险主题爬虫(IRFC),该爬虫具有很好的收获率和良好的可扩展性。
其他文献
入侵检测作为一种主动的保护技术,是目前网络安全的核心技术之一,它通过从计算机网络或者计算机系统中的若干关键点收集信息并对其分析来发现网络或者系统中是否有违反安全策略
随着“数字地球”、“数字城市”概念的蓬勃发展,对于城市场景中的建筑物进行大规模三维重建技术的成本、速度、精度、通用性以及交互的复杂度都有了更高的要求,在综合现有的基
自然景物的模拟一直是计算机图形学中最具挑战性的问题之一。自然景观中雪景的模拟,可以大大提高虚拟场景的逼真效果。雪花形态的不规则性、运动的无规律性以及雪花受环境因
优化技术在许多工程领域有广泛的应用,如系统控制、人工智能、模式识别、生产调试以及计算机工程等。为了克服传统优化方法的不足,人们提出了智能优化方法如遗传算法、模拟退火
近些年来,随着计算机网络的快速发展,网络应用经历了从传统的Web、Ftp、Mail等业务为主导到以P2P为主导的变化,同时伴随着网络流量成倍的增大。这些变化加大了网络管理的难度
随着信息技术的发展,特别是计算机网络技术的快速发展与广泛应用,人们的生活、工作和学习方式都发生了深远的变化。在教育领域,教育信息化已经成为教育发展的重要主题,学习资源系
独立成份分析(Independent Component Analysis,ICA)是盲信号处理领域的一个研究热点,已广泛地应用到生物医学、语音处理、通信、遥感和地质等领域,具有重要的理论研究和实际应用
拒绝服务(DoS)攻击及分布式拒绝服务(DDoS)攻击通常定义为一到多个攻击者为阻碍正常的用户接收到合法的服务所发起的攻击。在当今的互联网环境中,DoS攻击已经变得非常普遍。由
由于各种原因,大多数成像过程中都存在或轻或重的散焦模糊退化,散焦模糊普遍存在于卫星遥感图像、航天、道路交通等重大科研和研究领域中。因此,研究散焦模糊图像的复原,消除模糊
近年来,国家大力倡导电子政务建设,电子公文作为电子政务建设中关键的一环,其应用有着广阔的市场前景和巨大的发展潜力。随着“无纸化办公”的逐步推进,办文人员对前端排版制作系