面向民航Web信息的主题爬虫研究

来源 :中国民航大学 | 被引量 : 0次 | 上传用户:henbuxiaxin11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息的指数级增长以及行业分工的不断加大,专业领域应用中网络信息在精度和深度方面的缺陷日益明显,专业领域主题Web信息的有效获取成为各行业有效利用网络信息资源的基础。 面向民航Web信息的主题爬虫是专注于在海量的网络信息中有效地识别与民航相关的Web信息资源,并进行获取和及时更新的系统,该系统不仅可作为民航主题搜索引擎必要的信息获取模块,也可成为其它民航企业级信息应用的网络数据来源。 该文对现有主题爬虫相关技术进行了详细的研究和总结,通过对其中关键性技术以及模型的对比、选择和优化,给出了民航主题爬虫的设计方案。方案采用基于任务通信机制的分布式并行架构保证了系统的高度扩展性,利用页面过滤和URL剪枝保证了爬虫搜集信息的民航主题相关性。 该文对页面主题相关性过滤所采用的向量空间模型以及URL主题相关性剪枝所采用的PageRank算法进行了性能优化,并且在搜集网页更新方面,提出了一种新颖有效的更新策略,通过增加主题度和更新度的考虑以最大限度保证信息的时效性。 然后基于开源项目NUTCH提出了此设计方案的具体实现方法,成为利用此设计方案实际进行民航主题爬虫开发的有力补充。最后通过对部分系统所采用算法进行的实验以及对我们所开发原型系统的整体性能测试,证明了民航主题爬虫设计方案和实现方法所具有的可行性和实用性。
其他文献
电子邮件已成为人们日常通信交流的重要手段,然而垃圾邮件却成了当前的一个严重社会问题,因此,研究一种有效的邮件过滤系统具有十分重要的意义。当前基于内容分析的文本分类技术
协同过滤算法作为最为广泛使用的个性化推荐技术,虽然取得了一定的成功,但是传统的协同过滤推荐算法基本不考虑时间上下文,将不同用户不同时间内的兴趣偏好同等看待,忽略了用户兴
随着计算机网络应用的广泛深入,Internet中网络应用的种类越来越丰富,各种新型的网络业务,如语音、图像、视频业务以前所未有的速度快速发展,包括传统的广播电视节目已经在互
多Agent协作技术主要研究一组自治的Agent在分布式开放的动态环境下,通过相互的交互、协商等智能行为完成复杂的控制或任务求解。基于合同网的多Agent协作模型是通过Agents彼
学位
TCP应用于无线环境时,由于丢包多是由无线误码引起而不一定是拥塞丢包,其拥塞控制算法出现了不适应性,因此需要新的算法来修正。为了在Windows环境下测试新算法,我们需要修改TCP
随着Internet技术的发展及其应用的深入,网络功能不断强大,网络管理已成为网络系统的关键部分。网络规模的增大、网络元素数量的不断增加以及它们之间连接关系越来越复杂,使得网
随着网络和其它信息技术的广泛应用,网络系统的安全变得至关重要。入侵检测系统是保护网络系统安全的关键技术和重要手段,但现行的入侵检测不仅对新的攻击或特征未知的入侵无
随着信息技术在企业信息系统中的广泛使用,传统的封闭式系统暴露出很多难以克服的缺点,系统功能单一、结构死板、难以部署和更新的局限性阻碍了企业信息化的深入发展。为克服这
无线自组网相较于传统网络具有自组织和动态网络拓扑的特点,可广泛应用于军事通信、紧急救灾等场景。这些特点使无线自组网面临诸多威胁,比如窃听、篡改报文和拒绝服务等,因此安