网页采集相关论文
香港科技大学是1985年政府研究兴建第三所大学,1986年成立筹备第三所大学委员会,1991年9月开学,阐述了图书馆特藏数字化、大学档案数......
随着Internet的普及和迅速发展,网络渐渐成为人们生活中不可或缺的组成部分。然而,在WWW这个庞大的知识库中快速且准确地找到想要的......
在全球互联网资源急剧膨胀的情况下,搜索引擎技术为人们查找所需资料提供了一个良好的接口。然而,面对通用搜索引擎的信息量大、查......
VCE Search Engine是一个基于Globus网格平台的网络搜索引擎项目。本文以VCE Search Engine项目的网页采集功能为需求,设计并实现......
本课题首先对Web文本挖掘关键技术进行了深入的研究,讨论了网页采集、分词、词频统计和特征权值计算等文本预处理的相关技术。然后......
互联网的迅速发展导致网上信息飞速增长,使得信息搜索变得非常困难。当前的搜索引擎在查找时仅仅采用机械的关键词匹配来实现,缺乏知......
互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已......
介绍基于内容评价的、基于链接结构评价的和基于巩固学习的三种采集算法的优缺点;介绍一种依据词典构建主题Ontology的方法,该方法......
为了分析网易云音乐中哪些歌曲是热门歌曲,哪些歌曲的评论最多,从而了解到人们对于不同音乐类型的喜爱程度,采用成熟的scrapy爬虫......
为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题......
介绍网络信息保存方法,重点探讨如何利用WGET实现网站镜像,以及在站点镜像中所发现的问题和解决的办法.图2.参考文献7.......
根据网页动态内容提出了一种具体采集方法,利用基于关联的LDA(Latent Dirichlet Allocation)算法,设计了一个基于内容的网页动态内容......
SDD算法可以用来构建数据量大和变化快的文档集的隐含语义索引。利用SDD 算法来建立特定网页采集模型需要两步,即建立训练网页集和......
微博客作为快速分享和传播信息的新平台,具有信息量庞大、信息分散多样等特点。为了使人们不仅能获取微博客中分散的信息,而且能及......
随着互联网的日益繁荣,互联网上的信息资源也越来越多,虽然方便了人们的知识获取,但是也带来了信息量过大,噪音信息较多的问题,反......
学位
随着互联网技术和计算机技术的发展,特别是第三代移动通信技术的应用和推广,人们的阅读习惯也发生了改变,大家迫切地希望能在任何时间......
怎样提取网页中由JavaScript脚本动态生成的URL,一直是网页采集器设计的一个难题,文中给出了一个基于JavaScript引擎的通用的解决......
英语种的外国人在查询中国相关的新闻时,希望能有比较好的查询体验。受“孔子学院跨文化传播影响力研究”项目组的委托,本文实现了......
随着互联网的迅速发展,网络信息急剧膨胀,对互联网信息敏感的政府部门和企事业单位已经无法单单依靠人工监控来把握互联网的动向了。......
本文对互联网舆情信息的获取和分析做了较深入的讨论。利用Rhino脚本解析引擎,有效地解决了互联网中JavaScript动态网页的获取问题......