论文部分内容阅读
随着网站开发技术的不断进步,拥有网站成了一件非常简单的事情。而利用web信息采集技术,在短时间内生成多个网站,已经成为一部分中国个人网站主获取诸如Google Adsense、百度等广告联盟收入的惯用手段。而web信息采集技术的滥用,带来一系列问题。一方面为互联网增加了更多重复的内容,增大了用户的信息搜索成本和时间;另一方面,信息采集结合伪原创技术所生产的内容,影响到搜索引擎的排名,损害了众多原创网站的根本利益,不利于互联网行业的健康发展。
而目前市面上的信息采集器以及伪原创工具,绝大多数为商业软件,没有公开源代码。基于此,文章剖析web信息采集器以及伪原创内容生成原理,并从技术和法律法规的角度,提出一些防范措施来解决上述问题。
本文共分为5大部分。第一部分,简述研究背景、研究现状、意义、研究方法、研究内容,以及研究的创新之处;第二部分,是文献综述;第三部分,介绍伪原创技术所需的中文分词等相关内容;第四部分,剖析web信息采集原理、框架构成、伪原刨内容的实现方法,以及对伪原创自动生成系统的评测;第五部分,从技术以及法律法规等角度,提出防范web信息采集的一些策略和方法。