Web伪原创内容自动生成机制与防范

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:liongliong570
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网站开发技术的不断进步,拥有网站成了一件非常简单的事情。而利用web信息采集技术,在短时间内生成多个网站,已经成为一部分中国个人网站主获取诸如Google Adsense、百度等广告联盟收入的惯用手段。而web信息采集技术的滥用,带来一系列问题。一方面为互联网增加了更多重复的内容,增大了用户的信息搜索成本和时间;另一方面,信息采集结合伪原创技术所生产的内容,影响到搜索引擎的排名,损害了众多原创网站的根本利益,不利于互联网行业的健康发展。   而目前市面上的信息采集器以及伪原创工具,绝大多数为商业软件,没有公开源代码。基于此,文章剖析web信息采集器以及伪原创内容生成原理,并从技术和法律法规的角度,提出一些防范措施来解决上述问题。   本文共分为5大部分。第一部分,简述研究背景、研究现状、意义、研究方法、研究内容,以及研究的创新之处;第二部分,是文献综述;第三部分,介绍伪原创技术所需的中文分词等相关内容;第四部分,剖析web信息采集原理、框架构成、伪原刨内容的实现方法,以及对伪原创自动生成系统的评测;第五部分,从技术以及法律法规等角度,提出防范web信息采集的一些策略和方法。
其他文献
期刊
实施素质教育首先是教育理念的更新,要从传统的以体育知识技能的灌输传授转化为培养学生自主学习、自主锻炼,发展独立思考能力和创造能力的教育。在体育教学设计上,要从"教师主体
西南少数民族医药文化源远流长,是各民族在长期的历史发展和社会实践中产生和发展起来的,积累了丰富的医药理论知识和技术技能,具有悠久的传承性、突出的民族性和鲜明的地域性。
期刊
期刊
农家书屋工程是在国家新农村建设的大背景下,由新闻出版总署牵头实施的一项重大公益性文化工程,对于完善农村公共文化服务体系、保障农民的信息权利、建设农村精神文明等具有重
我国的电子政务建设经过十多年的发展已经到了整合资源、充分挖掘信息价值、建设服务型政府的阶段,政务信息资源开发利用工作已成为电子政务建设中最为核心的工作重点。完善的
网络舆情是社情民意的重要组成部分,网络的匿名性、开放性和互动性极大.地促进了网络舆情的快速扩散。随着Web2.0的发展,网民间的互动日趋活跃,BBS就是其中最突出的代表。BBS
信息自由的思想由来已久,经过300余年的演变和发展,已在各国信息立法的理论和实践中得到验证,国内外学者从影响因素、政策执行、用户需求、绩效评价和社会参与等方面论述了政府信息公开作为行政行为的外在特征,从法律适用、法律比较和法律完善等方面阐述了政府信息公开作为法律制度的内在要求。政府信息是一个内涵丰富的概念,有效界定政府信息范围是处理信息行为的理论需要,政府信息来源于社会生活的各个领域,在制度约束的
随着计算机技术的发展和互联网的崛起,电子商务逐渐融入了人们的生活。在其发展的十几年间,电子商务的用户数和交易额都在突飞猛进地增长。据有关调查显示,2009年中国电子商务市