论文部分内容阅读
互联网作为一种新兴的媒体,与传统的报纸、广播、电视有很大的不同。在互联网上,任何人都可以在论坛、留言版、自建站点、博客等上面发布言论。此外,Web2.0技术的普及,网络上有越来越多由用户生成的内容(User Generated Content)[1],网民既是信息的受众,又是信息的传播者。与报刊和杂志相比,网络媒体传播速度快,受众极广。我国互联网发展迅速,网民不成熟,如果网络监管缺失或者相关法律不健全,在网络上很容易出现虚假、反动、暴力的言论,会严重影响到和谐社会的建设。当前,网络监管部门重点开展的互联网媒体信息监管工作[2][3],旨在把握网络信息动向,引导网络言论,建设和谐网络环境。系统化的网络信息监管工作,主要由信息采集、信息融合和结果呈现三大环节共同组成。在信息采集环节遇到很多技术挑战:部分网络媒体为逃避网络监管,故意发布难以让机器识别的内容,如竖排文章、文字图片、动态网页,部分网络媒体发布内容需要授权才能浏览。网络媒体的发布形式越来越多样化,其中动态网页的比例越来越高,但现有网页获取工具,比如Wget、Pavuk等都不能采集动态网页。为扩展监管对象的范围,有效地提升网络媒体监管系统的功能,在系统信息采集环节,需要实现网站自动身份认证,和对动态网页的采集。作者受到Web自动化功能测试[4]的启发,利用JSSh[5](JavaScript Shell Server)提供的脚本交互接口,实现JSSh客户端与JSSh服务器的通信。JSSh客户端发送指令给JSSh服务器,从而操控Firefox浏览器完成身份认证表单填写和认证Cookie交互,实现自动身份认证。另外,成熟的Web浏览器都有网页排版引擎将Web页面内的HTML、CSS、JavaScript等解析和渲染,在用户端呈现良好的效果。本文利用Firefox网页排版引擎Gecko解析网页内的动态脚本,JSSh客户端从HTML DOM中获取动态网页内容以及链接地址,成功实现动态网页的采集。文章首先阐明本研究工作的意义,然后对身份认证和动态网页基础知识作了介绍。在此基础上,分别对基于JSSh的自动身份认证技术和动态网页采集技术作了详细介绍,并给出基于JSSh的信息采集系统实现。最后通过实验验证了该系统的可行性。