论文部分内容阅读
随着信息化时代的快速发展以及网络科学技术的不断提高,人们更依赖于便捷的信息化网络媒介,生活也因此发生了巨大的变化.在这样重视用数据说话的环境下,人们享受着信息快速传播带来的便利,但是在得到数据支持的同时,其所兼备的缺点也日渐显著.网络信息由于其供应平台的广泛及复杂,造就其容量庞大,涵盖各个领域的信息,在这样的情况下,虽然为信息搜索和查阅浏览提供极高的参考价值.但是网络使用者和各个企业更多的把焦点集中于如何在大量的数据新当中如何有效获取精确有价值的信息,使信息的作用意义发挥到最大限度.在此研究点上,本文以Pvthon编程语言为基础,全球广域网Web为信息收集对象,分析了该网站在HTTP网络协议下的网页界面的信息抓取原理,并在最后总结出相对应的以Python为工具的web数据收集方法.