基于正则表达式的Ｗｅｂ资源采集系统的设计与实现

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户：jiahenglipin

【摘要】

：

【作者】

：

马建华　邵　斌　李赛红

【出处】

：

电脑知识与技术·学术交流

【发表日期】

：

2008年31期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：介绍了Web资源类型和采集策略中的对采集质量有影响的因素。设计实现了一套基于正则表达式的Web资源采集系统，系统具有灵活的可扩展性和可配置性，重点介绍了采集系统结构和采集技术。
　　关键词：正则表达式；采集；Web资源
　　中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)31-0888-02
　　To Detect Intranet Worms Using Network Flow Technologies
　　MA Jian-hua,SHAO bin,LI Sai-hong
　　(Department of Educational Technology,Nanjing Normal University,Nanjing 210097,China)
　　Abstract: In this pager the Web Resources on the type and acquisition strategy in the quality of the collection to influential factors are introduced. A Web Resource Collection System based on a set of Regular Expressions is designed. The system is flexible, scalable and configurable, focus on the collection system structure and collection technology.
　　Key words: regular expression; collection; web resources
　　1 引言
　　随着互联网信息的持续爆炸性增长，网络能够为我们提供无穷的数据，像实时新闻、大型论坛或一些资源网站每天都会提供大量的新的数据。但面对这些杂乱无章的数据我们一般人又束手无策。对于每个企业来说，互联网上都会有他们感兴趣的数据。作为一个企业的决策者，需要知道竞争对手的一些情报为企业的下一步决策作参考；作为一个网站的管理员，不希望手工录入大批量的文章或资料，而希望能够从一些站点上自动抓取数据并放入数据库中；企业的销售人员希望能够获得大量的目标客户的联系信息，从而能够扩大销售量等等。如何从互联网上抓取定向大批量的数据成为一个重要问题。
　　2 Web资源介绍
　　自1990年代以来，随着因特网和Web技术的迅速发展与普及，一些与网络有关的新名词、新概念不断出现，如网络游戏、网络经济等等。Web资源，或称“网络资源”，越来越为人们所接纳与采用，它直观、准确而且简洁地表达了网络环境下信息资源所蕴涵的时代气息。在此，Web资源是一个泛指概念，包括通过网络发布的一切信息。
　　Web资源包罗万象，几乎函盖了所有重要的人类活动信息。常见的Web资源可分为如下几类：
　　网络出版物：包括电子书籍、网络报纸、电子期刊，其中很多免费向用户提供。据统计[1]，在因特网上，1991年有电子期刊l10种，1993年240种，1994年400种，1995年近700种，1996年千余种，而1998年则达到万余种。
　　数据库：有资料统计，1997年有3000多种数据库通过因特网直接为用户提供信息检索服务，这些数据库的内容涉及不同领域和专业，其中大多数可以免费使用。在网络环境下，数据库生产商将其产品联入因特网，从而降低了成本，提高了资源的利用率。同时，数据库作为高质量的学术、商业、政府和新闻信息的重要来源，以其可靠的信息来源，成为Web资源中非常重要的一部分。
　　动态信息：如政府机构发出的消息、政策法规、会议信息、论文集、研究成果、项目进展报告、产品目录、广告等。
　　其他类型信息：除上面三种之外，电子邮件、电子公告、新闻组、用户组也成为信息交流的重要渠道，其内容也成为Web资源的重要组成部分。
　　3 采集策略
　　Web资源采集，说到底需要解决三个根本性问题：一是确定采集范围；二是选择采集方式；三是确定采集频率。这三者直接关系到被采集对象是否与预期目标一致。采集范围的确定主要包括确定采集级别、划定归档Web空间与选择采集对象等方面。采集级别是Web资源采集的总指导原则；归档Web空间的划定是从大的范围来说，即哪些网站可以作为采集对象，Web空间的划定必须有一个明确的规则，否则就会造成采集对象的混乱。采集对象的选择是具体到所划定的网络空间内，到底哪些Web资源值得保存，哪些不需要保存。而采集对象的选择与采集方式是联系在一起的。使用不同的采集方式，所采集的内容范围也会不同。而且，网络一直处于不断变化、更新的动态环境之中。由于各个网页的更新频率不同，需要调整采集频率，以保持同步，否则就可能遗漏很多重要的Web资源。因此，如何确定采集频率，最大限度地避免Web资源的遗失，也是值得思考的一个问题。
　　3.1 采集/获取方式
　　采集对象的选择是与采集方式极为相关的，使用不同的采集方式，结果采集的内容也会不同。目前用于Web资源的采集，主要有以下5种采集方式：捐赠、呈缴、选择性采集、全采集、联合方法等[2]。其中，前两种是被动的获取，后面三种是主动的获取方式。这里重点介绍选择性采集。
　　所谓选择性采集，即根据Web资源的历史价值、文化价值、研究价值和经济价值，主要以人工方法有选择性地对Web内容进行甄别、采集。选择性采集对所保存的每一项主题都经过认真的价值评估，并确定了哪些资源应该优先采集，因而保证了较高的采集质量，并能跟踪网站变化确定不同的采集频率。
　　3.2 采集频率
　　由于需要采集的网络文献数据量非常巨大，每一次完整捕获要持续数月。一般认为自动获取每6个月采集一次是比较合适的，这个时间间隔对于一些稳定、不会随时更新的网站来说是可行的，但是有许多网页的寿命极为短暂，在这段时间内可能有许多网页发生变更或被删除。还有一些新闻网站，显然按6个月的频率是不可行的。所以最好的解决措施是对不同的网站类型分别计算其更新频率，以保证采集频率与之同步。例如，日报需要每天采集，周报每周采集一次，大选或发生重大事件期间需要增加对某些网站的采集频率。也可以让机器人自动测试网页更新的频率，从而在适当的时间及时采集。英国国家图书馆规定，政府网站采集频率的确定要区分不同的部门，例如国防与外交部、首相办公室等部门网站要一周采集一次，其他政府部门至少6个月采集一次[3]。
　　4 系统实现
　　实现系统的关键是配置正确的正则表达式模板，模板用XML保存。由于正则表达式（Regular Expression）的简单高效[4]，在Web资源采集时可以轻而易举地采集到想要的资源。针对同一类型的资源书写相应的正则表达式模板即可。在写正则表达式时需要细心，一不小心就可能导致无法匹配，可以借助相应的书写工具，比如Match Tracer。在写好正则表达式匹配模板后指定结果保存介质，可以是数据库、文本文件、XML或其它常用的文本格式。其功能模块主要包括：初始化模块、资源下载模块、资源匹配模块和资源保存模块，系统架构如图1所示。
　　4.1 系统初始化
　　初始化部分加载要下载的资源任务，这些任务都是经过人工筛选的，有一定的价值的网址。随后加载之前已经写好的正则表达式匹配模板，用XML保存的好处也是方便扩展，如果网站的资源有变化，可以随时改变XML文件而不需要重写程序。最后是分配指定的线程，这样可以加快资源的采集进度，其中加入了线程池提供线程的管理功能。
　　4.2 资源下载匹配
　　在分配到一个任务后，线程下载指定的网页，将接收到的网页源码交给资源匹配模块。资源匹配模块根据加载的匹配模板逐一匹配，如果能找到匹配结果而且目标结果是文本格式的则将这些结果交给资源保存模块直接保存；如果是二进制的，比如扩展名为.exe、.gif、.pdf等格式的文件则需要交给线程将资源从远程服务器下载到本地并把路径保存至指定的介质中方便查找。图2为Web资源采集流程图。
　　4.3 结果保存
　　将匹配模块中的匹配结果存放至指定的保存至指定的介质。保存介质可以是数据库、文本格式等，多种格式极大地满足了客户的需要。
　　5 结束语
　　运用正则表达式的某种模式可以快速地匹配出目标文本，根据事先指定的资源类型作进一步的分析和处理。采用的XML文件保存正则表达式模板可以方便扩展和修改而无需修改程序本身。通过程序自动标识采集频率可以很好地满足资源的时效性。在结果处理上也实现了多样式，可以满足不同客户的需要。基于正则表达式设计实现的Web资源采集系统可以根据客户需要定制不同的采集模板，可以为广大的用户提供大量有价值的Web资源。
　　参考文献：
　　[1] 刘家真.电子文件管理理论与实践[M].北京:科学出版社,2003.
　　[2] 杨道玲.Web资源采集与保存研究[D].武汉:武汉大学,2005.
　　[3] Abitebou S,First A.Experience in Archiving the French Web[EB/OL].2004-05-24.http://www.sc.huji.ac.il/course/2002/sdbi/pagers/web-archiving.pdf.
　　[4] (美)佛瑞德(Friedl,J.E.F.).精通正则表达式[M].3版.余晟,译.北京:电子工业出版社,2007:1-34．

其他文献

嵌入式ＭｉｎＧＵＩ的移植与平台开发

摘要：介绍一种优秀的嵌入式图形支持软件——MinGUI，初步构建了基于SEP4020 微处理器的嵌入式GUI(图形用户界面)开发平台，并分步介绍了将MinGUI 移植到此嵌入式系统平台的方法。最后在构建好的平台上开发并运行一个GUI实例，验证了此平台的成功开发及其应用的优越性。　　关键词：Min GUI；嵌入式系统；SEP4020　　中图分类号：TP311文献标识码：A 文章编号：1009-304

期刊

基于ｔｙｐｏ３内容管理框架的多语言门户系统开发

摘要：内容管理系统（CMS）为基于Web的信息管理提供了一种新的形式，即围绕“内容”来运作。CMS框架则进一步为内容管理活动定义了一整套规则和流程，并提供了某种程度的原型。typo3作为一个优秀的CMS框架，除了一般框架都有的特性之外，还特别提供了针对多语言系统的支持。该文介绍了使用typo3来开发一个多语言门户系统的过程和经验，并结合具体实例说明typo3为此类系统开发带来的便利。实践证明，ty

期刊

基于ＣＴＩ的水电信息系统的设计与实现

摘要：基于CTI的水电信息系统是一个采用声音服务器模型的交互式语音应答系统；深入的分析了水电信息系统的需求，给出了系统功能和系统结构图，绘制了语音子系统的工作步骤，给出了系统数据库的总体设计，同时给出了语音子系统与数据库交互的函数接口，较好的完成了远程汇报，查询和管理水电信息的任务。　　关键词：计算机电话集成；交互式语音应答；信息系统　　中图分类号：TP399 文献标识码：A文章编号：1009-3

期刊

ＩＥＥＥ　８０２．１１ｉ协议的ＤＯＳ攻击分析及改进

摘要：该文对无线局域网最新一代的安全协议802.11i协议工作工程中的认证、密钥管理二个阶段进行分析，发现其存在DOS攻击缺陷，并对两阶段中可能出现的相应威胁提出了改进办法。通过对比发现改进后的协议能在认证阶段连接只有通过了双向认证的合法用户。在四步握手时能在CPU正常工作前提下把存储器资源消耗的问题解决，从而更大程度提高了无线数据传输的有效性。　　关键词：密钥；进程；四次握手；协议　　中图分

期刊

基于２层Ｐ２Ｐ结构的Ｗｅｂ服务实现

摘要：针对当前Web服务架构的不足，利用结构化的Chord网络作为Web服务目录支撑平台，设计2层Web服务模型，介绍服务的发布与检索方法，通过比较、分析和仿真试验，验证了模型的优越性，提出了深入分析设计的思路。　　关键词：对等网络；Web服务；Chord　　中图分类号：TP393文献标识码：A文章编号：1009-3044(2008)31-0809-03　　Implementing Web Ser

期刊

ＡＲＭ　Ｌｉｎｕｘ在ＴＥ２４１０开发板上的移植

摘要：简要介绍了TE2410开发板的硬件特性，重点阐述了Linux 内核在ARM9上的移植过程。其中包括：建立交叉编译环境、系统内核的移植和根文件系统的移植等。移植后的操作系统在开发板上运行稳定，并且可以根据需要编写应用程序,将该开发板用于工业控制。　　关键词：ARM Linux；TE2410；移植；Bootloader　　中图分类号:TP311.54文献标识码:A文章编号：1009-3044(2

期刊

Ａｄ　Ｈｏｃ网络中的多播路由协议

摘要：无线Ad Hoc网络是指一组无线移动节点组成的多跳的，临时性的，无基础设施支持的无中心网络。多播是一种面向群组计算的通信传播方式，它使用单一的源地址把数据发给一组主机。如何在移动自组网中实现有效的多播路由技术是当前此领域研究中亟待解决的问题。文中对当前一些典型的多播路由协议进行了研究，并对它们各自的工作方式进行了分析，最后对它们各自的特点进行了比较。　　关键词：Ad Hoc网络；多播路由；协

期刊

ＴＣＰ／ＩＰ协议在８０５１ＭＣＵ中的移植及应用

摘要：将TCP/IP协议移植到8位MCU上，同时在传输的文件中加入HTML代码，实现了一个WEBSERVER，并用其对一个液晶显示屏进行控制和监视。本系统用双绞线代替RS232、RS485、CAN等总线进行组网，可以广泛应用在各种嵌入式系统中。　　关键词：TCP/IP；8051MCU；HTML　　中图分类号：TP36文献标识码：A文章编号：1009-3044(2008)31-0863-04　　Tr

期刊

基于ＢＡＢ模式的资源运营系统

摘要：研究和分析在当前中国电子商务运营体制，阐述BAB电子商务模式如何利用自身特点帮助企业避免电子商务过程中缺乏资源、信用难保的情况。在MVC设计模式下，建立BAB交易模型.通过J2EE组件化开发，进行资源运营系统的设计。解决中国电子商务的瓶颈问题——信誉问题、支付问题和物流问题。　　关键词： BAB模式；电子商务；J2EE　　中图分类号：TP311文献标识码：A文章编号：1009-3044(20

期刊

基于ＤＥＳ和ＥＣＣ的加密签名方案设计

摘要：该文讨论了对称加密算法——数据加密标准（DES）和非对称加密算法——椭圆曲线密码算法（ECC）的数学模型及优缺点，结合两者优点，提出了一个基于DES和ECC的加密签名方案设计。该方案具有安全性好、速度快、效率高的优点，具有一定的实用性。　　关键词：数据加密技术；数据签名；DES算法；ECC算法　　中图分类号：TP311文献标识码：A 文章编号：1009-3044(2008)36-2617-0

期刊

基于正则表达式的Ｗｅｂ资源采集系统的设计与实现

与本文相关的学术论文