应用正则式抽取Google网页内容

来源 :现代图书情报技术 | 被引量 : 0次 | 上传用户：xiaoshumin82

【摘要】

：

正确、完整地抽取搜索网页的内容,是对检索到的信息进行处理的基本前提.本文分析了Google网页的结构特征,给出了一组匹配Google网页内容的正则式,并用Visual C#实现了一个内

【作者】

：

张健欧红

【机构】

：

长沙理工大学图书馆,湖南图书馆

【出处】

：

现代图书情报技术

【发表日期】

：

2005年9期

【关键词】

：

正则式抽取网页 GOOGLE Regular expressions Extraction Web page Google

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

正确、完整地抽取搜索网页的内容,是对检索到的信息进行处理的基本前提.本文分析了Google网页的结构特征,给出了一组匹配Google网页内容的正则式,并用Visual C#实现了一个内容抽取器.对多个Google网页的实际应用表明,本文提出的正则式匹配方法可以抽取Google网页的全部主要内容.

其他文献

高等教育哲学观的冲突与融合

高等教育哲学即高等教育存在的合理性。目前,高等教育认识论、政治论、人本论是主要的高等教育哲学。高等教育哲学观的多元共存是高等教育功能多样性的表现,它们既相对独立,

期刊

高等教育认识论政治论人本论冲突融合

西藏网络信息资源的整合与组织

论文调查分析了信息化时代西藏信息资源信息检索状况和各类信息资源的整合与组织发展趋势，提出新的发展观点和思路加速中国西藏网站在网站布局、组织机构、工作方式、服务职能

期刊

西藏网络信息资源信息组织信息检索网站Networking information resource Tibet Conformity organiza

经济国际化及其战略选择

经济国际化、经济全球化和经济一体化是当今世界经济发展的重要趋势，21世纪以来，我国沿海一些省市在制定新时期的经济战略中纷纷提出经济国际化战略，并取得了较为丰硕的成果。然

期刊

经济国际化战略世界经济发展经济一体化经济全球化21世纪经济战略认识误区理论创新新时期省市

Index Data推动开放内容更便于搜索

2007年3月，丹麦的Index Data公司推出一项新服务，这项服务的初级阶段提供的开放内容资源包括：电子图书、开放获取的数字保存库资源、百科全书的文章、人类已经标引的因特网资源

期刊

开放内容搜索内容资源因特网资源开放源代码新服务电子图书数字保存

归化和异化策略指导下的《宁夏岩画》（节选）翻译实践报告

随着中国与各国的联系日益紧密,中国的旅游业蓬勃发展,具有丰富文化积淀的旅游资源也得到了进一步的发展,作为文化旅游的一个重要方面,岩画吸引了许多国内外游客。《宁夏岩画

学位

宁夏岩画翻译策略文化负载词案例分析

传媒类大学生英语学习态度与自我效能关系研究

态度和自我效能不仅是社会心理学研究的重点,也是影响外语学习的重要情感因素。国内外大量的研究成果表明:积极的学习态度和自我效能可以有效地促进学习成绩的提高。然而,探

学位

学习态度自我效能英语成绩传媒类大学生

新时期高速公路企业人力资源管理工作的创新

人力资源管理是每个企业都会有一个部门,是企业发展必不可少的一个部分.人力资源主要是在经济学思想的领导下,企业通过招聘等的形式来维持公司的运转.人力资源的部门能力影响

期刊

高速公路企业人力资源管理工作创新

开放内容联盟与雅虎、微软、IA等合作提供图书的开放获取

据最新一期SPARC开放获取快报（SPARC Open Access Newsletter，2005年11月2日）报道，由多个大学、图书馆、档案馆等联合组成开放内容联盟（Open Content Alliance，OCA，http：//www．opencon

期刊

图书馆开放联盟CONTENT雅虎微软合作IAACCESSSPARC

论盲人“看”电影过程中译者的译述策略

传统的口译译员作为两种语言文化间的传递者,负责在两个截然不同的生态圈搭建起沟通的桥梁。传统的口述影像选述者作为同一种语言文化中视觉障碍人群和影像世界间的传递者,负

学位

口述影像《金色池塘》电影译述认知语言学释义派

．NET环境下跨库检索系统的设计与检索代理的实现

讨论了跨库检索的产生原因和实现方式,并借鉴元搜索引擎原理,设计了一个跨库检索系统模型,并就其检索代理模块在.NET环境下的实现进行了详细阐述.

期刊

跨库检索.NET检索代理Federated searchingNET frameworkSearch agent

应用正则式抽取Google网页内容

与本文相关的学术论文