Web文档清洗系统中HTML解析器的开发

来源 :计算机应用研究 | 被引量 : 19次 | 上传用户：xq111

【摘要】

：

对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,

【作者】

：

王强王继成武港山张福炎

【机构】

：

南京大学计算机科学与技术系,南京大学计算机软件新技术国家重点实验室

【出处】

：

计算机应用研究

【发表日期】

：

2002年02期

【关键词】

：

HTML解析器词法器递归下降文档清洗系统 WEB INTERNET HTML Parser Lexicon RecursiveDescendant Web

【基金项目】

：

国家自然科学基金，教育部科研项目，日本富士通研究所"Web文档清洗技术研究"资助项目

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

一种用于存储网络软故障恢复的快照技术的设计和实现

与镜像技术相比,快照具有备份和恢复窗口短、性能损失小、容量利用率高等优点,更适合保护因人为失误等软故障造成的数据损失。提出了一种应用于卷管理的快照技术的设计方案。它可以高效地管理一个数据源的多个存储快照,并提供快照的读写、创建、回收等功能。另外针对快照技术物理容错性差的缺点,还提出了几种快照技术和镜像技术相结合的应用方案,较好地解决了存储网络软、硬故障时数据的保护。

期刊

存储网络快照故障恢复Storage NetworkSnapshotSoft-failure Recovery

现代远程教育网总体方案实例

以.NET为开发平台构筑了一个远程教育体系,系统采用了.NETWeb服务中的大量先进理念,如多层Web服务模型、XMLWebService、XML数据传输、.NET组件开发技术等,使开发的速度大大加快,使数据传输的可靠性大大加强。结合快速发展的多媒体技术,可以构筑出一个优良的现代远程教育体系。

期刊

现代远程教育同步视频课堂视频点播.NET平台网络服务XMLSOAPModern Distance EducationSynchronous Vi

基于Servlet的分布式数据库系统

介绍了分布式数据库系统的概念 ,引入了B/S网络计算模式和JavaServlet技术 ,并以某市自来水公司CIMS系统为背景提出了一套以JBuilder为开发环境的具体实现方案。

期刊

SERVLET分布式数据库系统体系结构数据层B/SJavaServlet

SYN Flood攻击的原理、实现与防范

SYNFlood攻击是拒绝服务攻击中的一种典型攻击手段。在分析攻击原理的基础上,介绍了该攻击在Linux平台上的实现方法及目前防范该攻击的主要技术。

期刊

拒绝服务攻击SYNFLOOD攻击TCP/IP网络安全DoS AttackSYN Flood AttackTCP/IPNetwork Securi

XML Web服务安全问题及其安全技术

详尽说明了XMLWeb服务的安全问题,介绍了几种相关的安全技术,着重示例阐述了基于SOAP协议的安全技术。

期刊

XMLWEB服务安全SOAP身份验证数字签名SAMLXML Web ServicesSecuritySOAPAuthenticationD

在应用程序中通用查询功能实现方法研究

讨论了一种基于大型数据库Oracle和前台开发系统PowerBuilder程序设计中通用查询功能的设计思路与实现方法 ,并给出了几个关键函数的原代码

期刊

POWERBUILDER数据库算法应用程序通用查询程序设计OraclePowerBuilderDatabaseAlgorithm

一个公平、有效的安全电子交易协议

SET(安全电子交易 )协议是由MasterCard和VISA制定的 ,基于信用卡的安全支付协议。在SET协议基础上提出了一种有效公平的安全电子交易协议 (SET 1 ) ,该协议不仅保持了SET原有安全和有效的特性 ,而且实现了交易有效证据的生成和保存 ,从而保证了交易的公平性 ,同时还引入交易状态机制。最后 ,讨论该协议的安全性、有效性和公平性

期刊

SET协议电子商务公平性数字签名加密电子交易协议网上购物InternetSETEcommercePaymentFairnessDigit

基于Rose和ATL的COM组件开发

目前COM组件技术逐渐得到广泛应用,但COM组件的开发较为复杂。讨论了基于Rose和ATL的COM组件开发方法,该方法将COM组件的建模方法同编程实现技术紧密有机地结合在一起,易于掌握。另外还介绍了在使用Rose对应用系统建模时,如何引入系统所用到的COM组件的类型库。

期刊

组件对象模型统一建模语言ROSE活动模板库接口类型库COMUML(Unify Model Language)RoseATL(Active Te

一种新型的共享存储网络构架

在传统的DAS构架之后,SAN和NAS的解决方案给存储领域带来了巨大的影响,分析和比较了目前存在的各种存储构架,在SAN和NAS构架的基础上,结合其各自的优点,提出了一种新型的共享存储网络构架。阐明了这种构架的特点;并进一步采用SNIA共享存储模型(SNIASharedStorageModel)分析了该构架;最后就这几种构架的性能作了比较。

期刊

存储网络存储局域网络网络附加存储SNIA共享存储模型Storage NetworkStorage Area Network(SAN)Network

公共数据库中可信记录的认证码的研究

在用户享有授权可自由添加记录的公共数据库中,数据良莠难分。为提高公共数据库的可信度,推广了敏感数据的完整性锁的概念,提出了一种对经由领域专家验证的可靠记录作标记的方法,且称所作标记为认证码。讨论了认证码的生成准则,并借助于MD5算法、DES密码算法中的S盒和RSA密码体制,设计了一个认证码的生成方案,最后还指出所生成的认证码能有效地抵抗伪造攻击和替代攻击。

期刊

校验和数据库安全MD5算法S盒RSA密码体制攻击DhaecksumDatabase SecurityMD5 AlgorithmS-boxRS

Web文档清洗系统中HTML解析器的开发

与本文相关的学术论文