Web文档清洗系统中HTML解析器的开发

来源 :计算机应用研究 | 被引量 : 19次 | 上传用户:xq111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论
其他文献
与镜像技术相比,快照具有备份和恢复窗口短、性能损失小、容量利用率高等优点,更适合保护因人为失误等软故障造成的数据损失。提出了一种应用于卷管理的快照技术的设计方案。它可以高效地管理一个数据源的多个存储快照,并提供快照的读写、创建、回收等功能。另外针对快照技术物理容错性差的缺点,还提出了几种快照技术和镜像技术相结合的应用方案,较好地解决了存储网络软、硬故障时数据的保护。
以.NET为开发平台构筑了一个远程教育体系,系统采用了.NETWeb服务中的大量先进理念,如多层Web服务模型、XMLWebService、XML数据传输、.NET组件开发技术等,使开发的速度大大加快,使数据传输的可靠性大大加强。结合快速发展的多媒体技术,可以构筑出一个优良的现代远程教育体系。
介绍了分布式数据库系统的概念 ,引入了B/S网络计算模式和JavaServlet技术 ,并以某市自来水公司CIMS系统为背景提出了一套以JBuilder为开发环境的具体实现方案。
SYNFlood攻击是拒绝服务攻击中的一种典型攻击手段。在分析攻击原理的基础上,介绍了该攻击在Linux平台上的实现方法及目前防范该攻击的主要技术。
详尽说明了XMLWeb服务的安全问题,介绍了几种相关的安全技术,着重示例阐述了基于SOAP协议的安全技术。
讨论了一种基于大型数据库Oracle和前台开发系统PowerBuilder程序设计中通用查询功能的设计思路与实现方法 ,并给出了几个关键函数的原代码
SET(安全电子交易 )协议是由MasterCard和VISA制定的 ,基于信用卡的安全支付协议。在SET协议基础上提出了一种有效公平的安全电子交易协议 (SET 1 ) ,该协议不仅保持了SET原有安全和有效的特性 ,而且实现了交易有效证据的生成和保存 ,从而保证了交易的公平性 ,同时还引入交易状态机制。最后 ,讨论该协议的安全性、有效性和公平性
目前COM组件技术逐渐得到广泛应用,但COM组件的开发较为复杂。讨论了基于Rose和ATL的COM组件开发方法,该方法将COM组件的建模方法同编程实现技术紧密有机地结合在一起,易于掌握。另外还介绍了在使用Rose对应用系统建模时,如何引入系统所用到的COM组件的类型库。
在传统的DAS构架之后,SAN和NAS的解决方案给存储领域带来了巨大的影响,分析和比较了目前存在的各种存储构架,在SAN和NAS构架的基础上,结合其各自的优点,提出了一种新型的共享存储网络构架。阐明了这种构架的特点;并进一步采用SNIA共享存储模型(SNIASharedStorageModel)分析了该构架;最后就这几种构架的性能作了比较。
在用户享有授权可自由添加记录的公共数据库中,数据良莠难分。为提高公共数据库的可信度,推广了敏感数据的完整性锁的概念,提出了一种对经由领域专家验证的可靠记录作标记的方法,且称所作标记为认证码。讨论了认证码的生成准则,并借助于MD5算法、DES密码算法中的S盒和RSA密码体制,设计了一个认证码的生成方案,最后还指出所生成的认证码能有效地抵抗伪造攻击和替代攻击。