Web文档清洗系统中HTML解析器的开发

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户：jackiesage

【摘要】

：

对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的

【作者】

：

王强张福炎

【机构】

：

南京大学计算机科学与技术系,南京大学计算机软件新技术国家重点实验室江苏南京210093,江苏南京210093

【出处】

：

计算机应用研究

【发表日期】

：

2002年02期

【关键词】

：

文档结构解析器 Web文档清洗系统词法器文档清洗词法分析器文本文档规则学习语法分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

对于组建一个面向Web的信息系统来说 ,去除掉脚本、广告链接以及导航链接等无用数据 ,将提高信息存储和检索的效率 ;同时 ,基于语义对Web文档进行合并和分割也会有助于信息的管理 ,这些都是Web文档清洗系统的任务。在Web文档清洗中 ,无论是脱机的规则学习还是联机的文档清洗 ,都需要建立在对Web文档的结构和内容进行分析的基础之上。从HTML解析的一般概念入手 ,结合Web文档清洗系统的需求 ,描述了一个自主开发的HTML解析器的结构 ,并对其组成部分 :词典、词法分析器和语法分析器的设计作了详细的讨论 For building a Web-oriented information system, the removal of unnecessary data such as scripts, advertising links and navigation links will improve the efficiency of information storage and retrieval. At the same time, merging and segmenting Web documents based on semantic information will also help Management, these are the tasks of Web document cleaning system. Web document cleaning, whether it is offline learning rules or online document cleaning, you need to build on the Web document structure and content based on the analysis. Starting from the general concept of HTML parsing, this paper describes the structure of a self-developed HTML parser based on the needs of the Web document cleaning system and discusses in detail the design of its components: lexicon, lexical analyzer and parser

其他文献

创业者不只是春天的孩子

在大多数人恐惧的时候,你应该更勇敢一点。先知先觉的人,已经开始预言新一轮资本危机乃至经济危机。对创业者来讲,这个冬天自然是更加残酷和值得警惕的。其实,冬天是真正的创

期刊

创业家卷首语低成本扩张创业期就是你快速成功天使投资心理暗示抗压性原住民

开心岛

不再买单一位画家虽贫穷但极富同情心。在一次乘火车返家的途中，他把身上仅剩的几枚硬币全给了一个乞丐，可下火车又遇上另一个乞丐，画家忘了他身上已分文不剩，又邀这位上馆子

期刊

典狱长十美在旅途中自动装置天牢终身监禁

安徽投入270亿建数字安徽框架

随着《数字安徽建设五年规划纲要(2003-2007年)》的顺利实施,截至目前,安徽省光纤通信线路已通达全部行政村,宽带数据网覆盖所有乡镇和大部分行政村,“数字安徽”框架基本建

期刊

宽带数据光纤通信宽带网移动电话用户电子政务网络全部基础设施体系网站群电视人口万户

重新认识和确认企业法人制度是企业制度创新的核心

期刊

企业法人制度企业制度创新国有企业公司资本企业改革计划经济体制商品经济条件民事权利能力立法形式出资者

首都区县

北京市公安局宣武分局党委、工会慰问特困民警春节期间,北京市公安宣武分局党委成员和工会干部分别对18名生活困难的民警、职工进行了慰问,共使用送温暖基金56,000元。近几

期刊

工会组织职工生活分局党委椿树街道街道工会工会作用职工学校副主席短期工名誉校长

为了民族地区的振兴——民进中央考察团赴滇西北考察纪实

“民族地区的发展问题要上升到国家战略部署的高度才能更好更快地解决。”这是民进中央深入考察滇西北民族地区之后得出的重要结论。在中共中央、国务院提出科学发展观和“五

期刊

民族地区迪庆州社会发展问题滇西北国家民委怒江州少数民族干部战略部署三江并流丽江市

茶坞供电段工会开展\\"安全自控型班组\\"创建活动

茶坞供电段工会为了充分发挥工会组织在创建安全自控型班组中的作用。日前开展了安全自控型班组创建活动。一、加强教育引导,发动全员参与 Tea dock power supply section

期刊

工会组织供电段骨干带头作用组织作用文化生活自身权益学习型班组后勤管理监督检查终身学习理念

在多彩的亲子阅读活动中快乐成长

阅读,无论对于成人、孩子都是一件有意义的事情。孩子良好阅读习惯的培养需要家庭和幼儿园密切配合,形成强大的教育合力,从实践来看,多彩的亲子阅读活动不仅是培养家长、孩子

期刊

良好阅读习惯图画书家庭氛围教育合力伙伴们松居直书香校园小伙伴阅读面来园

The Ministry of Industry and Information Technology Published Scrap Copper and Scrap Aluminum Indust

According to news on the website of the Minis-try of Industry and Information Technology on March 4, on March 4 the Ministry of Industry and Information Technol

期刊

smeltingplannedopinionproducingcompanieslistedrecyclingdrafthoneynotice

Node B完善爱立德端到端能力 TD—SCDMA二期竞争升级

推出TD-SCDMA Node B后,爱立信具备了端到端的TD-SCDMA商用解决方案提供能力,成为TD-SCDMA无线网络市场最新杀出的一支劲旅。 After the launch of TD-SCDMA Node B, Ericss

期刊

NodeB立德网络市场中兴中国移动基站建网二期建设射频单元无线网络控制器

Web文档清洗系统中HTML解析器的开发

与本文相关的学术论文