基于Ontology的Web内容二阶段半自动提取方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户：WHBGODWHBGOD

【摘要】

：

目前Web中的海量信息已经成为人们重要的信息来源 ,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点 .但是Web页面的初始设计目的是为了方便用户浏览 ,

【作者】

：

高军唐世渭

【机构】

：

北京大学信息科学技术学院,北京大学视觉与听觉处理国家重点实验室北京100871,北京100871

【出处】

：

计算机学报

【发表日期】

：

2004年03期

【关键词】

：

半自动提取 Ontology Web内容程序生成 Web提取 XML 无结构提取结果路径表达式提取系统

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前Web中的海量信息已经成为人们重要的信息来源 ,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点 .但是Web页面的初始设计目的是为了方便用户浏览 ,而不是便于应用程序自动处理 ,如何实现一个精确的、应用广泛的提取系统面临很多困难 .传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序 ,但是基于交互产生的包装程序不具备普遍的应用性 ,基于自动生成的包装程序准确性不高 .该文提出了一种新的二阶段基于语义的半自动提取方法 ,在保证提取准确性的前提下 ,尽可能减少交互操作 ,同时随着参与网站的增加 ,逐步提高包装程序生成的自动化 .相对于目前的方法 ,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性 .其有效性在原型系统中得到验证 .应用该方法 ,已经成功提取了12 0万HTML页面 . At present, massive information in the Web has become an important source of information for people, and how to extract information from a large amount of semi-structured or unstructured HTML pages has become a research hotspot now. However, the initial design of the Web page is for the convenience of users It is not easy for the application to process automatically, and how to implement a precise and widely used extraction system faces a lot of difficulties. The traditional method can be roughly divided into an interactively generated wrapper and an automatically generated wrapper, but the interactively generated wrapper does not Which has universal applicability and low accuracy based on automatically generated packaging program.This paper proposes a new two-stage semantic-based semi-automatic extraction method, which can reduce the interaction as much as possible while ensuring the accuracy of extraction, meanwhile, With the increase of the number of participating websites, the automation of wrapper generation is gradually improved.Compared with the current methods, this method considers both the accuracy of the wrapper extraction results and the universality of the extraction process.The validity of this method is obtained in the prototype system Using this method, we have successfully extracted 12 0 HTML page.

其他文献

对市场经济的两点认识

经过十多年的探索、争论,党的十四大终于把市场经济确定为我国经济体制改革的目标模式,在大多数人中取得了共识,得到了拥护。但是,对市场经济的认识,也还有一些看法尚不一致

期刊

经济体制改革不等于制度属性不发达市场调节所有制性质在原产品生产市场供求状况社会经济体制

是你把阳光传递给我

这学期，我的同桌换成了徐敏—— 一个快乐、阳光的女生。　　老师让徐敏做我同桌的意思是：我是一个性格很内向的女生，不开朗，不合群，希望徐敏的“阳光心情”能传递给我一些，修正我性格里“忧郁”的东西。　　徐敏与我做同桌的第一天，就传递给我一些“阳光”。　　她给我讲了一个笑话——蜗牛的妈妈跟小蜗牛说：“孩子，今天早些儿起，我带你去邻村相亲。”小蜗牛说：“俺还未成年，不能结婚的。”蜗牛妈妈说：“傻孩子，等我

期刊

徐敏英语老师英语作文对我说外地打工“阳光”最底层她说英语文章七班

等待合欢树的鹦鹉

我是一只鹦鹉,朱莉也是一只鹦鹉。但我是灰毛鹦鹉,而它则全身披着橄榄绿的羽毛,头顶和颈部带有些浅蓝色,好像王室里的公主一样,不错,它的名字就叫做公主鹦鹉。它是远路而来的

期刊

公主鹦鹉浅蓝色万千宠爱这一天自由飞翔不明就里端正好上当了安之

跳舞的光斑

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

蜿蜒曲折

声带发声的原理及保护

语言(包括艺术语言)是人类所特有的功能,对人的生命活动具有重要意义。人的语言功能是一个涉及多个器官、系统的复杂生理过程,而发声则是此过程中的重要环节。因此,熟悉发声

期刊

声带麻痹声门裂软骨间部声韧带声门下压发声困难发声器官语言功能声带小结声带突

学前教育课程游戏化的实践与思考

随着时代的进步,人们对游戏的看法也已经有所进步,不再仅仅当做是一种幼儿玩乐的工具,而是渐渐对游戏促进幼儿的作用重视起来,通过专家发现,游戏可以让幼儿更好的认识这个世

期刊

游戏化学前教育这个世界椅子抱抱语言行为教师角色定位沟通性想要综合素质全面

奥美拉唑治疗胃溃疡致真菌感染1例报告

患者男,52岁,因间歇性腹痛1年,近期加重,于2002年2月17日入院。查体:营养一般,神志清,体温36℃,轻度贫血貌,心肺听诊无异常,腹软,上腹部有压痛。B超检查肝脾未见 Male, 52

期刊

真菌感染轻度贫血貌间歇性腹痛上腹部胃镜复查胃酸分泌奥美拉哇涂片镜检竹节状天后

小学数学教学实用性的有效提升

当下00后的小学生属于第二代独生子女,他们的父母大部分也是独生子女,面对这样的社会和家庭教学环境,这部分小学生对教师所教学的东西存在一定的好奇,也存在一定的逆反,而逆

期刊

教学实用性实践生活有效提升轴对称图形对称美苏教版课堂训练应用意识价值倾向美术老师

鱼类的行为——集群与信号

集群是大多数鱼类,尤其洄游性鱼类生活周期中的重要行为之一,信息是这些鱼类从事一切生命活动必不可缺少的条件。集群的大小,从成百上千到数以万计。 Clustering is one of

期刊

鱼类生活周期洄游性鱼类发电器官发光器雄鱼小黄鱼雌鱼嗅觉器官发电细胞

《灰色系统模型在农村经济中的应用》评介

灰色系统理论是我国学者邓聚龙教授创立的系统科学的一个新分支。它是针对客观系统(特别是社会经济系统)中普遍存在着信息不完全或关系不确定的现象,即具有灰色性而提出来的

期刊

灰色系统模型灰色系统理论农村经济灰色性社会经济系统邓聚龙经济分析社会经济因素农业发展数学模型

基于Ontology的Web内容二阶段半自动提取方法

与本文相关的学术论文