基于Ontology的Web内容二阶段半自动提取方法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:WHBGODWHBGOD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前Web中的海量信息已经成为人们重要的信息来源 ,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点 .但是Web页面的初始设计目的是为了方便用户浏览 ,而不是便于应用程序自动处理 ,如何实现一个精确的、应用广泛的提取系统面临很多困难 .传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序 ,但是基于交互产生的包装程序不具备普遍的应用性 ,基于自动生成的包装程序准确性不高 .该文提出了一种新的二阶段基于语义的半自动提取方法 ,在保证提取准确性的前提下 ,尽可能减少交互操作 ,同时随着参与网站的增加 ,逐步提高包装程序生成的自动化 .相对于目前的方法 ,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性 .其有效性在原型系统中得到验证 .应用该方法 ,已经成功提取了12 0万HTML页面 . At present, massive information in the Web has become an important source of information for people, and how to extract information from a large amount of semi-structured or unstructured HTML pages has become a research hotspot now. However, the initial design of the Web page is for the convenience of users It is not easy for the application to process automatically, and how to implement a precise and widely used extraction system faces a lot of difficulties. The traditional method can be roughly divided into an interactively generated wrapper and an automatically generated wrapper, but the interactively generated wrapper does not Which has universal applicability and low accuracy based on automatically generated packaging program.This paper proposes a new two-stage semantic-based semi-automatic extraction method, which can reduce the interaction as much as possible while ensuring the accuracy of extraction, meanwhile, With the increase of the number of participating websites, the automation of wrapper generation is gradually improved.Compared with the current methods, this method considers both the accuracy of the wrapper extraction results and the universality of the extraction process.The validity of this method is obtained in the prototype system Using this method, we have successfully extracted 12 0 HTML page.
其他文献
经过十多年的探索、争论,党的十四大终于把市场经济确定为我国经济体制改革的目标模式,在大多数人中取得了共识,得到了拥护。但是,对市场经济的认识,也还有一些看法尚不一致
这学期,我的同桌换成了徐敏—— 一个快乐、阳光的女生。  老师让徐敏做我同桌的意思是:我是一个性格很内向的女生,不开朗,不合群,希望徐敏的“阳光心情”能传递给我一些,修正我性格里“忧郁”的东西。  徐敏与我做同桌的第一天,就传递给我一些“阳光”。  她给我讲了一个笑话——蜗牛的妈妈跟小蜗牛说:“孩子,今天早些儿起,我带你去邻村相亲。”小蜗牛说:“俺还未成年,不能结婚的。”蜗牛妈妈说:“傻孩子,等我
我是一只鹦鹉,朱莉也是一只鹦鹉。但我是灰毛鹦鹉,而它则全身披着橄榄绿的羽毛,头顶和颈部带有些浅蓝色,好像王室里的公主一样,不错,它的名字就叫做公主鹦鹉。它是远路而来的
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
语言(包括艺术语言)是人类所特有的功能,对人的生命活动具有重要意义。人的语言功能是一个涉及多个器官、系统的复杂生理过程,而发声则是此过程中的重要环节。因此,熟悉发声
随着时代的进步,人们对游戏的看法也已经有所进步,不再仅仅当做是一种幼儿玩乐的工具,而是渐渐对游戏促进幼儿的作用重视起来,通过专家发现,游戏可以让幼儿更好的认识这个世
患者男,52岁,因间歇性腹痛1年,近期加重,于2002年2月17日入院。查体:营养一般,神志清,体温36℃,轻度贫血貌,心肺听诊无异常,腹软,上腹部有压痛。B超检查肝脾未见 Male, 52
当下00后的小学生属于第二代独生子女,他们的父母大部分也是独生子女,面对这样的社会和家庭教学环境,这部分小学生对教师所教学的东西存在一定的好奇,也存在一定的逆反,而逆
集群是大多数鱼类,尤其洄游性鱼类生活周期中的重要行为之一,信息是这些鱼类从事一切生命活动必不可缺少的条件。集群的大小,从成百上千到数以万计。 Clustering is one of
灰色系统理论是我国学者邓聚龙教授创立的系统科学的一个新分支。它是针对客观系统(特别是社会经济系统)中普遍存在着信息不完全或关系不确定的现象,即具有灰色性而提出来的