论文部分内容阅读
在Web上数据大多是结构化的,但事先并不熟知数据的结构,因此不能有效地查询感兴趣的数据。提出了一种独立于文本抽取本体的方法,其过程包括表的理解、数据集成和本体生成,其中表理解是搜寻定位兴趣表、识别及匹配属性和值,并形成记录;数据集成是匹配源记录和目标模式;本体卷积是将源记录的数据抽取到目标模式。结果表明这种方法可以通过已知的目标模式有效地抽取未知结构的数据。