论文部分内容阅读
当前,Web已经成为人们获取信息的主要渠道之一。然而,用于表达Web页面信息的HTML语言存在着与生俱来的缺点。HTML的“标记”只是告诉浏览器如何显示所定义的信息,却不包含任何语义。因此由HTML语言所表述的Web页面经过浏览器分析后只适合人们浏览,不适合作为一种数据交换的方式由机器处理。同时,由于Web信息的动态性、不规则性、信息量巨大,给信息搜索和查询带来了很大困难。因此,Web信息抽取是目前WWW和DB界研究的热点。
论文给出了一种基于DOM树结构路径和基于文本特征模式匹配的从HTML页面中抽取论文信息的方法,该方法以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息抽取的“坐标”,并且用正则表达式表示抽取信息的文本特征,并以这个基本原理为基础设计了一种归纳学习算法来半自动地生成抽取规则,该方法将抽取出的信息存放在关系数据库中,以支持查询及各种应用。信息抽取过程划分为两个阶段:训练阶段和抽取阶段。在训练阶段,用户选定样本实例,定义所要抽取的信息模式,标记感兴趣的信息,系统在此基础上归纳出信息在网页上的DOM路径及文本特征和属性名,即抽取规则,并保存在知识库中。在抽取阶段,系统根据训练阶段产生的知识库对与样本具有相似结构的网页进行信息抽取,并将抽取出的结果保存在关系数据库中。基于这种抽取方法的原型系统可直接应用于Web查询和搜索,也可用于其它应用(例如数据仓库和数据挖掘等)的数据准备,抽取效果良好。
论文采用此方法,以计算机学报等网站的大量论文网页为样本进行了实验,都可以进行抽取,抽取的效果良好。