基于表格特征的Web数据抽取方法

来源 :2009国际信息技与应用论坛 | 被引量 : 0次 | 上传用户:katou1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的普及,web上有价值的信息日益增多,使得web数据抽取技术成为近年来的研究重点。通过分析近几年web抽取技术的研究成果,根据现有的抽取技术所面临的可维护性差和实用性不高等不足,提出一种基于表格特征的web数据抽取方法。该方法利用表格数据特征的规则表达式进行模式匹配,通过解析页面表格的HTML提取出表格数据,从而提升了抽取系统的可维护性和实用性。
其他文献
随着计算机技术的不断普及,各种应用系统也越来越多。每个系统都有大量的备份数据,系统运行的时间越长,系统的备份数据就越多,但是并不是所有的备份数据都是有价值的。针对大量的
传统的Web挖掘模型以Web日志作为数据源,存在诸多问题。为此,在简要分析了当前Web挖掘模型的基础上,提出了一种基于应用层日志的Web挖掘模型AWMM。该模型采用Java和XML技术在应
字符旋转和平移都会降低图像质量,影响识剐准确率。研究了提取字符旋转不变特征的Zernike矩字符识别方法,以及利用扩展模板模拟字符平移的字符识别方法。分析了两种方法的优缺
Minerva Ⅱ模型是近些年来出现的一种实现识别优先决策模型的方法。基于Minerva Ⅱ的识剐优先决策模型实现也不能解释长期记忆中记忆痕迹的位置在回忆和识别中的影响,而回忆的
图像分割技术是图像处理到图像分析的关键步骤,应用基本的分割技术很难达到多阈值的自适应精确选取。通过图像直方图的修正,实现图像直方图的平滑处理,消除大量的虚假阉值点,保持
会议
域名系统是Internet的基础。IPv6网络的新特性,要求基于IPv6的域名系统提供动态高效的域名服务。鉴于传统的域名系统模型使得DNS服务器容易成为网络的瓶颈和攻击目标,提出了采
会议
以PMAC为主控单元,以PC机为上位机,对双焊矩管道焊接机器人控制系统软件的软件进行了研究。该软件有两部分组成,一部分为由VisualBasic.NET开发的上位机软件,主要实现焊接参数的
会议
车牌定位是车牌识别技术的一个关键步骤。提出了一种基于车牌纹理特征和连通域分析的车牌定位方法。利用一系列的图像预处理如:灰度转换、图像增强、图像二值化、边界提取、中
对民航维修保障能力评估的方法进行了研究,首先利用专家调查研究法(Delpi法)建立了航空维修保障能力评估模型;再应用层次分析法(AHP法)的原理明确了各指标权重的算法,最后应用可
会议
肠道细菌或对肠癌负有责任。肠癌患者的消化系统中通常拥有较高水平的特定大肠杆菌菌株。如今,一项发表于《科学》杂志的研究證实,该细菌产生的一种毒素损伤肠道细胞中的DNA,而这或许是癌变的第一步。  此前研究发现,约20%的大肠杆菌菌株产生一种被称为colibactin且损伤DNA的毒素。患有炎症性肠病和肠癌的病人通常在其消化系统中拥有较高水平的colibactin菌株。  为探寻colibactin对
期刊