面向Deep Web数据自动抽取的模板生成方法

来源 :计算机应用研究 | 被引量 : 13次 | 上传用户：maferhipo

【摘要】

：

DeepWeb结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述,提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。

【作者】

：

杨晓琴鞠时光曹庆皇王秀红

【机构】

：

江苏大学计算机学院

【出处】

：

计算机应用研究

【发表日期】

：

2010年01期

【关键词】

：

DEEP WEB 数据抽取模板生成文法推断 Deep Web data extraction template generation grammar

【基金项目】

：

国家自然科学基金资助项目（60773049）,江苏大学博士生创新基金资助项目（CX08B_18X）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

强不可否认的指定验证者代理签名方案

为了保护原始签名者的个人隐私,同时更好地确保代理签名的强不可否认性,在代理授权阶段引入指定验证者的思想,构造了一个基于离散对数难题的强不可否认的指定验证者代理签名方案。新方案不仅实现了只有代理签名者才能验证原始签名者的授权签名,而且确保了当代理签名者否认代理签名时,指定验证者可以在不造成安全隐患的前提下,向公众验证签名,指认代理签名者的身份。性能分析表明,该方案具有较高的效率,且满足代理签名的各种

期刊

数字签名代理签名指定验证者离散对数强不可否认性digital signature proxy signature designated verif

在线特征选择和遮挡处理的目标跟踪

为了提高相似物体干扰、光照变化等复杂环境下目标跟踪的稳定性,提出利用Fisher准则的在线选择鉴别性特征,将在线特征选择嵌入到跟踪算法中。但是,在目标被严重遮挡时仍在线选择鉴别性特征,会使目标模板偏移,导致跟踪失败。为了在目标被严重遮挡的情况下仍能在线选择鉴别性目标特征,选择一个可靠的子区域来推测被遮挡目标的颜色特征,再选择鉴别性特征。实验结果表明该方法在相似物体干扰、被跟踪目标被遮挡等复杂环境下

期刊

在线选择鉴别性颜色特征遮挡处理目标跟踪online selecting discriminative color feature occlusion p

1例女性杀人案件现场分析

一、案例资料(一)简要案情2007年8月28日10时许,百色市右江区某招待所服务员在打扫房间卫生时发现207号房内一名旅客死在床上。经调查,死者莫××,男,25岁,广西凌云

期刊

现场分析杀人案件简要案情尸体检验百色市右江区凌云县中学教师现场勘验死亡时间喷溅血迹

基于本体的e—Learning环境个性化服务处理方法

为了向e-Learning环境中的学习者提供符合其个性化需求的学习服务,结合本体论具有概念和关系定义明确的特性,提出了e-Learning环境中学习者的个性化情形本体模型和相应的学习者个性化服务处理方法,该方法综合考虑了学习者的认知状态和学习偏好,进行个性化的答疑和进一步学习的内容推荐。采用该方法实现的原型系统实验表明,可使学习者的学习更有针对性,可更及时有效地消解疑惑,从而提高了学习者的学习效果

期刊

e—Learning本体学习情形个性化服务e-Learning ontology learning situation personaliz

代理权可撤销的前向安全多重代理签名方案

基于前向安全签名的思想,提出了一个代理权受保护的前向安全多重代理签名方案。该方案满足代理签名的五个安全需求:可验证性、强不可伪造性、强可识别性、强不可否认性、代理签名的可区分性;新的方案同时保护了代理签名人和原始签名人的权益,还具有前向安全性。分析表明该方案是安全且可行的。

期刊

代理签名前向安全代理撤销代理保护proxy signature forward-security proxy revocation proxy-p

基于Tri—training半监督学习的中文组织机构名识别

针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。

期刊

中文组织机构名半监督学习协同训练Tri—trainingChinese organization name recognition semi-supe

双参数交叉影响的连续域蚁群算法设计

针对土木工程领域中的复杂参数反分析问题,基于常规蚁群算法进行了数学模型的构建、算法结构分析,并采用残留信息素数量限制、信息素的持久性系数自适应控制和全局更新规则对算法进行了加强设计,提出了双参数交叉影响的连续域组合优化蚁群算法;同时通过选取五个比较敏感的控制因子:蚁群数量、算法收敛标准、最小信息素持久性系数、循环次数和信息素强度常量进行了数字仿真实验,提出了算法的优化组合参数。通过实例对这种参数识

期刊

蚁群算法信息素参数土木工程连续优化问题ant colony algorithm pheromone variable civil enginee

分工合作的加权蚁群算法

针对蚁群算法搜索时间长、易于陷入局部最优解的缺点,提出一种新的改进算法——分工合作的加权蚁群算法。此算法采取分工合作的方式,在信息素初始化、状态转移概率中分别加入权值,并运用遗传算法中排序的概念对信息素更新机制进行排序加权,此外对信息素上限加以限制。最后以TSP为例,验证了此改进算法不但在收敛速度上有了大幅度提高,而且有效避免了易于陷入局部最优解的缺点,从而证明了提出的新算法是合理有效的。

期刊

蚁群算法分工合作加权排序加权旅行商问题ant colony algorithm division-cooperation of labor wei

纯电动轿车车窗防夹的H_/H∞鲁棒故障诊断方法研究

针对纯电动轿车车窗防夹使用安全方面的需求,以解析模型的故障诊断理论为基础,提出了H-/H∞性能指标的最优鲁棒故障诊断车窗防夹控制算法。该算法将车窗防夹事件发生时的电机转矩变化率看做故障,通过构建鲁棒故障诊断观测器产生一个残差信号,当车窗防夹发生时残差会显著偏离零值,从而将纯电动轿车车窗防夹检测问题转换为H-/H∞性能指标的鲁棒故障诊断问题,进而利用线性矩阵不等式LMI的方法来求解。在MATLAB环

期刊

纯电动轿车车窗防夹鲁棒故障诊断H/H∞线性矩阵不等式pure electric vehicles window anti-pinch robust

一种新的方程式软件水印算法

期刊

软件水印方程式中国剩余定理水印认证中心software watermarking equation Chinese remainder theo

面向Deep Web数据自动抽取的模板生成方法

与本文相关的学术论文