【摘 要】
:
DeepWeb结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述,提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。
【基金项目】
:
国家自然科学基金资助项目(60773049),江苏大学博士生创新基金资助项目(CX08B_18X)
论文部分内容阅读
DeepWeb结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述,提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。
其他文献
为了保护原始签名者的个人隐私,同时更好地确保代理签名的强不可否认性,在代理授权阶段引入指定验证者的思想,构造了一个基于离散对数难题的强不可否认的指定验证者代理签名方案。新方案不仅实现了只有代理签名者才能验证原始签名者的授权签名,而且确保了当代理签名者否认代理签名时,指定验证者可以在不造成安全隐患的前提下,向公众验证签名,指认代理签名者的身份。性能分析表明,该方案具有较高的效率,且满足代理签名的各种
为了提高相似物体干扰、光照变化等复杂环境下目标跟踪的稳定性,提出利用Fisher准则的在线选择鉴别性特征,将在线特征选择嵌入到跟踪算法中。但是,在目标被严重遮挡时仍在线选择鉴别性特征,会使目标模板偏移,导致跟踪失败。为了在目标被严重遮挡的情况下仍能在线选择鉴别性目标特征,选择一个可靠的子区域来推测被遮挡目标的颜色特征,再选择鉴别性特征。实验结果表明该方法在相似物体干扰、被跟踪目标被遮挡等复杂环境下
一、案例资料(一)简要案情2007年8月28日10时许,百色市右江区某招待所服务员在打扫房间卫生时发现207号房内一名旅客死在床上。经调查,死者莫××,男,25岁,广西凌云
为了向e-Learning环境中的学习者提供符合其个性化需求的学习服务,结合本体论具有概念和关系定义明确的特性,提出了e-Learning环境中学习者的个性化情形本体模型和相应的学习者个性化服务处理方法,该方法综合考虑了学习者的认知状态和学习偏好,进行个性化的答疑和进一步学习的内容推荐。采用该方法实现的原型系统实验表明,可使学习者的学习更有针对性,可更及时有效地消解疑惑,从而提高了学习者的学习效果
基于前向安全签名的思想,提出了一个代理权受保护的前向安全多重代理签名方案。该方案满足代理签名的五个安全需求:可验证性、强不可伪造性、强可识别性、强不可否认性、代理签名的可区分性;新的方案同时保护了代理签名人和原始签名人的权益,还具有前向安全性。分析表明该方案是安全且可行的。
针对中文组织机构名识别中的标注语料匮乏问题,提出了一种基于协同训练机制的组织机构名识别方法。该算法利用Tri-training学习方式将基于条件随机场的分类器、基于支持向量机的分类器和基于记忆学习方法的分类器组合成一个分类体系,并依据最优效用选择策略进行新加入样本的选择。在大规模真实语料上与co-training方法进行了比较实验,实验结果表明,此方法能有效利用大量未标注语料提高算法的泛化能力。
针对土木工程领域中的复杂参数反分析问题,基于常规蚁群算法进行了数学模型的构建、算法结构分析,并采用残留信息素数量限制、信息素的持久性系数自适应控制和全局更新规则对算法进行了加强设计,提出了双参数交叉影响的连续域组合优化蚁群算法;同时通过选取五个比较敏感的控制因子:蚁群数量、算法收敛标准、最小信息素持久性系数、循环次数和信息素强度常量进行了数字仿真实验,提出了算法的优化组合参数。通过实例对这种参数识
针对蚁群算法搜索时间长、易于陷入局部最优解的缺点,提出一种新的改进算法——分工合作的加权蚁群算法。此算法采取分工合作的方式,在信息素初始化、状态转移概率中分别加入权值,并运用遗传算法中排序的概念对信息素更新机制进行排序加权,此外对信息素上限加以限制。最后以TSP为例,验证了此改进算法不但在收敛速度上有了大幅度提高,而且有效避免了易于陷入局部最优解的缺点,从而证明了提出的新算法是合理有效的。
针对纯电动轿车车窗防夹使用安全方面的需求,以解析模型的故障诊断理论为基础,提出了H-/H∞性能指标的最优鲁棒故障诊断车窗防夹控制算法。该算法将车窗防夹事件发生时的电机转矩变化率看做故障,通过构建鲁棒故障诊断观测器产生一个残差信号,当车窗防夹发生时残差会显著偏离零值,从而将纯电动轿车车窗防夹检测问题转换为H-/H∞性能指标的鲁棒故障诊断问题,进而利用线性矩阵不等式LMI的方法来求解。在MATLAB环
针对方程式重排序算法易于受到随机重排序技术攻击的问题,提出了基于中国剩余定理的软件水印算法,并通过引入水印认证中心达到水印的认证。该算法运用中国剩余定理将水印进行分解,将分解得到的序列与方程式系数序列做相关运算,使得水印与方程式的系数相关联。对得到的序列与所选取的除数序列及倍数作进一步处理生成密钥,该密钥仅属版权所有者且处于保密状态。验证版权时,版权所有者对密钥解密并进行相关运算,提取出正确的水印