一种基于网页源文件的信息提取算法

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户：gby603

【摘要】

：

通过对网页源文件的代码进行分析、设计信息提取的算法,目的是替代人工进行网站相关信息的获取,避免重复性劳动。首先对现有的两种Web结构进行比较分析,然后针对每一种Web结

【作者】

：

赵晓峰凌天斌彭波王转妮

【机构】

：

解放军外国语学院教育技术中心

【出处】

：

计算机与现代化

【发表日期】

：

2012年2期

【关键词】

：

WEB结构信息提取网页标记 Web struction information drawing webpage mark

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通过对网页源文件的代码进行分析、设计信息提取的算法,目的是替代人工进行网站相关信息的获取,避免重复性劳动。首先对现有的两种Web结构进行比较分析,然后针对每一种Web结构提出信息提取的方案,接下来以日本著名新闻网站NHK为例,对上述方案进行验证和代码实现,最后对系统的功能扩充进行更高层次的展望。

其他文献

非结构化P2P网络的一种改进搜索算法

分析非结构化P2 P网络中利用原始的洪泛法进行资源搜索时产生冗余查询包的原因，提出整改的措施和优化的机制，在此基础上给出改进的搜索策略，同时设计出一种更好的分段搜索算法，并

期刊

非结构化P2P网络洪泛法冗余查询包搜索算法模拟unstructured P2P networkflooding algorithmredundan

面向无线基带处理的多核处理器的基准程序测试集

随着无线通信技术的不断发展，通信标准和协议频繁更新以满足人们对高速数据传输的需求。传统的ASIC解决方案可以较低的成本提供较好的性能，但开发周期长、提供的可编程能力十分

期刊

无线基带处理基准程序集多核处理器wireless baseband processing benchmark multi-core processor

园区网流量识别技术选择与控制策略设计

以园区网的带宽资源不足为背景，分析园区网络面临的主要问题，研究园区网中的大数据流业务的主要特点，采用“DPI＋DFI”应用识别技术，基于园区网中不同应用和不同网段对网络资源使用

期刊

园区网P2PDPIDFI识别技术流量控制策略campus network Peer-to-Peer Deep Packet Inspectio

一种信息系统从C/S模型向多租户SaaS的迁移方法

针对SaaS应用多租户、权限控制、数据隔离等问题,本文分析并设计一种多租户的SaaS的信息系统模型,从接入层、访问控制层、数据模型层3个层面,详细描述一种将物流业务从原有的

期刊

多租户信息系统迁移multi-tenancy information system migration

一种基于约束分析精简控制流图方法

很多静态代码分析的方法都以控制流图作为基础，本文采用一种基于约束的分析技术，包括基于约束的0-CFA，加入数据流的分析方法构造约束集，使用不动点算法求出约束集的最小解并生成

期刊

静态分析基于约束的分析控制流分析不动点算法static analysis constraint-based analysis control flo

基于遗传算法的测试用例自动生成及其改进方法

遗传算法是一种通用的自适应搜索算法。它给测试用例自动生成问题带来了新的解决思路。但是传统的遗传算法应用于测试用例自动生成，重组、突变的随机性容易使种群中多样性遭到

期刊

遗传算法测试用例突变控制策略优化解控制策略最优解genetic algorithm test case mutation control stra

基于机器视觉钢板表面缺陷检测技术研究

钢板表面缺陷严重降低钢板的耐磨性、耐高温性、耐腐蚀性、抗疲劳强度等性能,因此,钢板表面缺陷的检测就显得尤为重要。本文基于机器视觉采用Matlab图像处理技术对钢板表面缺陷进行检测识别。在不同光照条件下采集钢板表面图像,分别进行图像处理,讨论分析不同光照条件和去噪方法对检测结果的影响。首先对缺陷图像进行预处理,然后将预处理后的图像二值化及形态学图像处理,使图像背景与对象图形分离,提取出表面缺陷特征,

期刊

机器视觉钢板表面缺陷检测machine vision steel plate surface defects detecting

室内四旋翼无人飞行器特征提取方法

针对室内环境下无人四旋翼飞行器同步定位与地图创建时需要进行特征提取的问题，对特征提取的规则进行修改，提出一种新的特征提取方法。该算法具有传统特征提取算法的优点，特征提

期刊

特征提取聚类加权最小二乘估计feature extraction clustering weighted least square

基于基准比对思想的软件可靠性预测仿真建模研究

可靠性作为衡量软件质量的重要特性,其定量评估和预测已成为人们关注和研究的焦点。本文针对这个问题展开研究,提出一个可用于软件测试之前的早期可靠性预测仿真模型。此仿真

期刊

软件过程度量软件可靠性软件可靠性预测仿真模型software process measurement software reliability sof

基于电致振动效应的触觉再现系统的设计与实现

触觉再现能够再现虚拟物体的表面纹理，在医学、军工、教育、娱乐等领域有重要的研究意义。本文研制一种基于电致振动效应的触觉再现系统，该系统通过增加手指和触觉面板之间的静

期刊

电致振动效应触觉再现静电力摩擦力虚拟现实electrovibration tactile rendering electrostatic fri

一种基于网页源文件的信息提取算法

与本文相关的学术论文