一种基于模板的快速网页文本自动抽取算法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户：lconan

【摘要】

：

针对网页噪声和网页非结构化信息抽取模板生成复杂度高的问题,提出了一种快速获取非结构信息抽取模板的算法。该算法先对网页噪声进行预处理,将其DOM树结构进行标签hash映射,通过自动训练的阈值快速判定网页的主要部分,根据数据块中的嵌套结构获取网页文本抽取模板。对不同类型网站的实验表明,该方法快速且具有较高的准确度。

【作者】

：

陈治昂周知予李大学

【机构】

：

重庆邮电大学计算机学院,贝尔实验室基础科学研究院（中国）

【出处】

：

计算机应用研究

【发表日期】

：

2009年07期

【关键词】

：

噪声非结构化文本抽取模板阈值 noise unstructured text extraction template threshold

【基金项目】

：

重庆市科委科研项目（2006BB3041）,重庆市教委科研项目（KJ060518）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

补肾益智汤治疗血管性痴呆33例临床观察

血管性痴呆（Vascular Dememtia，VD）是由脑血管因素导致脑组织损害引起的痴呆综合征，是老年期痴呆中最常见的类型之一，以认知、记忆、语言、情感、性格等方面的精神减退和消失为主

期刊

血管性痴呆补肾益智汤临床观察治疗公共卫生问题痴呆综合征脑组织损害脑血管因素

基于Change-Tree的本体变更日志存储研究

本体变更的目的是为了适应环境的变化,而变更的前提是要保证本体和使用它的应用或数据间的兼容性,本体概念或属性的重命名、合并、分解都可能造成本体与应用间的不兼容。提出了一种基于Change-Tree的本体变更日志存储方法。该方法采用有向树来组织本体的变更过程,用变更树节点来存储本体变更的信息,用节点间与或关系来关联本体的变更类型;同时该方法能采用树搜索来遍历本体变更的每一个历史阶段,从而为重现本体变化

期刊

本体本体变更变更树与或节点ontology ontology change Change-Tree and-or node

一种基于双混沌映射的加密算法设计与应用

提出了一种基于logistic和Henon的双混沌映射加密算法,通过级联一维混沌系统和二维混沌系统,利用复合迭代所产生的混沌序列对明文进行加密,开发了算法的模拟实验平台。实验结果表明,与传统DES和基于Lorenz的加密相比,该算法在加密强度和运算效率上达到了较好的均衡。

期刊

逻辑映射HENON映射混沌映射加密解密Jlogistic map Henon map chaos map encryption dec

不均衡数据集文本分类中少数类样本生成方法研究

针对传统的分类算法在处理不均衡样本数据时,其分类器预测倾向于多数类,少数类分类误差大,提出了一种基于聚类和遗传算法的样本生成方法。先通过K-means算法将少数类样本聚类分组;再在每个聚类的内部使用遗传交叉和变异操作获取新样本,并进行有效性验证;最后使用原始数据集和新数据集分别训练K最近邻(Knearestneighbor,KNN)及支持向量机(supportvector machine,SVM)

期刊

不均衡数据集分类聚类遗传算法样本生成imbalanced data sets classify clustering genetic algo

基于提升小波和奇异值分解的灰度水印算法

以提升小波变换和奇异值分解的理论为基础,提出了一种新的基于LWT和SVD的灰度图像水印算法。该算法核心思想是先对载体图像进行分块;然后对每块二级LWT后的中高频带继续LWT;再对选取的各频带进行SVD,选取相应的奇异值组成新的矩阵,对新矩阵按规则分块,并再次SVD。通过两次分块、两次LWT和四重使用SVD构造矩阵的方法,有效地将抽取的奇异值重新分配和组合。最后将Logistic混沌置乱后的灰度水印

期刊

数字水印提升小波变换奇异值分解混沌置乱透明性鲁棒性digital watermark LWT singular value decomposit

中医综合疗法治疗扁平疣36例

1临床资料观察病例共36例。均为本院门诊患者，其中男9例，女27例；年龄在7—42岁；病程6月～7年。单纯发于面部者25例，合并于手背者11例，均符合扁平疣的诊断标准。

期刊

中医综合疗法扁平疣治疗临床资料门诊患者

一种自适应的嵌入式协议栈缓冲区管理机制

为避免创建缓冲区过程中必须指定大小和多次释放而导致可能的内存泄露和代码崩溃的弊端,提出一种自适应的嵌入式协议栈的缓冲区管理机制AutoBuf。它是基于抽象缓冲区接口而设计的,具有自适应性,支持动态内存的自动分配与回收,同时实现了嵌入式TCP/IP协议栈各层之间的零拷贝通信。在基于研究平台S3C44B0X的Web server网络数据监控系统上的测试结果表明,该缓冲区的设计满足嵌入式系统网络通信的应

期刊

嵌入式协议栈抽象缓冲区零拷贝内存分配embedded stack abstract buffer zero-copy memory allocat

非下采样Contourlet变换的图像融合及评价

分析和研究了非下采样Contourlet图像表示方法及其在图像变换中的优点,提出一种基于非下采样Contourlet变换的图像融合方法。首先将待融合源图像分解成不同尺度、多方向的频带;然后采取不同的融合方法对分解的高低频分量进行融合处理,低频系数采取局部能量优先的加权法融合,高频系数则采取局部梯度优先的加权法融合;最后将融合的各频带进行逆非下采样Contourlet变换得到融合图像。实验表明,在几

期刊

图像融合非下采样CONTOURLET变换小波变换光谱扭曲image fusion nonsubsampled Contourlet transform

一种基于模板的快速网页文本自动抽取算法

其他学术论文