基于DOM树的非规范化表格信息定位技术

来源 :软件导刊 | 被引量 : 0次 | 上传用户:NoNameMan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web表格信息提取已经成为构建本体的重要内容之一,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。关于非规范化表格信息提取的研究比较少,对本体构建造成大量信息缺失。提供一种基于启发式规则的非规范化表格信息定位算法,其对定位非规范化表格准确率较高。
其他文献
随着医疗信息化的不断发展,我国医疗体制改革进程逐步推进。对医学院校实践教学现状进行分析,制定实践教学目标,模拟实现患者从入院登记到出院结算的业务流程,提高医学院校学
为提高IPv4地址空间利用率,IETF提出无类域间路由CIDR地址结构。分析无分类编址CIDR与分类编址的转换、CIDR工作方式、地址分配方法与标记技术,推导最长地址前缀匹配查找算法
无线技术的选择取决于应用程序的类型,要考虑以下条件:范围、频率和数据率。研究了不同移动机器人控制器的无线技术,包括蓝牙、无线网络和无线局域网。通过比较三者的无线技术
在保险行业,大量的文档、票据、证据等作为保险合同的重要组成部分,必须管理好。将保险影像数据管理平台作为保险应用的基础组件,提供影像的全生命周期管理,以有效支撑保险业
在大规模集成互联网络中,需要对网络流量进行异常检测和识别,以保障网络安全。利用高阶累积量对干扰的统计独立性,提出一种基于高阶累积量配准的网络异常流量识别算法。首先
政务微博受众群体广泛、聚众效应强,具有微传播实时性、自由性、碎片化、多元化、多媒体性、互动性强等特点,信息时代政务微博在政府管理体制创新上具有重要作用。对政务微博
互联网以及虚拟技术的广泛应用,推动了数字出版的普及,催生了多种出版应用模式。IT技术的进步,使得基于互联网构建以自动化排版为特征的动态数字出版解决方案成为现实。集群调度技术通过构建任务管理中心,接收并实现外部请求任务在多个业务处理模块之间的分发与调度,从而充分利用计算资源,提升任务处理效率。针对自动化排版并发性强、即时性高以及对数据安全的特殊要求,提出了一种集群出版方法。基于XML格式进行传输参数
针对分散控制系统(Distributed Control System,DCS)和不同类型设备与第三方力控组态软件通讯的问题,提出一种融合OPC技术标准和Modbus RTU、Modbus TCP协议的通讯,有效解决了工厂应急数据采集系统通讯过程中遇到的问题。
主题词表是一种语义词典,在现代信息检索系统中具有良好发展前景。使用主题词有利于实现录入数据的正确性校验和自动标引。借助主题词间的关联,还可实现交互检索,提高检准率
针对数据分析融合平台建设中数据集成开发效率低、数据集成慢和数据网络分散等问题,提出跨网络传输的分布式ETL框架设计。通过对主流ETL工具进行分析,总结了ETL的工作原理及