风险主题网关信息采集模块研究与设计

来源 :西北大学 | 被引量 : 0次 | 上传用户：hbl20062

【摘要】

：

建设主题网关，是综合风险防范研究的重要组成部分，其中对信息采集技术的研究尤为重要。本文针对主题网关的不同信息来源，采取定向Extractor、深度Extractor两种方式进行信息采集

【作者】

：

朱翔

【机构】

：

西北大学

【出处】

：

西北大学

【发表日期】

：

2007年期

【关键词】

：

综合风险定向抓取表单理解知识库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

建设主题网关，是综合风险防范研究的重要组成部分，其中对信息采集技术的研究尤为重要。本文针对主题网关的不同信息来源，采取定向Extractor、深度Extractor两种方式进行信息采集；建立风险知识库，处理采集到的信息，工作主要分为以下三部分：1)针对普通网页信息，采用定向Extractor：定义模板，定向抓取种子站点列表页；采用DOM和启发式规则，实现列表块的定位；提出基于标签距离的列表聚类包装方法，改善聚类效果，实现列表的聚类包装，得到结构化信息项；提出容器距离，改进基于Finn的正文抽取方法，实现信息的正文抽取，完成信息纪录集的抽取。2)针对深度网络中的信息，采用深度Extractor：●表单理解：搜索表单是访问深度网络的唯一接口，首先构造基于逻辑属性的表单逻辑模型；提出表单表达式，基于表单布局识别逻辑属性标签，分析表单元素间语义，构造启发式规则，实现表单逻辑属性的抽取。●表单的提交：以表单逻辑模型为基础，改进提交策略，提出随机排除型提交策略，实现表单的自动提交。●响应页处理：构造启发式规则，抽取响应页对应记录集。3)根据元数据，建立风险数据模型，统一抓取到的数据；建立风险知识库，实现对风险记录的分类，加工及处理。

其他文献

认知无线电的若干关键技术研究

传统的静态的无线频谱管理方式使得部分频谱通常处于空闲状态，限制了频谱的使用效率。近几年提出的认知无线电技术旨在提高空闲频谱的利用率，满足日益增长的无线通信服务需求。

学位

频谱资源匮乏空闲频谱认知无线电多机调度模型CSGCCREA无线频谱管理无线通信系统

基于TRIP的大容量光存储电子公文档案管理系统的研究

在党的十八大报告中，“信息化”这三个字出现了12次，可见国家对信息化的重视，而政府、企业、事业单位工作的全面信息化，离不开公文的电子化。早在党的十六大就提出,“进一步转变

学位

电子公文TRIP大容量光存储全文检索非结构化数据

以太网接入SUPANET技术研究

光纤通信技术的迅速发展，特别是密集波分复用(DWDM)技术的发展，使单波长上的数据传输率达到80Gbps，单根光纤接近Tbps，从而为利用计算机网络实现有线电视网络、电话交换网络和计算

学位

SUPASUPANET虚拟MAC地址UNI信令

网格环境中资源发现与监控机制的研究

网格被认为是下一代的网络，是一种正在飞速发展的网络技术。它利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”，这样组织起来的“虚拟的超级计算机”具有

学位

网格资源资源监控GLOBUSP2P

Linux 0.11内核研究与内核编程实践

Linux具有灵活性与开放性,并完全遵循POSIX标准,在各个领域得到了广泛的应用。在我国IT业正渴望“崛起”的时代背景下,研究Linux操作系统内核具有非凡的意义。近来,基于Linux

学位

内核POSIX虚拟终端虚拟设备多任务管理

基于WSRF的Auction系统的研究与应用

简单地讲，未来的互联网技术——网格把互联网上的众多计算资源整合成一台虚拟的超级计算机，实现各种资源的全面共享，消除了资源孤岛。随着网格计算研究的深入，人们越来越发现网格

学位

网格开放网格服务架构网络服务资源框架网络服务资源有状态的无状态的

嵌入式IPv6防火墙设计与实现

防火墙是在内部网与外部网之间实施安全防范的系统,它限制外界用户对内部网络的访问,管理内部用户访问外部网络的权限,保护着主机信息在网络上的安全。传统的边界防火墙不能

学位

嵌入式防火墙IPv6WEB管理

基于工作流技术的商品房交易管理系统的研究与实现

为了加强对房地产特别是商品房交易管理运行情况的动态监测，维护商品房买卖双方的合法权益，商品房交易管理系统应运而生。传统的商品房交易管理系统难以满足发展的需要，弊端日益

学位

商品房交易商品房交易系统工作流技术工作流管理系统

规划识别在自动响应系统中的应用

智能规划识别是人工智能研究中一个很活跃的研究领域,它已经被广泛地用于自然语言理解,知识推理,情景演算,agent助手等多个研究领域。尤其近来有学者将规划识别技术与入侵检

学位

规划识别入侵检测系统自动响应规划库

支持流程推荐的工作流协同建模工具的设计研究

工作流技术是近年来计算机应用领域中迅速发展的一项新技术,作为工作流技术的实现,工作流管理系统已广泛应用与众多行业中。工作流系统成功的关键在于输入的工作流的质量。因

学位

工作流模型XPDL相似度量XML文档CSCW

风险主题网关信息采集模块研究与设计

与本文相关的学术论文