风险主题网关信息采集模块研究与设计

来源 :西北大学 | 被引量 : 0次 | 上传用户:hbl20062
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
建设主题网关,是综合风险防范研究的重要组成部分,其中对信息采集技术的研究尤为重要。本文针对主题网关的不同信息来源,采取定向Extractor、深度Extractor两种方式进行信息采集;建立风险知识库,处理采集到的信息,工作主要分为以下三部分:1)针对普通网页信息,采用定向Extractor:定义模板,定向抓取种子站点列表页;采用DOM和启发式规则,实现列表块的定位;提出基于标签距离的列表聚类包装方法,改善聚类效果,实现列表的聚类包装,得到结构化信息项;提出容器距离,改进基于Finn的正文抽取方法,实现信息的正文抽取,完成信息纪录集的抽取。2)针对深度网络中的信息,采用深度Extractor:●表单理解:搜索表单是访问深度网络的唯一接口,首先构造基于逻辑属性的表单逻辑模型;提出表单表达式,基于表单布局识别逻辑属性标签,分析表单元素间语义,构造启发式规则,实现表单逻辑属性的抽取。●表单的提交:以表单逻辑模型为基础,改进提交策略,提出随机排除型提交策略,实现表单的自动提交。●响应页处理:构造启发式规则,抽取响应页对应记录集。3)根据元数据,建立风险数据模型,统一抓取到的数据;建立风险知识库,实现对风险记录的分类,加工及处理。
其他文献
传统的静态的无线频谱管理方式使得部分频谱通常处于空闲状态,限制了频谱的使用效率。近几年提出的认知无线电技术旨在提高空闲频谱的利用率,满足日益增长的无线通信服务需求。
在党的十八大报告中,“信息化”这三个字出现了12次,可见国家对信息化的重视,而政府、企业、事业单位工作的全面信息化,离不开公文的电子化。早在党的十六大就提出,“进一步转变
光纤通信技术的迅速发展,特别是密集波分复用(DWDM)技术的发展,使单波长上的数据传输率达到80Gbps,单根光纤接近Tbps,从而为利用计算机网络实现有线电视网络、电话交换网络和计算
网格被认为是下一代的网络,是一种正在飞速发展的网络技术。它利用互联网把分散在不同地理位置的电脑组织成一个“虚拟的超级计算机”,这样组织起来的“虚拟的超级计算机”具有
Linux具有灵活性与开放性,并完全遵循POSIX标准,在各个领域得到了广泛的应用。在我国IT业正渴望“崛起”的时代背景下,研究Linux操作系统内核具有非凡的意义。近来,基于Linux
简单地讲,未来的互联网技术——网格把互联网上的众多计算资源整合成一台虚拟的超级计算机,实现各种资源的全面共享,消除了资源孤岛。随着网格计算研究的深入,人们越来越发现网格
防火墙是在内部网与外部网之间实施安全防范的系统,它限制外界用户对内部网络的访问,管理内部用户访问外部网络的权限,保护着主机信息在网络上的安全。传统的边界防火墙不能
为了加强对房地产特别是商品房交易管理运行情况的动态监测,维护商品房买卖双方的合法权益,商品房交易管理系统应运而生。传统的商品房交易管理系统难以满足发展的需要,弊端日益
智能规划识别是人工智能研究中一个很活跃的研究领域,它已经被广泛地用于自然语言理解,知识推理,情景演算,agent助手等多个研究领域。尤其近来有学者将规划识别技术与入侵检
工作流技术是近年来计算机应用领域中迅速发展的一项新技术,作为工作流技术的实现,工作流管理系统已广泛应用与众多行业中。工作流系统成功的关键在于输入的工作流的质量。因