论文部分内容阅读
建设主题网关,是综合风险防范研究的重要组成部分,其中对信息采集技术的研究尤为重要。本文针对主题网关的不同信息来源,采取定向Extractor、深度Extractor两种方式进行信息采集;建立风险知识库,处理采集到的信息,工作主要分为以下三部分:1)针对普通网页信息,采用定向Extractor:定义模板,定向抓取种子站点列表页;采用DOM和启发式规则,实现列表块的定位;提出基于标签距离的列表聚类包装方法,改善聚类效果,实现列表的聚类包装,得到结构化信息项;提出容器距离,改进基于Finn的正文抽取方法,实现信息的正文抽取,完成信息纪录集的抽取。2)针对深度网络中的信息,采用深度Extractor:●表单理解:搜索表单是访问深度网络的唯一接口,首先构造基于逻辑属性的表单逻辑模型;提出表单表达式,基于表单布局识别逻辑属性标签,分析表单元素间语义,构造启发式规则,实现表单逻辑属性的抽取。●表单的提交:以表单逻辑模型为基础,改进提交策略,提出随机排除型提交策略,实现表单的自动提交。●响应页处理:构造启发式规则,抽取响应页对应记录集。3)根据元数据,建立风险数据模型,统一抓取到的数据;建立风险知识库,实现对风险记录的分类,加工及处理。