论文部分内容阅读
目前公安信息网和刑侦网上含有大量的刑事案件信息,如果只通过人工的方式浏览、搜集、存储信息,很难做到对信息全面、快速的整理,不利于案件的及时侦破。为解决这个问题,本文通过分析公安信息网和刑侦网页的特点,提出主题下主题链接提取方法和网页信息抽取方法,并将提出的方法应用到大连市公安局网页信息抽取系统中。本文首先通过对目录型网页结构特点的研究,具有相同主题的链接大部分都放在同一个布局标签内或者其上下文内。根据目录型网页的特征以及网络蜘蛛技术提出一种基于语义块的主题链接提取算法,此算法可以确定主题相关链接块并将主题块中的链接提取出来。通过实验表明此算法可以减少与主题无关的链接被提取。在主题信息抽取阶段,网页通常由若干个内容块构成,这些内容块通常是由HTML容器标签分割而成的,进行网页布局的标签有<table>和<div>。通过对多数网页的网页正文标题和网页正文的布局的观察与分析,得出网页正文标题与网页正文标题之间的布局可以分为三种情况,但不管网页正文标题与网页正文的布局如何,主题内容都被包含在最多两对布局标签内。基于对网页正文标题和网页正文之间布局的分析,本文通过网页标题和指向该网页的主题链接的链接锚文本来定位网页主题内容块,定位主题内容块以后,对主题内容块构造布局标签树,利用判别规则对标签树进行剪枝,利用正则表达式清除主题内容块中的HTML标记与其它无关文字,完成网页主题信息的抽取。实验表明,利用此方法来进行网页信息抽取能取得良好的抽取效果,由于抽取过程中只对主题内容块进行处理,减少了工作量。本文将主题下主题相关链接的提取方法与主题信息抽取方法应用到大连市公安局刑侦网页信息抽取系统,这个系统的应用提高了刑侦人员获取重要案件信息的速度和准确性,提高了案件侦破的效率。