论文部分内容阅读
互联网技术的迅猛发展,推动了网络信息的爆炸式增长。它容纳了海量的各种类型的数字化信息,包括文本、图形、图像、声音甚至视频。这些信息大都是半结构化或非结构化的数据,因此,如何在浩瀚而又芜杂的网络信息海洋中迅速有效地获得所需的信息是信息处理的一大目标。基于人工智能技术的网页分类系统能依据网页的文本内容的语义将大量的网页自动分门别类,可以大大缩短在线文档的整理时间,从而更好地帮助人们把握所需信息。近年来,网页分类技术也逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。分析了网页与普通文本的不同,根据Web页面的特征,在分析其结构的基础上,实现了一个基于网页DOM树结构的网页分类有效文本信息抽取的系统。该系统有效地过滤掉了首页类型以及图片类型的网页,并有效地剔除有主题类型网页中的标签、广告、图片等内容,保留网页正文及相关信息。对网页分类所涉及到的关键技术,包括分类有效信息抽取、中文分词、维数约简、文本表示模型、分类算法以及分类评价标准等进行了全面的介绍及深入的研究和探讨。通过分析影响特征权重的因素、经典的TF~*IDF公式的不足以及网页文档的结构特征,在前人研究的基础上,给出了“TF~*IDF~*CHI”的权重计算方法。将特征对单个网页的重要性、对网页集的重要性、对类别的重要性和网页的结构特征等因素考虑进来,提高了有用特征的文档描述能力和类别区分能力。并且设置了两组实验针对本文中给出的改进部分进行检验,实验结果表明本文的分类有效信息的抽取和特征权重计算方法对网页分类是有效的,与传统的利用纯文本分类技术实现网页分类的结果相比,分类结果的F1值平均提高7%以上。将网页信息抽取器和网页分类器应用到公安局“网上作战”系统的一个子系统,即公安网刑侦信息抽取系统与发布系统中,实现公安网刑侦信息的抽取和分类发布,并为公安局“网上作战”系统中的其他子系统,如信息比对系统等提供数据支持,取得了不错的效果。