论文部分内容阅读
互联网给我们带来信息爆炸、快速经济的同时,也带来了很多不利于经济发展和人民生活的不良信息,对WEB信息的过滤成为一个热门的研究课题。当前的网页过滤系统主要采用URL过滤和关键字过滤的技术,而这些技术在网页过滤的准确性和速度方面都存在不足。要提高网页过滤的准确性和速度,必须对网页内容进行智能分析。本文在对当前网页过滤技术进行综述的基础上,提出了一种对基于人工神经网络的智能分析网页内容和高效过滤网页的技术,并用软件实现了对色情网页的过滤。 网页是一种结构化的文档,DOM是一个针对HTML和XML文档进行灵活操作的编程接口。在对网页结构进行详细分析后,本文提出了按照结构对网页进行解析,利用DOM技术提取网页文档的不同元素中的文本内容的方法。 把文档以向量的形式定义到实数域中,能够使用模式识别和其它领域中各种成熟的计算方法,极大地提高自然语言文档的可计算性和可操作性。本文论述了几种经典的信息过滤模型,并对其优缺点进行了剖析,根据系统的特点选择向量空间模型作为网页文档的表征形式。 自动分词技术是中文文档向量化的关键,本文阐述了当前的中文分词技术、中文分词中的难题以及当前的中文分词所取得的成果,根据色情网页的特点建立了专用词典,与引入的分词模块相结合,大大提高了中文分词的准确率。 网页过滤的实质是根据内容对网页进行分类。本文比较了文本分类的常用方法,将文本分类的方法应用到网页过滤中。人工神经网络的分布-并行原理使其能用一般速度的处理单元完成极高速的运算,其学习能力和非线性可使之完成过去传统方法无法完成的若干任务。特别是将大量数据根据某种属性分为较少的类,或利用大量数据进行具有较少数可能结果的决策时,神经网络具有无可比拟的优势。本文将自组织特征映射神经网络应用于网页的分类。 最后,作者对实现的系统和当前已经存在的系统的效果进行了比较,并得出结论:本文提出的方法具有快速、准确、高效等特点。