网页内容过滤的关键技术研究及实现

被引量 : 0次 | 上传用户：YING1216

【摘要】

：

互联网给我们带来信息爆炸、快速经济的同时,也带来了很多不利于经济发展和人民生活的不良信息,对WEB信息的过滤成为一个热门的研究课题。当前的网页过滤系统主要采用URL过滤

【作者】

：

白广奇

【发表日期】

：

2005年期

【关键词】

：

DOM SOM 神经网络中文自动分词文本分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联网给我们带来信息爆炸、快速经济的同时,也带来了很多不利于经济发展和人民生活的不良信息,对WEB信息的过滤成为一个热门的研究课题。当前的网页过滤系统主要采用URL过滤和关键字过滤的技术,而这些技术在网页过滤的准确性和速度方面都存在不足。要提高网页过滤的准确性和速度,必须对网页内容进行智能分析。本文在对当前网页过滤技术进行综述的基础上,提出了一种对基于人工神经网络的智能分析网页内容和高效过滤网页的技术,并用软件实现了对色情网页的过滤。网页是一种结构化的文档,DOM是一个针对HTML和XML文档进行灵活操作的编程接口。在对网页结构进行详细分析后,本文提出了按照结构对网页进行解析,利用DOM技术提取网页文档的不同元素中的文本内容的方法。把文档以向量的形式定义到实数域中,能够使用模式识别和其它领域中各种成熟的计算方法,极大地提高自然语言文档的可计算性和可操作性。本文论述了几种经典的信息过滤模型,并对其优缺点进行了剖析,根据系统的特点选择向量空间模型作为网页文档的表征形式。自动分词技术是中文文档向量化的关键,本文阐述了当前的中文分词技术、中文分词中的难题以及当前的中文分词所取得的成果,根据色情网页的特点建立了专用词典,与引入的分词模块相结合,大大提高了中文分词的准确率。网页过滤的实质是根据内容对网页进行分类。本文比较了文本分类的常用方法,将文本分类的方法应用到网页过滤中。人工神经网络的分布-并行原理使其能用一般速度的处理单元完成极高速的运算,其学习能力和非线性可使之完成过去传统方法无法完成的若干任务。特别是将大量数据根据某种属性分为较少的类,或利用大量数据进行具有较少数可能结果的决策时,神经网络具有无可比拟的优势。本文将自组织特征映射神经网络应用于网页的分类。最后,作者对实现的系统和当前已经存在的系统的效果进行了比较,并得出结论:本文提出的方法具有快速、准确、高效等特点。

其他文献

我国地方政府收入结构问题研究

在社会主义市场经济条件下,地方政府承担着提供地方公共产品的重要职责。为此,地方政府需要筹集一定规模的收入,以维持政府的职能,满足地方政府的支出需要,并促进当地的发展

学位

地方政府收入预算内收入预算外收入社会保障基金收入非税收入

保鲜袋在护理中的应用

保鲜袋巧用于护理中能减轻护士和病人的不少烦恼，现将我们在临床中的应用介绍如下。

期刊

保鲜袋护理应用

人力资本与服务贸易比较优势的相关性研究

在当今世界经济中,服务贸易在一国经济结构中的比重,一定程度上反映出该国的国际竞争力和国际化水平。大多数国家都把发展服务贸易作为实现本国经济现代化的重要途径。对

学位

服务贸易比较优势人力资本异质型人力资本

城市湖泊景观规划设计的研究

水是生命之源,是孕育人类文明的摇篮。水资源更是21世纪国家和城市发展的关键。湖泊作为重要的城市水体形态和财富资源,应得到应有的保护和利用。但是随着工业文明的发展,物

学位

城市湖泊资源保护景观恢复景观规划设计

基于单词间字符统计特征的文本数字水印研究

随着计算机技术和因特网技术的飞速发展,数字作品的传播达到了前所未有的深度和广度,其版权保护也正成为一个迫切需要解决的问题。数字水印是近十年来出现的一种有效的数字产

学位

数字水印文本数字水印内容格式统计特征版权保护

论加快中部地区经济发展

中部地区地处祖国内陆腹地,起着承东启西、接南进北、吸引四面、辐射八方的作用,在全国地域分工中扮演着十分重要的角色。但经过二十多年的改革开放,东部沿海地区借助改革开

学位

中部地区加快经济发展战略选择举措

Ⅰ.射频溅射制备纳米二氧化钛薄膜及其光致特性研究　Ⅱ.含非线性缺陷层的一维光子晶体研究

采用射频磁控溅射（共溅射）技术制备纳米TiO2薄膜、SiO2-TiO2复合薄膜以及金属掺杂的M-TiO2薄膜,并研究其光催化性和光致亲水性。主要工作包括: 1) 采用射频磁控溅射技术室温

学位

薄膜二氧化钛射频溅射光催化光致亲水性一维光子晶体光学非线性缺陷光子带隙硫化镉泵浦-探测双光子吸收

麻辣羊肉松的研制

本试验以新疆羊肉的羊前腿或后腿瘦肉为原料,经过加工研制出香味浓郁、风味独特、营养丰富的特色麻辣羊肉肉松。

期刊

羊肉肉松压力风味

化蛹成蝶

詹姆斯·乔伊斯的《一个青年艺术家的画像》于1914年面世后,在西方文坛引起了不小的反响,被认为是现代西方文学中别树一帜的实验小说。这篇小说的一个成功之处在于运用矛盾象

学位

自由象征艺术

杜甫与宋代文化

两宋是杜学研究史上最辉煌的篇章之一。杜甫这位生前穷愁潦倒、漂泊行吟的诗人,在后世逐步被推上“千古第一诗人”的宝座,有宋三百年的陶铸是最为关键的一段时期。在宋代,杜

学位

杜甫宋代文化接受影响

网页内容过滤的关键技术研究及实现

与本文相关的学术论文